31Aug

Који су кодови карактера попут АНСИ и Уницоде, и како се они разликују?

click fraud protection

АСЦИИ, УТФ-8, ИСО-8859. .. Можда сте видели ове чудне моникере који плутају около, али шта заправо значе?Прочитајте док објашњавамо карактер кодирања карактера и како се ови акроними односе на обичан текст који видимо на екрану.

Основни грађевински блокови

Када говоримо о писменом језику, причамо о писама које су грађевински блокови речи, који затим израђују реченице, параграфе и тако даље.Писма су симболи који представљају звуке.Када говорите о језику, говорите о групама звукова које се састају да би се формирало нека врста значења.Сваки језички систем има сложен скуп правила и дефиниција који регулишу те значења.Ако имате реч, то је бескористан, осим ако не знате из којих је језика и користите га са другима који говоре тај језик.

( Поређење Грантове, Тулу и Малајаламске скрипте, Слика из Википедије)

У свету компјутера користимо израз "карактер". Карактер је врста апстрактног концепта, дефинисаног специфичним параметрима, али је основнијединица значења.Латински 'А' није исти као грчки 'алфа' или арапски 'алиф' зато што имају различите контексте - они су из различитих језика и имају мало другачије изговоре - тако да можемо рећи да су различити карактери.Визуелна репрезентација карактера назива се "глиф" и различити скупови глифа називају се фонтови.Групе знакова спадају у "сет" или "репертоар."

instagram viewer

Када унесете став и промените фонт, не мијењате фонетске вриједности слова, мијењате како изгледају.То је само козметичка( али не и непомична!).Неки језици, попут древних египатских и кинеских, имају идеограме;ово представља цјелокупне идеје умјесто звукова, а њихови изговарати могу се разликовати током времена и удаљености.Ако замените један карактер за другу, замењујете идеју.То је више него само промена писама, мења идеограм.

Кодирање знакова

( слика из Википедије)

Када укуцате нешто на тастатури или учитате датотеку, како рачунар зна шта ће се приказати?За то је кодирање карактера.Текст на вашем рачунару није заправо слова, то је серија упарених алфанумеричких вредности.Кодирање карактера делује као кључ за који вриједности одговарају особинама, слично као како правопис диктира који звук одговара оним словима.Морсеов код је нека врста кодирања карактера.Објашњава како групе дугих и кратких јединица као што су звучни сигнали представљају карактере.У Морсеовом коду, карактери су само слова на енглеском, бројке и пуне стопове.Постоји много компјутерских кодова који преведу у слова, бројеве, нагласне ознаке, интерпункцијске знакове, међународне симболе и тако даље.

Често на овој теми, такође се користи појам "кодне странице".Они су у суштини кодирани карактери које користе одређене компаније, често са малим изменама.На пример, кодна страница Виндовс 1252( раније позната као АНСИ 1252) је модификована форма ИСО-8859-1.Оне се углавном користе као интерни систем који се односи на стандардне и модификоване кодове карактера који су специфични за исте системе.У почетку, кодирање карактера није било толико важно јер компјутери нису комуницирали једни са другима.С обзиром на то да се интернет повећава према угледу и умрежавању, што је честа појава, постала је све важнија од свакодневног живота без нас чак ни да је схватимо.

Много различитих типова

( слика из сарах сосиак)

Постоји много различитих кодова кодова, и за то постоји пуно разлога.Који карактер кодира кога одлучите да користите зависи од онога што су ваше потребе.Ако комуницирате на руском језику, има смисла користити кодирање знакова који добро подржава ћирилицу.Ако комуницирате на корејском, онда ћете желети нешто што представљају Хангул и Хању добро.Ако сте математичар, онда желите нешто што има све научне и математичке симболе добро представљене, као и грчке и латинске глифове.Ако сте пранкстер, можда бисте имали користи од преокренутог текста.И, ако желите да све те врсте докумената прегледа било коју особу, желите кодирање које је прилично често и лако доступно.

Хајде да погледамо неке од најчешћих.

( Извод из АСЦИИ таблице, Слика са асциитабле.цом)

  • АСЦИИ - Амерички стандардни код за размену информација је један од старијих кодних кодова.Првобитно је осмишљен на основу телеграфских кодова и еволуирао током времена како би укључио више симбола и неке застареле непринтидиране контролне знакове.То је вероватно основно што можете постићи у смислу савремених система, јер је ограничено на латиничну абецеду без наглашених знакова.Њено 7-битно кодирање омогућава само 128 карактера, због чега постоји неколико неовисних варијанти у употреби широм свијета.
  • ИСО-8859 - Најчешће коришћена група карактеризација код Интернационалне организације за стандардизацију је број 8859. Свако специфично кодирање је означено бројем, често префиксованим описним моникером, нпр.ИСО-8859-3( латински-3), ИСО-8859-6( латински / арапски).То је суперсет АСЦИИ, што значи да су прве 128 вредности кодирања исте као и АСЦИИ.Међутим, то је 8-битни и омогућава 256 карактера, тако да се од ње одиграва и садржи много шири низ карактера, при чему се сваки специфични кодир фокусира на различите скупове критеријума.Латински-1 укључује гомилу наглашених слова и симбола, али је касније замењена ревидираним скупом под називом Латин-9, који укључује ажуриране глифове као што је Еуро симбол.

( Извод тибетанске скрипте, Уницоде в4, из уницоде.орг)

  • Уницоде - Овај кодни стандард има за циљ универзалност.Тренутно садржи 93 скрипте организованих у неколико блокова, са много више у раду.Уницоде функционише другачије од других скупова знакова умјесто директно кодирања глифа, свака вриједност је усмерена даље на "кодну тачку". То су хексадецималне вриједности које одговарају знаковима, али сами глифови су обезбеђени на одвојен начин путем програма, као што је ваш веб прегледач.Ове тачке кодова обично се приказују на следећи начин: У + 0040( што значи "@").Специфични кодови под Уницоде стандардом су УТФ-8 и УТФ-16.УТФ-8 покушава да допусти максималну компатибилност са АСЦИИ.То је 8-битни, али омогућава све карактере помоћу механизма за замјену и више парова вредности по карактеру.УТФ-16 испоручује савршену АСЦИИ компатибилност за потпунију 16-битну компатибилност са стандардом.
  • ИСО-10646 - Ово није стварно кодирање, само скуп знакова Уницоде који је стандардизовао ИСО.То је углавном важно јер је то репертоар карактера који користи ХТМЛ.Неколико напреднијих функција које обезбеђује Уницоде који омогућавају сравнавање и десно на лијево, поред скрипте од лева на десно, недостају.Ипак, веома добро функционише за коришћење на интернету јер омогућава коришћење широког спектра скрипти и омогућава прегледачу да тумачи глифове.То олакшава локализацију.

Који Кодирање треба да користим?

Па, АСЦИИ ради за већину енглеских говорника, али не и за много друго.Често ћете видети ИСО-8859-1, који ради на већини западноевропских језика.Друге верзије ИСО-8859 раде за ћириличне, арапске, грчке или друге специфичне скрипте.Међутим, ако желите да прикажете више скрипти у истом документу или на истој веб страници, УТФ-8 омогућава много бољу компатибилност.Такође добро функционише за људе који користе одговарајуће интерпункцијске знакове, математичке симболе или знакове изван лисице, као што су квадратии и квадратиће.

( више језика у једном документу, Сцреенсхот од гујаратсамацхар.цом)

Међутим, постоје недостаци за сваки скуп.АСЦИИ је ограничен у својим интерпункцијским ознакама, тако да не ради невероватно добро за типографски коректне измене.Да ли сте икада копирали / налепили из Ворда само да бисте имали неку чудну комбинацију глифа?То је недостатак ИСО-8859, или тачније, његова претпостављена интероперабилност са ОС-специфицним кодним странама( ми гледамо у ВАС, Мицрософт!).Главни недостатак УТФ-8 је недостатак одговарајуће подршке у уређивању и објављивању апликација.Још један проблем је што претраживачи често не тумаче и само приказују ознаку наредбе бајт УТФ-8 кодираног карактера.Ово доводи до приказивања нежељених глифа.И, наравно, проглашавањем једног енкодирања и коришћења знакова од другог, а да их не декларише / упућује на веб страницу, отежава се прегледачима да их правилно исправи и да их претраживачи правилно индексирају.

За сопствене документе, рукописе и тако даље, можете користити све што је потребно за обављање посла.Међутим, што се тиче веба, чини се да се већина људи слаже да користи верзију УТФ-8 која не користи ознаку наредбе бајтова, али то није сасвим једногласна.Као што видите, свако карактерно кодирање има сопствену употребу, контекст и снаге и слабости.Као крајњи корисник, вероватно нећете морати да се бавите овим, али сада можете направити додатни корак унапред ако тако одлучите.