31Aug

ما هو ترميز الأحرف مثل أنسي و ونيكود، وكيف تختلف؟

click fraud protection

أسي، أوتف-8، إسو-8859. .. كنت قد رأيت هذه القرود الغريبة تطفو حولها، ولكن ماذا يعنيون في الواقع؟اقرأ على النحو الذي نشرح فيه ترميز الأحرف وكيف ترتبط هذه الاختصارات بالنص العادي الذي نراه على الشاشة.

اللبنات الأساسية

عندما نتحدث عن اللغة المكتوبة، نتحدث عن الحروف التي تشكل اللبنات الأساسية للكلمات، والتي تقوم بعد ذلك ببناء الجمل والفقرات، وما إلى ذلك.الحروف هي الرموز التي تمثل الأصوات.عندما تتحدث عن اللغة، تتحدث عن مجموعات من الأصوات التي تجمع معا لتشكل نوعا من المعنى.كل نظام لغوي يحتوي على مجموعة معقدة من القواعد والتعاريف التي تحكم تلك المعاني.إذا كان لديك كلمة، فإنه لا طائل منه إلا إذا كنت تعرف ما هي اللغة وانها تستخدمه مع الآخرين الذين يتكلمون تلك اللغة.

( مقارنة غرانثا، تولو، والمالايالامية مخطوطات، صورة من ويكيبيديا)

في عالم أجهزة الكمبيوتر، ونحن نستخدم مصطلح "حرف". حرف هو نوع من مفهوم مجرد، التي تحددها معايير محددة، ولكنها أساسيةوحدة المعنى.اللاتينية "أ" ليست هي نفسها "ألفا" اليونانية أو العربية "أليف" لأن لديهم سياقات مختلفة - انهم من لغات مختلفة ولها كلمات مختلفة قليلا - حتى نتمكن من القول بأنهم شخصيات مختلفة.ويسمى التمثيل البصري للحرف "حرفا" وتسمى مجموعات مختلفة من الحروف الرسومية الخطوط.مجموعات الأحرف تنتمي إلى "مجموعة" أو "مرجع".

instagram viewer

عندما تكتب فقرة وتغيير الخط، فإنك لا تغير القيم الصوتية للحروف، فأنت تغير الطريقة التي تبدو بها.انها مجرد مستحضرات التجميل( ولكن ليس غير مهم!).بعض اللغات، مثل المصرية القديمة والصينية، لديها أيديوغرام.وهذه تمثل أفكارا كاملة بدلا من الأصوات، ويمكن النطق بها تختلف مع مرور الوقت والمسافة.إذا استبدلت حرفا لآخر، فأنت تستبدل فكرة.انها أكثر من مجرد تغيير الحروف، انها تغيير ايديوجرام.

ترميز الأحرف

( صورة من ويكيبيديا)

عند كتابة شيء ما على لوحة المفاتيح، أو تحميل ملف، كيف يمكن للكمبيوتر معرفة ما لعرضه؟هذا ما هو ترميز الأحرف ل.النص على جهاز الكمبيوتر الخاص بك ليس في الواقع رسائل، انها سلسلة من القيم الأبجدية الرقمية المقترنة.يعمل ترميز الأحرف كمفتاح تتطابق قيمته مع الأحرف التي تشبه إلى حد كبير كيفية إملاء الإملاء الذي يتطابق مع الحروف.مورس هو نوع من ترميز الأحرف.وهو يفسر كيف مجموعات من وحدات طويلة وقصيرة مثل الصفافير تمثل حرفا.في مورس، الأحرف هي مجرد الحروف الإنجليزية والأرقام، ومواقف كاملة.هناك العديد من ترميزات أحرف الكمبيوتر التي تترجم إلى أحرف وأرقام وعلامات لهجة وعلامات ترقيم ورموز دولية وما إلى ذلك.

في كثير من الأحيان حول هذا الموضوع، يتم استخدام مصطلح "صفحات التعليمات البرمجية" أيضا.فهي أساسا ترميزات حرف كما تستخدم من قبل شركات محددة، في كثير من الأحيان مع تعديلات طفيفة.على سبيل المثال، صفحة التعليمات البرمجية ويندوز 1252( المعروفة سابقا باسم أنسي 1252) هو نموذج معدلة من إسو-8859-1.وهي تستخدم في الغالب كنظام داخلي للإشارة إلى ترميزات الأحرف القياسية والمعدلة الخاصة بالنظم نفسها.في وقت مبكر، ترميز الأحرف لم يكن مهما جدا لأن أجهزة الكمبيوتر لم التواصل مع بعضها البعض.مع ارتفاع الإنترنت إلى بروز والشبكات كونها شائعة، أصبح من أهمية متزايدة من حياتنا اليومية دون أن ندرك حتى ذلك.

العديد من أنواع مختلفة

( صورة من سارة سوسياك)

هناك الكثير من ترميزات حرف مختلفة هناك، وهناك الكثير من الأسباب لذلك.يعتمد ترميز الأحرف الذي تختار استخدامه على احتياجاتك.إذا كنت التواصل باللغة الروسية، فمن المنطقي استخدام ترميز الأحرف التي تدعم جيدا السيريلية.إذا كنت التواصل باللغة الكورية، ثم سوف تريد شيئا يمثل هانغول وهانجا بشكل جيد.إذا كنت عالم رياضيات، فأنت تريد شيئا لديه كل من الرموز العلمية والرياضية ممثلة بشكل جيد، وكذلك الحروف اليونانية واللاتينية.إذا كنت مخادع، ربما كنت الاستفادة من النص رأسا على عقب.وإذا كنت تريد أن ينظر إلى كل هذه الأنواع من الوثائق من قبل أي شخص معين، تريد ترميز هذا شائع جدا ويمكن الوصول إليها بسهولة.

دعونا نلقي نظرة على بعض أكثر شيوعا.

( مقتطف من جدول أسي، صورة من asciitable.com)

  • أسي - الرمز القياسي الأمريكي لتبادل المعلومات هو واحد من ترميزات الأحرف القديمة.وقد وضعت أصلا على أساس رموز التلغرافية وتطورت مع مرور الوقت لتشمل المزيد من الرموز وبعض أحرف التحكم غير المطبوعة الآن.ربما يكون أساسيا كما يمكنك الحصول على من حيث النظم الحديثة، لأنها تقتصر على الأبجدية اللاتينية دون أحرف معلمة.تشفير 7 بت يسمح فقط 128 حرفا، وهذا هو السبب هناك العديد من المتغيرات غير الرسمية في استخدام في جميع أنحاء العالم.
  • إسو-8859 - المجموعة الأكثر استخداما على نطاق واسع لتشفيرات الأحرف هي الرقم 8859. يتم تعيين كل ترميز معين برقم، وغالبا ما يسبقه أحد الوصفي الوصفي، على سبيل المثال.إسو-8859-3( لاتين-3)، إسو-8859-6( اللاتينية / العربية).انها مجموعة من أسي، وهذا يعني أن أول 128 القيم في الترميز هي نفس أسي.هو 8 بت، ومع ذلك، ويسمح ل 256 حرفا، لذلك يبني من هناك ويشمل مجموعة واسعة من الأحرف، مع كل ترميز معين مع التركيز على مجموعة مختلفة من المعايير.اللاتينية 1 شملت مجموعة من الحروف والرموز معلمة، ولكن تم استبدالها في وقت لاحق مع مجموعة منقحة تسمى اللاتينية 9 التي تتضمن الرموز المحدثة مثل رمز اليورو.

( مقتطف من النص التبتي، ونيكود v4، من unicode.org)

  • ونيكود - يهدف هذا المعيار ترميز في العالمية.ويضم حاليا 93 مخطوطة نظمت في عدة كتل، مع العديد من الأعمال في هذا المجال.ونيكود يعمل بشكل مختلف عن مجموعات الأحرف الأخرى في ذلك بدلا من الترميز مباشرة لرمزية، يتم توجيه كل قيمة أخرى إلى "نقطة التعليمات البرمجية". هذه هي القيم الست عشرية التي تتوافق مع الأحرف ولكن يتم توفير الحروف نفسها بطريقة منفصلة من قبل البرنامج، مثل متصفح الويب.ويشار إلى هذه النقاط الرمز عادة كما يلي: U + 0040( الذي يترجم إلى '@').ترميزات محددة تحت معيار ونيكود هي أوتف-8 و أوتف-16.محاولات أوتف-8 للسماح بأقصى قدر من التوافق مع أسي.انها 8 بت، ولكن يسمح لجميع الأحرف عن طريق آلية إحلال وأزواج متعددة من القيم لكل حرف.أوتف-16 خنادق مثالية التوافق أسي لأكثر اكتمالا 16 بت التوافق مع المعيار.
  • إسو-10646 - هذا ليس ترميز فعلي، مجرد مجموعة أحرف من ونيكود التي تم توحيدها من قبل إسو.انها في الغالب مهم لأنه هو المرجع شخصية المستخدمة من قبل هتمل.بعض الوظائف الأكثر تقدما التي تقدمها ونيكود التي تسمح للترتيب ومن اليمين إلى اليسار جنبا إلى جنب مع البرمجة من اليسار إلى اليمين مفقود.ومع ذلك، فإنه يعمل بشكل جيد جدا للاستخدام على شبكة الإنترنت لأنها تسمح لاستخدام مجموعة واسعة من البرامج النصية ويسمح للمتصفح لتفسير الحروف الرسومية.وهذا يجعل التوطين أسهل نوعا ما.

ما هو التشفير الذي يجب استخدامه؟

حسنا، يعمل أسي لمعظم المتحدثين باللغة الإنجليزية، ولكن ليس لشيء آخر.في كثير من الأحيان سوف تكون رؤية إسو-8859-1، الذي يعمل لمعظم لغات أوروبا الغربية.النسخ الأخرى من إسو-8859 تعمل باللغة السيريلية، العربية، اليونانية، أو غيرها من البرامج النصية المحددة.ومع ذلك، إذا كنت ترغب في عرض العديد من البرامج النصية في نفس المستند أو على نفس صفحة الويب، أوتف-8 يسمح التوافق أفضل بكثير.كما أنها تعمل بشكل جيد حقا للأشخاص الذين يستخدمون علامات الترقيم المناسبة، رموز الرياضيات، أو خارج الكفة الأحرف، مثل مربعات وخانات.

( لغات متعددة في وثيقة واحدة، لقطة من gujaratsamachar.com)

هناك عيوب لكل مجموعة، ومع ذلك.أسي محدودة في علامات الترقيم، لذلك لا يعمل بشكل لا يصدق بشكل جيد لتصحيح التعديلات تيبوغرافيكالي.من أي وقت مضى نوع نسخ / لصق من ورد فقط أن يكون بعض مزيج غريب من الحروف الرسومية؟هذا هو عيب إسو-8859، أو بشكل أكثر صحيح، من المفترض التشغيل المشترك مع صفحات التعليمات البرمجية الخاصة بنظام التشغيل( ونحن ننظر في يو، مايكروسوفت!).العائق الرئيسي أوتف-8 هو عدم وجود الدعم المناسب في تحرير ونشر التطبيقات.وهناك مشكلة أخرى هي أن المتصفحات غالبا لا تفسر وتظهر فقط علامة ترتيب البايت من حرف ترميز أوتف-8.يؤدي ذلك إلى ظهور رموز غير مرغوب فيها.وبطبيعة الحال، فإن الإعلان عن ترميز واحد واستخدام شخصيات من آخر دون إعلان / الرجوع إليها بشكل صحيح على صفحة ويب يجعل من الصعب على المتصفحات لجعلها بشكل صحيح ومحركات البحث لفهرسة لهم بشكل مناسب.

بالنسبة للمستندات الخاصة بك، والمخطوطات، وهكذا دواليك، يمكنك استخدام كل ما تحتاجه لإنجاز هذه المهمة.على الرغم من أن يذهب على شبكة الإنترنت، على الرغم من ذلك، يبدو أن معظم الناس يتفقون على استخدام نسخة أوتف-8 التي لا تستخدم علامة النظام بايت، ولكن هذا ليس بالإجماع تماما.كما ترون، كل ترميز الأحرف له استخدامه الخاص، والسياق، ونقاط القوة والضعف.كمستخدم نهائي، ربما لن يكون لديك للتعامل مع هذا، ولكن الآن يمكنك أن تأخذ خطوة إضافية إلى الأمام إذا اخترت ذلك.