31Aug
ASCII, UTF-8, ISO-8859. .. אולי ראיתם את הכיוונים המוזרים האלה מרחפים מסביב, אבל מה הם בעצם מתכוונים?המשך לקרוא כפי שאנו מסבירים מה הוא קידוד אופי ואיך ראשי תיבות אלה מתייחסים לטקסט רגיל שאנו רואים על המסך.
אבני יסוד יסודות
כאשר אנו מדברים על שפה כתובה, אנחנו מדברים על אותיות להיות אבני הבניין של מילים, אשר לאחר מכן לבנות משפטים, פסקאות, וכן הלאה.אותיות הן סמלים המייצגים צלילים.כשאתה מדבר על שפה, אתה מדבר על קבוצות של צלילים שמגיעים יחד כדי ליצור איזו משמעות.לכל מערכת שפה יש מערכת מורכבת של כללים והגדרות המשפיעים על משמעויות אלו.אם יש לך מילה, זה חסר תועלת, אלא אם כן אתה יודע מהי השפה ממנה ואתה משתמש בה עם אחרים שמדברים בשפה זו.
( השוואה בין גרנטה, טולו ותסריטים של מליאלאם, תמונה מוויקיפדיה)
בעולם המחשבים אנו משתמשים במונח "אופי". דמות היא סוג של מושג מופשט, המוגדר על ידי פרמטרים ספציפיים, אך הוא היסודיחידת משמעות.הלטינית 'A' אינה זהה ל 'אלפא' יווני או 'אליף' ערבי משום שיש להם הקשרים שונים - הם משפות שונות ויש להם ביטויים שונים במקצת - כך שאנו יכולים לומר שהם דמויות שונות.הייצוג החזותי של דמות נקרא "גליף" וקבוצות שונות של גליפים נקראות גופנים.קבוצות תווים שייכות ל"סט "או ל"רפרטואר".
כאשר מקלידים פסקה ואתה משנה את הגופן, אינך משנה את הערכים הפונטיים של האותיות, אתה משנה את מראהם.זה רק קוסמטי( אבל לא חשוב!).לשפות מסוימות, כמו מצרים ומצרים עתיקים, יש אידיאוגרמות;אלה מייצגים רעיונות שלמים במקום צלילים, והביטוי שלהם יכול להשתנות לאורך זמן ומרחק.אם אתה מחליף תו אחד לשני, אתה מחליף רעיון.זה יותר מסתם שינוי אותיות, זה משנה אידיאוגרמה.
קידוד תווים
( תמונה מתוך ויקיפדיה)
כאשר אתה מקליד משהו על המקלדת, או טוען קובץ, איך המחשב יודע מה להציג?זה מה קידוד אופי הוא.טקסט במחשב שלך אינו בעצם אותיות, זוהי סדרה של ערכים אלפאנומריים משויכים.קידוד התווים משמש כמפתח עבורו ערכים מתאימים לאיזה תווים, בדומה לאופן שבו האורתוגרפיה מכתיבה את הצלילים המתאימים לאיזה אותיות.קוד מורס הוא סוג של קידוד תווים.זה מסביר איך קבוצות של יחידות ארוכות וקצרות כגון צפצופים מייצגים תווים.בקוד מורס, הדמויות הן רק אותיות באנגלית, מספרים ועצירות.יש הרבה קידודים אופי המחשב אשר מתרגמים אותיות, מספרים, סימני מבטא, סימני פיסוק, סמלים בינלאומיים, וכן הלאה.
לעתים קרובות בנושא זה, המונח "דפי קוד" משמש גם.הם למעשה קידודים אופי כמו בשימוש על ידי חברות ספציפיות, לעתים קרובות עם שינויים קלים.לדוגמה, הדף Windows 1252 קוד( לשעבר המכונה ANSI 1252) הוא צורה שונה של ISO-8859-1.הם משמשים בעיקר כמערכת פנימית להתייחס לקידוד תווים תקני ושונה, שהם ספציפיים לאותה מערכת.בשלב מוקדם, קידוד תווים לא היה כל כך חשוב, כי המחשבים לא לתקשר אחד עם השני.עם האינטרנט עולה לגדולה ורשתות להיות התרחשות נפוצה, זה הפך להיות יותר ויותר חשוב של חיי היום יום שלנו בלי שאנחנו אפילו להבין את זה.
הרבה סוגים שונים
( תמונה של שרה sosiak)
יש הרבה קידודים אופי שונים שם בחוץ, ויש הרבה סיבות לכך.איזה קידוד תווים שאתה בוחר להשתמש תלוי מה הם הצרכים שלך.אם אתה מתקשר רוסית, זה הגיוני להשתמש קידוד אופי התומך קירילית היטב.אם אתה מתקשר בקוריאנית, אז אתה רוצה משהו המייצג האנגול ו Hanja היטב.אם אתה מתמטיקאי, אז אתה רוצה משהו שיש לו את כל סמלים מדעיים מתמטיים המיוצגים היטב, כמו גם את הגליפים היוונית והלטינית.אם אתה אצן, אולי היית מרוויח מהטקסט הפוך.בנוסף, אם אתה רוצה את כל סוגי המסמכים האלה כדי להיות מוצג על ידי כל אדם, אתה רוצה קידוד זה די נפוץ נגיש בקלות.
בוא תסתכל על כמה מהם נפוצים יותר.
( קטע מתוך שולחן ASCII, תמונה מ asciitable.com)
- ASCII - קוד התקנון האמריקאי לחילופי מידע הוא אחד מקודדי התווים הישנים.זה תוכנן במקור על בסיס קודים טלגרפיים והתפתח לאורך זמן לכלול סמלים ועוד כמה מיושנים הדמויות שליטה לא מודפס.זה כנראה בסיסי כמו שאתה יכול לקבל במונחים של מערכות מודרניות, כמו זה מוגבל אלפבית הלטיני ללא תווים מודגש.קידוד 7 סיביות שלה מאפשר רק 128 תווים, ולכן יש מספר גרסאות לא רשמי בשימוש ברחבי העולם.
- ISO-8859 - קבוצת קידוד התווים הנפוצה ביותר של הארגון הבינלאומי לתקינה היא מספר 8859. כל קידוד ספציפי מוגדר על ידי מספר, המופיע לעתים קרובות על ידי מונח תיאורי, למשל.ISO-8859-3( Latin-3), ISO-8859-6( לטינית / ערבית).זוהי קבוצת-על של ASCII, כלומר, 128 הערכים הראשונים בקידוד זהים ל- ASCII.זה 8-bit, עם זאת, ומאפשר 256 תווים, אז זה בונה משם וכולל מגוון רחב יותר של תווים, עם כל קידוד ספציפי התמקדות קבוצה שונה של קריטריונים.לטינית -1 כלל חבורה של אותיות וסמלים מודגשים, אך הוחלף מאוחר יותר במערך מתוקן שנקרא Latin-9 הכולל גליפים מעודכנים כמו סמל היורו.
( קטע מתוך התסריט הטיבטי, Unicode v4, מ- unicode.org)
- Unicode - תקן קידוד זה מכוון לאוניברסליות.הוא כולל כיום 93 סקריפטים מאורגנים במספר בלוקים, עם עוד רבים בעבודות.Unicode פועל בצורה שונה מזו של ערכות תווים אחרות שבמקום קידוד ישיר עבור גליף, כל ערך מופנה אל "נקודת קוד". אלה הם ערכים הקסדצימליים התואמים תווים אבל הגליפים עצמם ניתנים באופן מנותק על ידי התוכנית, כגון דפדפן האינטרנט שלך.נקודות קוד אלה מתוארות בדרך כלל כדלקמן: U + 0040( אשר מתרגם ל '@').קידודים ספציפיים תחת תקן Unicode הם UTF-8 ו- UTF-16.UTF-8 מנסה לאפשר תאימות מרבית עם ASCII.זה 8 סיביות, אבל מאפשר את כל הדמויות באמצעות מנגנון החלפה זוגות מרובים של ערכים לכל תו.UTF-16 מטיל תאימות ASCII מושלמת לתאימות מלאה יותר של 16 סיביות עם התקן.
- ISO-10646 - זה לא קידוד בפועל, רק סט אופי של Unicode כי היה סטנדרטי על ידי ISO.זה בעיקר חשוב כי זה הרפרטואר אופי המשמש את HTML.חלק מהפונקציות המתקדמות יותר המסופקות על-ידי Unicode המאפשרות איסוף ו-מימין לשמאל לצד scripting משמאל לימין חסרות.ובכל זאת, זה עובד טוב מאוד לשימוש באינטרנט כפי שהוא מאפשר שימוש במגוון רחב של סקריפטים ומאפשר לדפדפן לפרש את הגליפים.זה עושה לוקליזציה קצת יותר קל.
איזה קידוד עלי להשתמש?
ובכן, ASCII עובד עבור רוב דוברי אנגלית, אבל לא עבור הרבה אחרים.לעתים קרובות יותר תראה את ISO-8859-1, אשר עובד עבור רוב שפות מערב אירופה.הגרסאות האחרות של ISO-8859 עובדות עבור סקריפטים קיריליים, ערבית, יוונית או סקריפטים ספציפיים אחרים.עם זאת, אם ברצונך להציג מספר סקריפטים באותו מסמך או באותו דף אינטרנט, UTF-8 מאפשר תאימות טובה יותר.זה גם עובד טוב מאוד עבור אנשים המשתמשים פיסוק תקין, סמלים מתמטיים, או את התווים מחוץ השרוול, כגון ריבועים תיבות הסימון.
( מספר שפות במסמך אחד, צילום מסך של gujaratsamachar.com)
יש חסרונות לכל קבוצה, עם זאת.ASCII מוגבל בסימני הפיסוק שלו, כך שזה לא עובד טוב במיוחד עבור עריכות נכונה טיפוגרפית.פעם סוג העתק / הדבק מ - Word רק כדי לקבל שילוב מוזר של גליפים?זה החיסרון של ISO-8859, או נכון יותר, אופרביליות כביכול שלה עם דפי קוד ספציפי של מערכת ההפעלה( אנחנו מסתכלים עלייך, מיקרוסופט!).החיסרון העיקרי של UTF-8 הוא היעדר תמיכה הולמת בעריכת ועריכה של יישומים.בעיה נוספת היא שדפדפנים לעיתים קרובות אינם מפרשים ורק מציגים את סימן ההזמנה של בתים של תו מקודד UTF-8.כתוצאה מכך יוצגו גליפים לא רצויים.וכמובן, הכרזה על קידוד אחד ושימוש בתווים מאדם אחר מבלי להכריז / להתייחס אליהם כהלכה בדף אינטרנט מקשה על הדפדפנים להציג אותם כהלכה ולמנועי החיפוש כדי להוסיף אותם לאינדקס.
עבור המסמכים שלך, כתבי יד, וכן הלאה, אתה יכול להשתמש בכל מה שאתה צריך כדי לעשות את העבודה.עם זאת, ככל האינטרנט הולך, עם זאת, נראה כי רוב האנשים מסכימים על שימוש בגירסת UTF-8 שאינו משתמש סימן בייט, אבל זה לא לגמרי פה אחד.כפי שניתן לראות, לכל קידוד תווים יש שימוש משלו, הקשר, חוזקות וחולשות.בתור משתמש הקצה, אתה כנראה לא צריך להתמודד עם זה, אבל עכשיו אתה יכול לקחת את צעד נוסף קדימה אם אתה בוחר.