31Aug
ASCII, UTF-8, ISO-8859. .. Anda mungkin pernah melihat moniker aneh ini mengambang di sekitar, tapi apa yang sebenarnya mereka maksudkan? Baca terus saat kami menjelaskan pengkodean karakter apa dan bagaimana akronim ini berhubungan dengan teks biasa yang kami lihat di layar.
Bangunan Dasar Mendeklarasikan
Ketika kita berbicara tentang bahasa tertulis, kita berbicara tentang huruf-huruf menjadi blok kata-kata bangunan, yang kemudian membangun kalimat, paragraf, dan sebagainya. Huruf adalah simbol yang mewakili suara. Ketika Anda berbicara tentang bahasa, Anda berbicara tentang kelompok suara yang berkumpul untuk membentuk semacam makna. Setiap sistem bahasa memiliki seperangkat aturan dan definisi yang kompleks yang mengatur makna tersebut. Jika Anda memiliki sebuah kata, itu tidak ada gunanya kecuali Anda tahu bahasa apa itu dan Anda menggunakannya dengan orang lain yang berbicara bahasa itu.
Dalam dunia komputer, kita menggunakan istilah "karakter." Karakter adalah semacam konsep abstrak, yang didefinisikan oleh parameter tertentu, namun ini adalah dasar.satuan makna. Bahasa Latin 'A' tidak sama dengan bahasa Yunani 'alfa' atau alif Arab 'karena mereka memiliki konteks yang berbeda - bahasa ini berasal dari bahasa yang berbeda dan memiliki pengucapan yang sedikit berbeda - sehingga kita dapat mengatakan bahwa itu adalah karakter yang berbeda. Representasi visual karakter disebut "mesin terbang" dan set mesin terbang yang berbeda disebut font. Kelompok karakter termasuk dalam "kumpulan" atau "repertoar."
Saat Anda mengetikkan sebuah paragraf dan Anda mengubah fontnya, Anda tidak mengubah nilai fonetik huruf-hurufnya, Anda mengubah tampilannya. Ini hanya kosmetik( tapi tidak penting!).Beberapa bahasa, seperti bahasa Mesir dan Cina kuno, memiliki ideogram;Ini mewakili keseluruhan gagasan, bukan suara, dan pengucapannya dapat bervariasi dari waktu ke waktu dan jarak. Jika Anda mengganti satu karakter dengan karakter lain, Anda mengganti sebuah gagasan. Ini lebih dari sekadar mengganti huruf, ini mengubah sebuah ideogram.
Pengkodean Karakter
( Gambar dari Wikipedia)
Saat Anda mengetikkan sesuatu pada keyboard, atau memuat file, bagaimana komputer tahu apa yang akan ditampilkan? Itulah yang dimaksud dengan pengkodean karakter. Teks di komputer Anda sebenarnya bukan huruf, ini adalah serangkaian nilai alfanumerik pasangan. Pengkodean karakter bertindak sebagai kunci yang sesuai dengan nilai karakter, sama seperti bagaimana bunyi ortografi yang berbunyi sesuai dengan huruf. Kode Morse adalah sejenis pengkodean karakter. Ini menjelaskan bagaimana kelompok unit panjang dan pendek seperti beep mewakili karakter. Dalam kode Morse, karakternya hanya huruf Inggris, angka, dan pemberhentian penuh. Ada banyak pengkodean karakter komputer yang diterjemahkan ke dalam huruf, angka, tanda aksen, tanda baca, simbol internasional, dan sebagainya.
Seringkali pada topik ini, istilah "halaman kode" juga digunakan. Mereka pada dasarnya adalah pengkodean karakter seperti yang digunakan oleh perusahaan tertentu, seringkali dengan sedikit modifikasi. Sebagai contoh, halaman kode Windows 1252( sebelumnya dikenal sebagai ANSI 1252) adalah bentuk modifikasi dari ISO-8859-1.Mereka kebanyakan digunakan sebagai sistem internal untuk merujuk pada pengkodean karakter standar dan dimodifikasi yang spesifik untuk sistem yang sama. Pada awal, pengkodean karakter tidak begitu penting karena komputer tidak berkomunikasi satu sama lain. Dengan internet yang semakin menonjol dan jejaring menjadi hal yang biasa terjadi, hal itu telah menjadi semakin penting dalam kehidupan sehari-hari kita bahkan tanpa kita sadari.
Banyak Jenis Berbeda
( Ada banyak pengkodean karakter yang berbeda di luar sana, dan ada banyak alasan untuk itu. Encoding karakter yang Anda pilih untuk digunakan bergantung pada kebutuhan Anda. Jika Anda berkomunikasi dalam bahasa Rusia, masuk akal untuk menggunakan pengkodean karakter yang mendukung sumur Cyrillic. Jika Anda berkomunikasi dalam bahasa Korea, maka Anda menginginkan sesuatu yang mewakili Hangul dan Hanja dengan baik. Jika Anda seorang matematikawan, maka Anda menginginkan sesuatu yang memiliki semua simbol ilmiah dan matematika yang terwakili dengan baik, begitu pula mesin terbang Yunani dan Latin. Jika Anda seorang lelucon, mungkin Anda akan mendapatkan keuntungan dari teks terbalik. Dan, jika Anda menginginkan semua jenis dokumen itu dilihat oleh orang tertentu, Anda menginginkan sebuah pengkodean yang cukup umum dan mudah diakses.
Mari kita lihat beberapa yang lebih umum.
( Kutipan tabel ASCII, Gambar dari asciitable.com)
- ASCII - Kode Standar Amerika untuk Informasi Interchange adalah salah satu pengkodean karakter yang lebih tua. Ini awalnya dirancang berdasarkan kode telegrafik dan berkembang dari waktu ke waktu untuk memasukkan lebih banyak simbol dan beberapa karakter kontrol non-cetak yang sudah ketinggalan zaman. Ini mungkin sangat mendasar seperti yang bisa Anda dapatkan dari segi sistem modern, karena ini terbatas pada alfabet Latin tanpa karakter aksen. Enkoding 7-bitnya hanya memungkinkan 128 karakter, karena itulah ada beberapa varian tidak resmi yang digunakan di seluruh dunia.
- ISO-8859 - Kelompok pengkodean karakter yang paling banyak digunakan oleh Organisasi Internasional untuk Standardisasi adalah nomor 8859. Setiap pengkodean spesifik ditentukan oleh sebuah nomor, yang sering diawali oleh moniker deskriptif, mis. ISO-8859-3( Latin-3), ISO-8859-6( Latin / Arab).Ini adalah superset dari ASCII, yang berarti bahwa 128 nilai pertama dalam pengkodean sama dengan ASCII.Ini 8-bit, bagaimanapun, dan memungkinkan 256 karakter, jadi terbangun dari sana dan mencakup karakter yang jauh lebih luas, dengan masing-masing pengkodean spesifik berfokus pada seperangkat kriteria yang berbeda. Latin-1 menyertakan sekumpulan huruf dan simbol beraksen, namun kemudian diganti dengan rangkaian yang direvisi yang disebut Latin-9 yang mencakup mesin terbang yang diperbarui seperti simbol Euro.
( Kutipan naskah Tibet, Unicode v4, dari unicode.org)
- Unicode - Standar pengkodean ini bertujuan universalitas. Saat ini mencakup 93 naskah yang disusun di beberapa blok, dengan lebih banyak lagi dalam karya. Unicode bekerja secara berbeda dari set karakter lainnya yang bukan langsung mengkodekan mesin terbang, masing-masing nilai diarahkan lebih jauh ke "kode titik." Ini adalah nilai heksadesimal yang sesuai dengan karakter tapi mesin terbang itu sendiri disediakan secara terpisah oleh program, seperti browser web Anda. Poin kode ini biasanya digambarkan sebagai berikut: U + 0040( yang diterjemahkan ke '@').Penyandiaksaraan spesifik dengan standar Unicode adalah UTF-8 dan UTF-16.UTF-8 mencoba untuk memungkinkan kompatibilitas maksimum dengan ASCII.Ini 8-bit, tapi memungkinkan untuk semua karakter melalui mekanisme substitusi dan beberapa pasang nilai per karakter. UTF-16 parit kompatibilitas ASCII yang sempurna untuk kompatibilitas 16 bit yang lebih lengkap dengan standar.
- ISO-10646 - Ini bukan pengkodean sebenarnya, hanya seperangkat karakter Unicode yang telah distandarisasi oleh ISO.Ini sangat penting karena ini adalah repertoar karakter yang digunakan oleh HTML.Beberapa fungsi yang lebih maju yang disediakan oleh Unicode yang memungkinkan pengumpulan dan hak-ke-kiri bersamaan dengan skrip kiri-ke-kanan tidak ada. Namun, ini bekerja sangat baik untuk digunakan di internet karena memungkinkan penggunaan berbagai skrip dan memungkinkan browser menafsirkan mesin terbang. Hal ini membuat lokalisasi agak mudah.
Pengkodean apa yang harus saya gunakan?
Nah, ASCII bekerja untuk sebagian besar penutur bahasa Inggris, tapi tidak untuk banyak hal lain. Lebih sering Anda akan melihat ISO-8859-1, yang bekerja untuk sebagian besar bahasa Eropa Barat. Versi lain dari ISO-8859 bekerja untuk skrip Cyrillic, Arabic, Greek, atau script spesifik lainnya. Namun, jika Anda ingin menampilkan beberapa skrip dalam dokumen yang sama atau pada halaman web yang sama, UTF-8 memungkinkan kompatibilitas jauh lebih baik. Ini juga bekerja sangat baik untuk orang-orang yang menggunakan tanda baca, simbol matematika, atau karakter manset yang tepat, seperti kotak dan kotak centang.
( Beberapa bahasa dalam satu dokumen, Screenshot dari gujaratsamachar.com)
Ada kekurangan untuk setiap rangkaian. ASCII terbatas pada tanda baca, sehingga tidak bekerja dengan baik untuk pengeditan tipografi yang benar. Pernah ketik copy / paste dari Word hanya untuk memiliki beberapa kombinasi aneh dari mesin terbang? Itulah kelemahan ISO-8859, atau lebih tepatnya, interoperabilitas yang diharapkan dengan halaman kode khusus OS( kami melihat ANDA, Microsoft!).Kelemahan utama UTF-8 adalah kurangnya dukungan yang memadai dalam mengedit dan menerbitkan aplikasi. Masalah lainnya adalah browser sering tidak menafsirkan dan hanya menampilkan tanda pesanan byte dari karakter yang dikodekan UTF-8.Hal ini menyebabkan mesin terbang yang tidak diinginkan ditampilkan. Dan tentu saja, mendeklarasikan satu pengkodean dan menggunakan karakter dari karakter lain tanpa menyatakan / merujuk mereka dengan benar di halaman web membuat browser sulit untuk membuatnya dengan benar dan agar mesin pencari mengindeksnya dengan tepat.
Untuk dokumen Anda sendiri, manuskrip, dan sebagainya, Anda dapat menggunakan apapun yang Anda butuhkan untuk menyelesaikan pekerjaan. Sejauh web berjalan, meskipun, tampaknya kebanyakan orang setuju untuk menggunakan versi UTF-8 yang tidak menggunakan urutan byte, tapi itu tidak sepenuhnya bulat. Seperti yang dapat Anda lihat, masing-masing pengkodean karakter memiliki penggunaan, konteks, dan kekuatan dan kelemahannya sendiri. Sebagai pengguna akhir, Anda mungkin tidak perlu berurusan dengan ini, tapi sekarang Anda dapat mengambil langkah ekstra jika Anda memilihnya.