文字コードについての基礎知識
文字コードについての基礎知識
Software Design 2016年12月号の特集文字コード攻略マニュアルを読んで、自分用にまとめておく
符号化
文字をビット列で表すこと
例)じゃんけんの種別を符号化したもの
文字 | 符号 |
---|---|
グー | 00 |
チョキ | 01 |
パー | 10 |
文字コード
どの文字をどのようなビット列で表現するか
文字化け
表現と解釈のルールが一致しない場合、情報を正しく扱うことができない
文字コードは視覚的な表現について責務を持たない
その文字がどのように視覚的に表現されるか決定するのはフォント
文字コードの種類
ASCII
American Standard Code for Information Interchangeの略
文字コードの祖先EUC-JP
Extended UNIX Code Packed Format for Japaneseの略
UNIX上で日本語の文字を扱う場合にもっとも多く利用されているShift_JIS(SJISとも呼ばれる)
かつては日本語環境でのデファクトスタンダードCP932
MicrosoftによってShift_JISが拡張されたもの
NEC特殊文字、NEC選定IBM拡張文字、IBM拡張文字が含まれるUTF-8
1文字が1~4バイトで表現される可変長の符号化方式
1バイト文字はASCIIそのものなので、上位互換として普及
ひらがなや漢字は3バイトで表現される