Note to Self

自分用のメモ置き場

文字コードについての基礎知識

文字コードについての基礎知識

Software Design 2016年12月号の特集文字コード攻略マニュアルを読んで、自分用にまとめておく

符号化

文字をビット列で表すこと

例)じゃんけんの種別を符号化したもの

文字 符号
グー 00
チョキ 01
パー 10

文字コード

どの文字をどのようなビット列で表現するか

文字化け

表現と解釈のルールが一致しない場合、情報を正しく扱うことができない

文字コードは視覚的な表現について責務を持たない

その文字がどのように視覚的に表現されるか決定するのはフォント

文字コードの種類

  • ASCII
    American Standard Code for Information Interchangeの略
    文字コードの祖先

  • Unicode
    世界中の文字を1つの符号化文字集合に収めようとする規格
    4バイト

  • EUC-JP
    Extended UNIX Code Packed Format for Japaneseの略
    UNIX上で日本語の文字を扱う場合にもっとも多く利用されている

  • Shift_JISSJISとも呼ばれる)
    かつては日本語環境でのデファクトスタンダード

  • CP932
    MicrosoftによってShift_JISが拡張されたもの
    NEC特殊文字NEC選定IBM拡張文字、IBM拡張文字が含まれる

  • UTF-8
    1文字が1~4バイトで表現される可変長の符号化方式
    1バイト文字はASCIIそのものなので、上位互換として普及
    ひらがなや漢字は3バイトで表現される