Unicode 5.1 から導入された IVS では、漢字1文字が最大 8 バイトになるらしい
漢字1文字が最大8バイト、Unicodeの「IVS」とは? - 新常用漢字が引き起こす文字コード問題:ITpro
文字コードの記事なので読むのをためらっていたのですが、Unicode 5.1 から導入された IVS (Ideographic Variation Sequence) のために、漢字1文字が UTF-8 でも UTF-16 でも最大 8 バイトになることがあるとのこと。
IVS は同じ漢字の異体字を表すのに、漢字を表すUnicodeの直後に、Variation Selectorと呼ばれるコードを付加するためバイト数が増えてしまうようです。
今まで、Unicode ではサロゲートペア文字や結合文字を考慮する必要がありましたが、これからは IVS も考慮に入れないといけないようですね。
なお、Windows 7 では、この IVS を OS レベルでサポートしているようなので、いずれ対応することは避けられません。
うーん。Unicode の登場によって多言語アプリケーションを作成しやすくなった反面、よけいにややこしくなってしまっていますね。とは言っても、今更新しい文字コードが登場すると余計にややこしくなるので、これ以上 Unicode がややこしくならないことを願うばかりです。
スポンサーリンク
Twitter ではブログにはない、いろんな情報を発信しています。
@fnyaさんをフォロー
コメント