2010/02/28

Unicode 5.1 から導入された IVS では、漢字1文字が最大 8 バイトになるらしい


漢字1文字が最大8バイト、Unicodeの「IVS」とは? - 新常用漢字が引き起こす文字コード問題:ITpro

 

文字コードの記事なので読むのをためらっていたのですが、Unicode 5.1 から導入された IVS (Ideographic Variation Sequence) のために、漢字1文字が UTF-8 でも UTF-16 でも最大 8 バイトになることがあるとのこと。

IVS は同じ漢字の異体字を表すのに、漢字を表すUnicodeの直後に、Variation Selectorと呼ばれるコードを付加するためバイト数が増えてしまうようです。

今まで、Unicode ではサロゲートペア文字や結合文字を考慮する必要がありましたが、これからは IVS も考慮に入れないといけないようですね。

なお、Windows 7 では、この IVS を OS レベルでサポートしているようなので、いずれ対応することは避けられません。

うーん。Unicode の登場によって多言語アプリケーションを作成しやすくなった反面、よけいにややこしくなってしまっていますね。とは言っても、今更新しい文字コードが登場すると余計にややこしくなるので、これ以上 Unicode がややこしくならないことを願うばかりです。 


スポンサーリンク


このエントリーをはてなブックマークに追加




Twitter ではブログにはない、いろんな情報を発信しています。


コメント

コメントを書く



プロフィール