2010/02/28

Unicode 5.1 から導入された IVS では、漢字1文字が最大 8 バイトになるらしい


漢字1文字が最大8バイト、Unicodeの「IVS」とは? - 新常用漢字が引き起こす文字コード問題:ITpro

 

文字コードの記事なので読むのをためらっていたのですが、Unicode 5.1 から導入された IVS (Ideographic Variation Sequence) のために、漢字1文字が UTF-8 でも UTF-16 でも最大 8 バイトになることがあるとのこと。

IVS は同じ漢字の異体字を表すのに、漢字を表すUnicodeの直後に、Variation Selectorと呼ばれるコードを付加するためバイト数が増えてしまうようです。

今まで、Unicode ではサロゲートペア文字や結合文字を考慮する必要がありましたが、これからは IVS も考慮に入れないといけないようですね。

なお、Windows 7 では、この IVS を OS レベルでサポートしているようなので、いずれ対応することは避けられません。

うーん。Unicode の登場によって多言語アプリケーションを作成しやすくなった反面、よけいにややこしくなってしまっていますね。とは言っても、今更新しい文字コードが登場すると余計にややこしくなるので、これ以上 Unicode がややこしくならないことを願うばかりです。 


スポンサーリンク


このエントリーをはてなブックマークに追加




Twitter ではブログにはない、いろんな情報を発信しています。


コメント

コメントを書く



プロフィール

  • 名前:fnya
    経歴:
    SE としての経験は15年以上。様々な言語と環境で業務系システム開発を行い、セキュリティ対策などもしていました。現在は趣味SE。

    Twitter では、ブログでは取り上げない情報も公開しています。


    ブログについて

    このブログは、IT、スマートフォン、タブレット、システム開発などに関するさまざまな話題を取り上げたり、雑感などをつづっています。

    >>ブログ詳細
    >>自作ツール
    >>運営サイト
    >>Windows 10 まとめ

    Twitter のフォローはこちらから Facebook ページはこちら Google+ページはこちら RSSフィードのご登録はこちらから