2007/09/04

Mac OS X のUTF-8は特殊らしい


Mac OS X上のUnicode(ウノウラボ Unoh Labs)

Mac OS X のUTF-8は、「UTF-8-MAC」というエンコーディング形式で、通常のUTF-8とは違うらしい。

しかも、Mac OS X 上のブラウザにより、「UTF-8-MAC」の実装方法も違う模様。

これは、ややこしいですね。。。

 

(2007.9.5追記)

これは、Unicodeの正規化のお話で、エンコーディングとは別次元のお話のようです。

ueさん、odzさん、情報ありがとうございます!

普通はNFCで正規化するのですが、Mac OS Xはファイル名のNFDで正規化して格納するので、ファイル名でおかしな現象が起きているようです。

NFCとNFDについては、odzさんのところの説明を引用させてください。

Unicode では、濁音/半濁音/アクセント記号(ウムラウト等)がついた文字を合成文字1文字(ガ(U+30AC))で表すことも、基底文字 + 結合文字(カ(U+30AB) + ゛(U+3099))で表すこともできる。前者の方法で正規化したものを NFC(Normalization Form Composition)、後者で正規化したものを NFD(Normalization Form Decomposition)という。

odz buffer - 正規化』より

Unicodeの結合文字の存在は最近ようやく知ったのですが、同じ文字でも扱い方が2つあるとははじめて知りました。まだまだ勉強が足りませんね。。。


スポンサーリンク


このエントリーをはてなブックマークに追加




Twitter ではブログにはない、いろんな情報を発信しています。


コメント

「間違った知識が伝播してしまう気配が…」と指摘されてますよ。
http://d.hatena.ne.jp/odz/20070904/1188884960

これはエンコーディングの問題ではなく、濁音やアクセント記号などの合成文字の表現方法の問題です。Mac に固有という問題というものでもないです。
「Unicode 正規化」で検索すれば詳しく解説しているページがあります。

ueさん、odzさん、情報ありがとうございます!
早速、エントリーを修正いたしました。
文字コード関連の話は分からないことが多く、こうして間違いを指摘していただけるととても助かります。ありがとうございました。

コメントを書く



プロフィール