2007/09/04

Mac OS X のUTF-8は特殊らしい


Mac OS X上のUnicode(ウノウラボ Unoh Labs)

Mac OS X のUTF-8は、「UTF-8-MAC」というエンコーディング形式で、通常のUTF-8とは違うらしい。

しかも、Mac OS X 上のブラウザにより、「UTF-8-MAC」の実装方法も違う模様。

これは、ややこしいですね。。。

 

(2007.9.5追記)

これは、Unicodeの正規化のお話で、エンコーディングとは別次元のお話のようです。

ueさん、odzさん、情報ありがとうございます!

普通はNFCで正規化するのですが、Mac OS Xはファイル名のNFDで正規化して格納するので、ファイル名でおかしな現象が起きているようです。

NFCとNFDについては、odzさんのところの説明を引用させてください。

Unicode では、濁音/半濁音/アクセント記号(ウムラウト等)がついた文字を合成文字1文字(ガ(U+30AC))で表すことも、基底文字 + 結合文字(カ(U+30AB) + ゛(U+3099))で表すこともできる。前者の方法で正規化したものを NFC(Normalization Form Composition)、後者で正規化したものを NFD(Normalization Form Decomposition)という。

odz buffer - 正規化』より

Unicodeの結合文字の存在は最近ようやく知ったのですが、同じ文字でも扱い方が2つあるとははじめて知りました。まだまだ勉強が足りませんね。。。


スポンサーリンク


このエントリーをはてなブックマークに追加




Twitter ではブログにはない、いろんな情報を発信しています。


コメント

「間違った知識が伝播してしまう気配が…」と指摘されてますよ。
http://d.hatena.ne.jp/odz/20070904/1188884960

これはエンコーディングの問題ではなく、濁音やアクセント記号などの合成文字の表現方法の問題です。Mac に固有という問題というものでもないです。
「Unicode 正規化」で検索すれば詳しく解説しているページがあります。

ueさん、odzさん、情報ありがとうございます!
早速、エントリーを修正いたしました。
文字コード関連の話は分からないことが多く、こうして間違いを指摘していただけるととても助かります。ありがとうございました。

コメントを書く



プロフィール

  • 名前:fnya
    経歴:
    SE としての経験は15年以上。様々な言語と環境で業務系システム開発を行い、セキュリティ対策などもしていました。現在は趣味SE。

    Twitter では、ブログでは取り上げない情報も公開しています。


    ブログについて

    このブログは、IT、スマートフォン、タブレット、システム開発などに関するさまざまな話題を取り上げたり、雑感などをつづっています。

    現在、Enty で支援を受け付けています。もしよければご支援ください。



    >>ブログ詳細
    >>自作ツール
    >>運営サイト
    >>Windows 10 まとめ

    Twitter のフォローはこちらから Facebook ページはこちら Google+ページはこちら RSSフィードのご登録はこちらから