まつもと ゆきひろです

In message "[ruby-list:35177] Re: ANNOUNCE: REXML	のドキュメントの和訳を公開しました。"
    on 02/05/17, TAKAHASHI Masayoshi <maki / inac.co.jp> writes:

|* (数値)文字参照の展開
|
|    XMLでは、「&#x9AD8;」といった文字参照は、Unicodeのコードポイントを
|    指定することになっています。UTF-8に決め打ちであれば特に問題ない
|    のですが、Shift_JISやEUC-JPのような、Unicodeベースではないencoding
|    に変換する場合、
|     * 変換表が必要
|     * そのencodingで表現できない文字が来た場合、悩ましい
|    といった問題が生じます。
|
|    もちろん文字参照を展開しないことにすればいいんですが、
|    XML的には「文字参照」とその「参照される文字」は等価で、
|    暗黙に変換されることが期待されやすいように思います。

ふむむ、世の中で

 <?xml version="1.0" encoding="Shift_JIS"?>

なXMLをけっこう見かけるのですが、これらを処理するソフトウェ
ア(MSXMLなのかな)はどうしてるんですかね。やっぱり内部的には
UTF(-8?)にしてるんでしょうか?

|XMLはUnicodeべったりなので仕方ないんじゃないでしょうか。なんせ
|文法の規定の中にUnicodeのコードポイントがへーきで書かれている
|ような規格ですから。

そーかあ。
                                まつもと ゆきひろ /:|)