須藤です。

From: sheepman <sheepman / tcn.zaq.ne.jp>
Subject: [ruby-list:35882] REXML, UTF8 and pack('U*')
Date: Sun, 8 Sep 2002 15:38:21 +0900
Message-ID: <20020908153820.2bdbadd1.sheepman / tcn.zaq.ne.jp>

> こんにちは、sheepman です。

> Galeon のブックマークでは、例えば「天気予報」という文字列は、
> &#229;&#164;&#169;&#230;&#176;&#151;&#230;&#131;&#133;&#229;&#160;&#177;
> という UTF8 の数値文字参照によって、保存されています。

これって単に1バイト毎に数値に直しているだけなんじゃないんですか?

irb(main):001:0> Uconv.euctou8("天気予報").unpack("C*")
[229, 164, 169, 230, 176, 151, 228, 186, 136, 229, 160, 177]

UTF-8ならこうなるんじゃないかと。

irb(main):002:0> Uconv.euctou8("天気予報").unpack("U*")
[22825, 27671, 20104, 22577]

======================
須藤 功平
kou / cneti.net