成瀬です。

Masahiro Sakai wrote:
> 先日たまたま気づいたのですが、KconvでBMPに含まれない文字を変換すると、
> 出力エンコーディングで表現可能であっても、空文字列になってしまうようで
> す。
> これはKconv(= NKF)の仕様なのでしょうか?

はい、現行では仕様です。
nkf 2.0.7 以前 (つまり全て) は BMP 外は捨てています。

そろそろ対応しないとダメですかねぇ。
JIS X 0213 対応とかが出てくると厄介ですが、
BMP 外の UTF-8, UTF-16 対応は可能かな。

なお、ugly hack になりますが、
> NKF.nkf('-w --numchar-input','𝔖')
=> "\340\235\224\226"
irb(main):012:0> NKF.nkf('-w16 --numchar-input','𝔖')
=> "\3305\335\026"
なんてことは今でも可能だったりします。
# つまり、4 bytes UTF-8 や UTF-16 サロゲートペア の入力が非対応

-- 
NARUSE, Yui  <naruse / airemix.com>
DBDB A476 FDBD 9450 02CD 0EFC BCE3 C388 472E C1EA