pull request を送ったあいざわです。

文字化けは残念だなぁとおもって軽い気持ちで送ってみたのですが、改めて調べてみると nkf --guess で非ASCIIと
判定されるファイルがたくさんありますね。なかにはテストの都合などで敢えてそうしているものもあるんでしょうか。。。

個人的には明らかにドキュメントであるようなファイルについてはUTF-8に統一で良いとおもっています。

以下調査結果です。

- 非ASCII、非BINARYのファイル 189コ
$ git ls-files | xargs nkf --guess | grep -v 'ASCII' | grep -v 'BINARY' | wc -l
189
-- 189のうち、EUC-JPと判定されるもの 120コ
$ git ls-files | xargs nkf --guess | grep -v 'ASCII' | grep -v
'BINARY' | grep 'EUC-JP' | wc -l
120
-- 189のうち、Shit_JISと判定されるもの 33 コ
y$ git ls-files | xargs nkf --guess | grep -v 'ASCII' | grep -v
'BINARY' | grep 'Shift_JIS' | wc -l
33
-- 189のうち、UTF-8と判定されるもの 30 コ
$ git ls-files | xargs nkf --guess | grep -v 'ASCII' | grep -v
'BINARY' | grep 'UTF-8' | wc -l
30
-- それ以外
y$ git ls-files | xargs nkf --guess | grep -v 'ASCII' | grep -v
'BINARY' | grep -v 'EUC-JP' | grep -v 'Shift_JIS' | grep -v 'UTF-8'
COPYING.ja:ISO-2022-JP
ext/nkf/nkf-utf8/nkf.c:ISO-2022-JP
lib/irb/slex.rb:ISO-2022-JP
test/rexml/data/t63-1.xml:UTF-16
test/rexml/data/t63-2.svg:UTF-16
test/rexml/data/ticket_110_utf16.xml:UTF-16