まつもと ゆきひろです

In message "Re: [ruby-dev:32074] Re: multibyte string/regex literal with escape sequence"
    on Tue, 16 Oct 2007 00:35:44 +0900, "NARUSE, Yui" <naruse / airemix.com> writes:

|もう一案が 7bit かどうかを encoding で知ろうとするのはやめることかと思い
|ます。まつもとさんは今この方向なのですかね。JRubyでどうするかという懸念
|もなくなるので一石二鳥かも。

まず、私は原則的にこちらの方針です。この方針に厳密に従うなら
ばASCII の範囲しか含まないからと言って文字列のencodingを
ASCII-8BITにする必要性はないのですが、

|> ある時点まで ASCII で書いていたソースで、あるとき UTF-8 の文
|> 字列リテラルを書いたとき、そのファイル中の他のすべての文字列
|> リテラルも UTF-8 になる、というのはちょっとナニだな、と思い
|> ます。

ということもあるので、「(C Rubyにおいては)あってもいいか」く
らいの気持ちで受け入れてます。それにこれがあるからと言って

# -*- coding: UTF-8 -*-
str = "あhoge"
str2 = str[1..-1] # => "hoge"
puts str2.encoding #=> UTF-8

という振る舞いが変わるわけではありませんし(つまり、内容が
ASCIIのみだからといっていつもASCII-8BITであるとは限らない)。

                                まつもと ゆきひろ /:|)