高橋征義です。

From: matz / ruby-lang.org (Yukihiro Matsumoto)
> | 長さが違っていれば最初のバイトが違うことが保証されるのか、と
> |いうところがちょっと気になったのですが。なんか中国語だかのエン
> |コーディングで、2バイト目までみないと長さも分からないというのが
> |あると聞いたような気がします。
> 
> 追加情報希望。

GB18030のことでしょうか。

IBM dWの「GB 18030: A mega-codepage 」
http://www-106.ibm.com/developerworks/library/u-china.html?dwzone=unicode

には、

   ・ Single-byte: 00-80 (*)                                         
   ・ Two-byte: 81-fe | 40-7e, 80-fe
   ・ Four-byte: 81-fe | 30-39 | 81-fe | 30-39                                 

とあります。4バイト文字か2バイト文字かが分かるのは2バイト目を
読んだときのようですね。

その他、GB18030については、「GB18030関連情報」
http://www.jaet.gr.jp/gb18030/
から辿るのがよさそうです。

高橋征義 (TAKAHASHI Masayoshi)   E-mail: maki / open-news.com