まつもと ゆきひろです

In message "[ruby-list:25093] Re: file separator for Ruby in Windows"
    on 00/09/23, TAKAHASHI Masayoshi <maki / inac.co.jp> writes:

|>  内部コードをどうするかを決めないといけませんね。Unicode固定かロケー
|> ル依存か。
|
|[ruby-list:22608]ではまつもとさんは、
|
||   * 方針は大きく分けるとふたつ、どちらを選ぶか
|| 
||        + 内部コードへの変換
||        + バイナリデータ+エンコーディング情報
|| 
||     前者の方が楽? 世の中の主流?
||     変換のコストは馬鹿にできないような気が
|
|と書かれていましたが、その後の判断や如何に。

そうですねえ。現時点では「Unicodeへの変換問題」や「Unicodeで
現に表現できないスクリプト問題」があるので、内部コードの文字
集合にUnicodeを用いることにはちょっと抵抗があります。

考えているのは

  * 現状の延長線。文字集合とエンコーディングを追加定義可能に
    する。

  * エンコーディングはUTF-8に統一。入出力は適宜変換する。た
    だし、文字コードはUnicodeではなくオリジナル文字コードの
    ものをそのまま使う。つまりEUCの場合「あ」は0xa2a4としま
    す。

  * 各文字に31bit使います(UCS-4相当)。ただし文字コードは(以
    下同文)。

  * 文字集合はUnicode。エンコーディングはUTF-8(PerlやPython
    のやり方)。

  * 文字集合はUnicode。エンコーディングはUCS-4(glibc?)。

のいずれかです。しかし、文字とバイトがずれている現在の状態で
は遅かれ早かれ破綻しそうなので、2番目あたりを選ぶことになる
んではないかなあ。互換性の心配もありますが。

                                まつもと ゆきひろ /:|)