後藤@太陽計測です

#出ていってなかったようなので再送

>>>>> at Sat, 14 Nov 1998 19:59:20 +0900
>>>>> 出沢 <dezawa / miya.fujifilm.co.jp> said,

出沢>     /(^|\s)(\w+?\e\$B.*?\e\(B)(\s|$)/ して、

gotoh> 以下はどーなります?(あまりいい例ではないですが)
gotoh> 
gotoh> 1. "漢字 や ひらがな"
gotoh> 2. "漢字 and ひらがな"
gotoh> 3. "漢字andひらがな"

出沢> 3. は 全体が \w+?\e\$B.*?\e\(B に入りますよね?
出沢> あ、  "漢字andひらがなABC" がまずい。 \w*?\e\$B.*?\e\(B\w*?  だ

あれ、\w+? は \w*? の typo?

#何にせよENCODE部分を探すと正規表現はチョー複雑になりますよ。
#NON-ENCODE部を探すようにしないと。。。

gotoh> 「こんな感じ」ではありますが、エンコードすべき文字列はESC$Bで始まるも
gotoh> のばかりじゃないのもちょっと気になる。

出沢> これは "AB漢字" の事ですか? これは 頭の \w*? でカバーと
出沢> 思ったのですが。

いえ、JISといっても始まりのシーケンスはいくつかあるから、です。
日本語に関しては処理に先立ってkconvなどで正規化してあるならOKですね。
あと他国語は考えないのかな、という意味もありますが。。。


出沢>    ISO2022-jp 以外もやれってか?
出沢>    当面は日本語のBBS相手だったから気にしてなかったが、rfc w名乗ると
出沢>    なると必要か。

iso-2022-jpだけでもいいと思います。ただ、それ以外が来たときにそれを
検出できないと、ASCIIとして処理しまってナニかな、ということです。プロ
グラムがコードに関して「これは知ってる、コレは知らない」という自覚を持
つためには必要な処理かと思います。

   
出沢>    、、、、、降りる(ボソッ)

いや、そんなこといわずに(^^;


--- Regards,
 Shun-ichi Goto  <gotoh / taiyo.co.jp>
   R&D Group, TAIYO Corp., Tokyo, JAPAN