後藤@太陽計測です #出ていってなかったようなので再送 >>>>> at Sat, 14 Nov 1998 19:59:20 +0900 >>>>> 出沢 <dezawa / miya.fujifilm.co.jp> said, 出沢> /(^|\s)(\w+?\e\$B.*?\e\(B)(\s|$)/ して、 gotoh> 以下はどーなります?(あまりいい例ではないですが) gotoh> gotoh> 1. "漢字 や ひらがな" gotoh> 2. "漢字 and ひらがな" gotoh> 3. "漢字andひらがな" 出沢> 3. は 全体が \w+?\e\$B.*?\e\(B に入りますよね? 出沢> あ、 "漢字andひらがなABC" がまずい。 \w*?\e\$B.*?\e\(B\w*? だ あれ、\w+? は \w*? の typo? #何にせよENCODE部分を探すと正規表現はチョー複雑になりますよ。 #NON-ENCODE部を探すようにしないと。。。 gotoh> 「こんな感じ」ではありますが、エンコードすべき文字列はESC$Bで始まるも gotoh> のばかりじゃないのもちょっと気になる。 出沢> これは "AB漢字" の事ですか? これは 頭の \w*? でカバーと 出沢> 思ったのですが。 いえ、JISといっても始まりのシーケンスはいくつかあるから、です。 日本語に関しては処理に先立ってkconvなどで正規化してあるならOKですね。 あと他国語は考えないのかな、という意味もありますが。。。 出沢> ISO2022-jp 以外もやれってか? 出沢> 当面は日本語のBBS相手だったから気にしてなかったが、rfc w名乗ると 出沢> なると必要か。 iso-2022-jpだけでもいいと思います。ただ、それ以外が来たときにそれを 検出できないと、ASCIIとして処理しまってナニかな、ということです。プロ グラムがコードに関して「これは知ってる、コレは知らない」という自覚を持 つためには必要な処理かと思います。 出沢> 、、、、、降りる(ボソッ) いや、そんなこといわずに(^^; --- Regards, Shun-ichi Goto <gotoh / taiyo.co.jp> R&D Group, TAIYO Corp., Tokyo, JAPAN