原です。

From: takagi / center.nitech.ac.jp (TAKAGI Hiromitsu)
Subject: [ruby-list:5444] Re: Mail to HTML
Date: Wed, 26 Nov 97 18:47:52 +0900

>  ・メールの場合、References も In-Reply-To も付けてこない場合がある
>    ので、引用部を抽出して、マッチングをとる。

私の所では Subject が Re: で始まると最も最近の「似ている」Subject
を持つものに繋げています。

>  ・本文の下に、これに follow-up している記事の一覧を付ける。

これをすると2パス以上必要になって、処理に時間がかかるのですよね。
なるべく頻繁にデータを更新したい巨大なメーリングリストだと処理時
間っていうのは結構問題で気にかかる所です。

#私の所は3パス(^^;


> ところで、引用部の抽出はどうやってなさってますか? 「>」や「|」など
> だけをチェックするのは簡単ですが、「takagi>」となっていたりする場合
> もあるので、「複数の行に連続して先頭に同じ文字列がきている場合」とか
> やんなきゃいけないなーなどと思ってましたが…。

そうなんですよ。引用が1行の時もあるし難しいです。結局、こちら
では「ちょーいいかげん」にやっています。例えば、最初の非空白の
行が「です。」あるいは「と申します。」で終ると「名乗り」と判断
するとか。^^;;

凝り出すと面白いですよね。やまださんの、

> Wed, 19 Nov 97 00:08:55 +0900 頃の
>    Mail-Count: 05333
>       Subject: [ruby-list:5333] Re: Mail to HTML   
> についてのお話にて Shin-ichiro HARA さん曰く… 
> (S == Shin-ichiro HARA <sinara / blade.nagaokaut.ac.jp> さん)
> In article 05333, <199711181507.AAA08069 / blade.nagaokaut.ac.jp>
> S> 私もずばり mail2html.rb というのを書いています。
> S> http://blade.nagaokaut.ac.jp/ruby/ml/index.shtml

まで解析できたら完璧?(^^)


スレッド分けですけど、DBM でデータを取っておいて、必要な部分を
判断してそこだけ書き換えるようにしたら、70分かかっていた処理
時間が40秒になってしまった。それにしても DBM は偉大だ。