興味深深でウオッチしている小波です.
isawa_kz wrote:
> 1ファイルではないです。500ファイルぐらいあります。
> 見出しに規則性はないのですが、見出しの作りは皆同じで、
> 内容だけがことなります。

誰かも書いてますが,内容を書き換えたサンプルデータを何十行か提
示してもらうのが最善だと思います.これまでの説明は,解釈によって
どうにでも取れてしまいます.
--- data.txt ---
Title-1
Title-A
content1
Title-B
content2
content3
Title-2
...
----------------
ひとつの解釈:
これで Title-1, Title-A というのはそもそも "Title-1", "Title-A" という
文字列ではないんですよね.むしろ大見出しや小見出しとし解釈される具体
的な語句がそこにあって,たとえば "青果物概況", "葉物野菜"といったのが
実際には書かれている.目視でカテゴリー分けは可能ですね.でcontent1は 
白菜,上田農協,250円/個
といったデータであるとか.これだと分類辞書をもっていないといけない.

別の解釈:
見出しのつくりは,大見出しが[青果物概況],中見出しは<葉物野菜>となって
いる.くくられていない行が content1,...
これなら正規表現などで引っ掛けてしまえばよい.

きつめに勝手読みをさせてもらいましたが,このままだと雲をつかむような議
論になってしまいます.具体的なファイルの行が提示された瞬間に,クリアな
回答がどどっと集まると思いますね.