お世話になっております。 A.中村です。

On Sat, 15 Oct 2005 00:49:37 +0900
isawa_kz様 isawa_kz / yahoo.co.jp wrote:

> data.txt から統計を取るためにデータを収集するのですが、
> 統計対象のデータにより、その都度必要となるデータが変わるためです。

データの元ネタを出してる人(か会社?)に、
「今回のデータ」あるいは「このファイル」の
見出し行(の法則性)は
これこれこーなっているよ、
というような情報を
データごとに出してもらうわけには
いかないんでしょうか?

多次元データベース(とかいうんでしたっけ?)の
カラム(っていうのかな)が
今回はどんな名前だとかどんな法則性だとか、
そういった情報を
一次ソースから貰うのが一番理想的ではあります。
交渉の余地とかは無いですか?



> 1ファイルではないです。500ファイルぐらいあります。
> 見出しに規則性はないのですが、見出しの作りは皆同じで、
> 内容だけがことなります。

(機械で抽出できるような)規則性が本当に「無い」ならば
お手上げでしょうね。

とりあえず俺が思いつく「機械で抽出可能な規則性」といえば、
正規表現エンジンとか
構文パーサーとかで
捉えることが可能な範囲の「規則性」
だったりします。
#俺が知らんだけで、もっと他の手も有るのかな?
#まあ何れにせよ何らかの法則性ってことで。
その範囲で収まっていればいいのですが…

もし、収まらないなら…
500個「も」あるファイルを人力でどうにかしようと
していた、という状況自体に、問題を感じますね。
そういう、「わざわざジャンク化させたデータ」を寄越す、
という発想に。

きっと元々は「どれが見出しであるか」というメタデータは
存在していたのじゃないかと想います。
問題はそれがデータから切り捨てられてしまった状態で渡されている
という点なのじゃないかと。