お世話になっております。 A.中村です。 On Sat, 15 Oct 2005 00:49:37 +0900 isawa_kz様 isawa_kz / yahoo.co.jp wrote: > data.txt から統計を取るためにデータを収集するのですが、 > 統計対象のデータにより、その都度必要となるデータが変わるためです。 データの元ネタを出してる人(か会社?)に、 「今回のデータ」あるいは「このファイル」の 見出し行(の法則性)は これこれこーなっているよ、 というような情報を データごとに出してもらうわけには いかないんでしょうか? 多次元データベース(とかいうんでしたっけ?)の カラム(っていうのかな)が 今回はどんな名前だとかどんな法則性だとか、 そういった情報を 一次ソースから貰うのが一番理想的ではあります。 交渉の余地とかは無いですか? > 1ファイルではないです。500ファイルぐらいあります。 > 見出しに規則性はないのですが、見出しの作りは皆同じで、 > 内容だけがことなります。 (機械で抽出できるような)規則性が本当に「無い」ならば お手上げでしょうね。 とりあえず俺が思いつく「機械で抽出可能な規則性」といえば、 正規表現エンジンとか 構文パーサーとかで 捉えることが可能な範囲の「規則性」 だったりします。 #俺が知らんだけで、もっと他の手も有るのかな? #まあ何れにせよ何らかの法則性ってことで。 その範囲で収まっていればいいのですが… もし、収まらないなら… 500個「も」あるファイルを人力でどうにかしようと していた、という状況自体に、問題を感じますね。 そういう、「わざわざジャンク化させたデータ」を寄越す、 という発想に。 きっと元々は「どれが見出しであるか」というメタデータは 存在していたのじゃないかと想います。 問題はそれがデータから切り捨てられてしまった状態で渡されている という点なのじゃないかと。