星澤といいます。
Rubyで開発したフリーのサーチエンジン「SUZAKU(朱雀)」を
Version 1.00 -> 1.01にアップデートしました。
修正点:
ホームページ巡回時、サイトの探索制限に従うため、robot.txtを
参照していた部分を、robots.txtを参照するように修正。
参照すべきファイル名が間違っていたため、結果的に探索制限の
指定を無視していたバグを修正。
----------------------------------------------------
サーチエンジン「SUZAKU(朱雀)」について:
SUZAKU -- http://hoshizawa.no-ip.com/suzaku/
SUZAKU には、以下のような特徴があります。
・Ruby、eruby、MySQLなどのフリーソフトをベースにしたシステムです。
・SUZAKU は、以下の機能がワンセットになっています。
ホームページのリンクを自動的に探索し、ダウンロード&
インデックス化する機能
キーワードに該当するホームページを検索する機能
ブラウザによるシステムの管理機能
・ホームページのリンクの探索を、指定された同一サイト内に限定する
機能があります。これにより、特定ジャンルのホームページ群を対象
とした、 独自のサーチエンジンを構築することができます。
・プラットフォームには、LinuxベースのPCサーバーを想定しています。
高速検索が可能な MySQL をデータベースに使用しており、
中小規模のサーチエンジンであれば、十分に実用的なシステムを
構築することができます。
例えば、ADSL + PCサーバー(Linux) + SUZAKU を使って、独自の
サーチエンジンを自前のサーバー上に構築し、外部に公開することが
できます。
・ホームページのダウンロード&インデックス化の処理を実行中でも、
キーワードによる検索を行うことができます。
・ダウンロード先のサーバーを分散し、相手のサーバーに過度の負荷を
かけないようにする機能や、robot.txt による探索制限に従う機能を
実装しています。
・プログラム本体は、Ruby および eruby で記述されており、ソースは
公開されています。スクリプト言語による比較的コンパクトなシステム
であり、改造も容易です。
興味をもたれた方がいたら、下記のURLへアクセスしてみて下さい。
SUZAKU -- http://hoshizawa.no-ip.com/suzaku/
---
星澤 隆 / Takashi Hoshizawa
mail: t_hoshizawa / mbg.nifty.com