2005年03月09日

4. SUZAKUの設定

 SUZAKUの設定は、/usr/local/etc/suzaku/conf にある設定ファイルで行います。検索サイトがどの設定ファイルを使用するかは、検索サイトの scripts ディレクトリにある、suzaku_conf.rb ファイルの中で指定されています。

[suzaku_conf.rb ファイルの例 (/var/www/html/eagle/scripts/suzaku_conf.rb) ]
--------------------------------------------------
# suzaku_conf.rb : 設定ファイルの名前を定義する
config_file_name = "eagle.rb"

--------------------------------------------------

[設定ファイル例 (/usr/local/etc/suzaku/conf/eagle.rb) ]
--------------------------------------------------
# eagle.rb : 設定ファイル

# ライブラリのディレクトリパス
suzaku_libpath = "/usr/local/etc/suzaku/lib"


# MySQL データベース接続パラメータ
host = "localhost"
userid = "eagle_user"
password = "abcd1234"
database = "eagle"


# メール設定
mail_server = "localhost"
mail_from = "webmaster@your_site.com"
mail_to = "taro@your_site.com"


# ホームページ巡回時の設定
interval = 259200
time_limit = 28800
start_level = 1
max_level = 9
max_continue = 20
tmp_dir = "/var/tmp/suzaku/eagle"
log_dir = "/var/log/suzaku/eagle"
log_out = true
limit_in_same_site = true
message_out = false
force = false
auto_delete = true


# サイトのカテゴリ文字列
01 = "コンピュータ・ハードウェア"
02 = "コンピュータ・ソフトウェア"

--------------------------------------------------

 設定ファイルの各パラメータは、以下のような意味を持ちます。

パラメータ 指定する内容
suzaku_libpath SUZAKUのシステムライブラリの場所を指定する。
host 使用するMySQLのホスト名を指定する。
userid MySQLに接続するためのユーザーIDを指定する。
password MySQLに接続するためのパスワードを指定する。検索サイトの管理者モードにはいる際のパスワードとしても使用する。
database MySQLのデータベース名を指定する。
mail_server SUZAKUのシステムが発行するメール用のメールサーバーを指定する。
mail_from メールの差出人のアドレスを指定する。
mail_to メールの宛先のアドレスを指定する。
interval 該当ページに最後にアクセスしてから、ここに指定された秒数を経過するまでは、再度分析処理を行わない。
time_limit ここに指定された秒数を経過したら、巡回処理を中断する。
start_level ホームページの巡回を開始するリンクの階層の深さを指定する。通常は1(トップページ)を指定する。
max_level ホームページの巡回を終了するリンクの階層の深さを指定する。
max_continue 巡回時、ここで指定した回数を超えると、他のサイトのページに移る。同一サイトへのアクセスの集中を避けるための指定。
tmp_dir 巡回対象のページを一時的にダウンロードするディレクトリを指定する。
log_dir 巡回処理のログを出力するディレクトリを指定する。
log_out 巡回処理のログを出力するときは true を、出力しないときは false を指定する。
limit_in_same_site 巡回の際に、トップページと異なるサイトの URL を対象外としたい場合には true を指定する。他のサイトの URL も巡回したい場合は false を指定する。
message_out エラーメッセージ以外のメッセージもログに出力する場合は true を指定する。エラーメッセージだけを出力する場合は false を指定する。
force 最後に巡回してから更新されていないページは、処理をスキップしたい場合には false を指定する。すべてのページを、再度処理したい場合には true を指定する。
auto_delete 削除されたり、アクセス不能となったりしたページの情報をデータベースから自動的に削除する場合は true を指定する。削除せずに残しておきたい場合は false を指定する。
01, 02, ... サイトのカテゴリを表す文字列を指定する。カテゴリコードには、2桁の英数字を使用する。

注: interval と time_limit について  大量のサイトを巡回するために、サイトの巡回処理に24時間かかるとします。巡回処理は深夜0:00~8:00までの8時間だけ行い、3日間に分けて行いたいとします。この場合、intervalに、60(s)×60(m)×24(h)×3=259200を、time_limitには、60(s)×60(m)×8(h)=28800を指定します。

投稿者 webmaster : 00:06 | コメント (0) | トラックバック (0)

トラックバック

コメント