2007年09月20日

4. SUZAKUの設定

 SUZAKUの設定は suzaku_conf.rb ファイルで行います。

 設定ファイルの各パラメータは、以下のような意味を持ちます。

パラメータ 指定する内容
site_name サイト名を指定する。
image_file_directry SUZAKUで使用する画像ファイルをおくディレクトリを指定する。
host 使用するMySQLのホスト名を指定する。
userid MySQLに接続するためのユーザーIDを指定する。
password MySQLに接続するためのパスワードを指定する。検索サイトの管理者モードにはいる際のパスワードとしても使用する。
database MySQLのデータベース名を指定する。
root_userid MySQLの管理者のユーザーIDを指定する。
database MySQLの管理者のパスワードを指定する。
mail_server SUZAKUのシステムが発行するメール用のメールサーバーを指定する。
mail_from メールの差出人のアドレスを指定する。
mail_to メールの宛先のアドレスを指定する。
interval 該当ページに最後にアクセスしてから、ここに指定された秒数を経過するまでは、再度分析処理を行わない。
time_limit ここに指定された秒数を経過したら、巡回処理を中断する。
start_level ホームページの巡回を開始するリンクの階層の深さを指定する。通常は1(トップページ)を指定する。
max_level ホームページの巡回を終了するリンクの階層の深さを指定する。
max_continue 巡回時、ここで指定した回数を超えると、他のサイトのページに移る。同一サイトへのアクセスの集中を避けるための指定。
tmp_dir 巡回対象のページを一時的にダウンロードするディレクトリを指定する。
log_dir 巡回処理のログを出力するディレクトリを指定する。
log_out 巡回処理のログを出力するときは true を、出力しないときは false を指定する。
limit_in_same_site 巡回の際に、トップページと異なるサイトの URL を対象外としたい場合には true を指定する。他のサイトの URL も巡回したい場合は false を指定する。
message_out エラーメッセージ以外のメッセージもログに出力する場合は true を指定する。エラーメッセージだけを出力する場合は false を指定する。
force 最後に巡回してから更新されていないページは、処理をスキップしたい場合には false を指定する。すべてのページを、再度処理したい場合には true を指定する。
auto_delete 削除されたり、アクセス不能となったりしたページの情報をデータベースから自動的に削除する場合は true を指定する。削除せずに残しておきたい場合は false を指定する。
01, 02, ... サイトのカテゴリを表す文字列を指定する。カテゴリコードには、2桁の英数字を使用する。

注: interval と time_limit について
 大量のサイトを巡回するために、サイトの巡回処理に24時間かかるとします。巡回処理は深夜0:00~8:00までの8時間だけ行い、3日間に分けて行いたいとします。この場合、intervalに、60(s)×60(m)×24(h)×3=259200を、time_limitには、60(s)×60(m)×8(h)=28800を指定します。

投稿者 webmaster : 01:02 | コメント (0) | トラックバック (0)

トラックバック

コメント