2007年09月20日
4. SUZAKUの設定
SUZAKUの設定は suzaku_conf.rb ファイルで行います。
設定ファイルの各パラメータは、以下のような意味を持ちます。
パラメータ | 指定する内容 |
site_name | サイト名を指定する。 |
image_file_directry | SUZAKUで使用する画像ファイルをおくディレクトリを指定する。 |
host | 使用するMySQLのホスト名を指定する。 |
userid | MySQLに接続するためのユーザーIDを指定する。 |
password | MySQLに接続するためのパスワードを指定する。検索サイトの管理者モードにはいる際のパスワードとしても使用する。 |
database | MySQLのデータベース名を指定する。 |
root_userid | MySQLの管理者のユーザーIDを指定する。 |
database | MySQLの管理者のパスワードを指定する。 |
mail_server | SUZAKUのシステムが発行するメール用のメールサーバーを指定する。 |
mail_from | メールの差出人のアドレスを指定する。 |
mail_to | メールの宛先のアドレスを指定する。 |
interval | 該当ページに最後にアクセスしてから、ここに指定された秒数を経過するまでは、再度分析処理を行わない。 |
time_limit | ここに指定された秒数を経過したら、巡回処理を中断する。 |
start_level | ホームページの巡回を開始するリンクの階層の深さを指定する。通常は1(トップページ)を指定する。 |
max_level | ホームページの巡回を終了するリンクの階層の深さを指定する。 |
max_continue | 巡回時、ここで指定した回数を超えると、他のサイトのページに移る。同一サイトへのアクセスの集中を避けるための指定。 |
tmp_dir | 巡回対象のページを一時的にダウンロードするディレクトリを指定する。 |
log_dir | 巡回処理のログを出力するディレクトリを指定する。 |
log_out | 巡回処理のログを出力するときは true を、出力しないときは false を指定する。 |
limit_in_same_site | 巡回の際に、トップページと異なるサイトの URL を対象外としたい場合には true を指定する。他のサイトの URL も巡回したい場合は false を指定する。 |
message_out | エラーメッセージ以外のメッセージもログに出力する場合は true を指定する。エラーメッセージだけを出力する場合は false を指定する。 |
force | 最後に巡回してから更新されていないページは、処理をスキップしたい場合には false を指定する。すべてのページを、再度処理したい場合には true を指定する。 |
auto_delete | 削除されたり、アクセス不能となったりしたページの情報をデータベースから自動的に削除する場合は true を指定する。削除せずに残しておきたい場合は false を指定する。 |
01, 02, ... | サイトのカテゴリを表す文字列を指定する。カテゴリコードには、2桁の英数字を使用する。 |
注: interval と time_limit について
大量のサイトを巡回するために、サイトの巡回処理に24時間かかるとします。巡回処理は深夜0:00~8:00までの8時間だけ行い、3日間に分けて行いたいとします。この場合、intervalに、60(s)×60(m)×24(h)×3=259200を、time_limitには、60(s)×60(m)×8(h)=28800を指定します。
投稿者 webmaster : 01:02 | コメント (0) | トラックバック (0)
コメント