2005年03月09日
4. SUZAKUの設定
SUZAKUの設定は、/usr/local/etc/suzaku/conf にある設定ファイルで行います。検索サイトがどの設定ファイルを使用するかは、検索サイトの scripts ディレクトリにある、suzaku_conf.rb ファイルの中で指定されています。
[suzaku_conf.rb ファイルの例 (/var/www/html/eagle/scripts/suzaku_conf.rb) ]
--------------------------------------------------
# suzaku_conf.rb : 設定ファイルの名前を定義する
config_file_name = "eagle.rb"
--------------------------------------------------
[設定ファイル例 (/usr/local/etc/suzaku/conf/eagle.rb) ]
--------------------------------------------------
# eagle.rb : 設定ファイル
# ライブラリのディレクトリパス
suzaku_libpath = "/usr/local/etc/suzaku/lib"
# MySQL データベース接続パラメータ
host = "localhost"
userid = "eagle_user"
password = "abcd1234"
database = "eagle"
# メール設定
mail_server = "localhost"
mail_from = "webmaster@your_site.com"
mail_to = "taro@your_site.com"
# ホームページ巡回時の設定
interval = 259200
time_limit = 28800
start_level = 1
max_level = 9
max_continue = 20
tmp_dir = "/var/tmp/suzaku/eagle"
log_dir = "/var/log/suzaku/eagle"
log_out = true
limit_in_same_site = true
message_out = false
force = false
auto_delete = true
# サイトのカテゴリ文字列
01 = "コンピュータ・ハードウェア"
02 = "コンピュータ・ソフトウェア"
--------------------------------------------------
設定ファイルの各パラメータは、以下のような意味を持ちます。
パラメータ | 指定する内容 |
suzaku_libpath | SUZAKUのシステムライブラリの場所を指定する。 |
host | 使用するMySQLのホスト名を指定する。 |
userid | MySQLに接続するためのユーザーIDを指定する。 |
password | MySQLに接続するためのパスワードを指定する。検索サイトの管理者モードにはいる際のパスワードとしても使用する。 |
database | MySQLのデータベース名を指定する。 |
mail_server | SUZAKUのシステムが発行するメール用のメールサーバーを指定する。 |
mail_from | メールの差出人のアドレスを指定する。 |
mail_to | メールの宛先のアドレスを指定する。 |
interval | 該当ページに最後にアクセスしてから、ここに指定された秒数を経過するまでは、再度分析処理を行わない。 |
time_limit | ここに指定された秒数を経過したら、巡回処理を中断する。 |
start_level | ホームページの巡回を開始するリンクの階層の深さを指定する。通常は1(トップページ)を指定する。 |
max_level | ホームページの巡回を終了するリンクの階層の深さを指定する。 |
max_continue | 巡回時、ここで指定した回数を超えると、他のサイトのページに移る。同一サイトへのアクセスの集中を避けるための指定。 |
tmp_dir | 巡回対象のページを一時的にダウンロードするディレクトリを指定する。 |
log_dir | 巡回処理のログを出力するディレクトリを指定する。 |
log_out | 巡回処理のログを出力するときは true を、出力しないときは false を指定する。 |
limit_in_same_site | 巡回の際に、トップページと異なるサイトの URL を対象外としたい場合には true を指定する。他のサイトの URL も巡回したい場合は false を指定する。 |
message_out | エラーメッセージ以外のメッセージもログに出力する場合は true を指定する。エラーメッセージだけを出力する場合は false を指定する。 |
force | 最後に巡回してから更新されていないページは、処理をスキップしたい場合には false を指定する。すべてのページを、再度処理したい場合には true を指定する。 |
auto_delete | 削除されたり、アクセス不能となったりしたページの情報をデータベースから自動的に削除する場合は true を指定する。削除せずに残しておきたい場合は false を指定する。 |
01, 02, ... | サイトのカテゴリを表す文字列を指定する。カテゴリコードには、2桁の英数字を使用する。 |
注: interval と time_limit について 大量のサイトを巡回するために、サイトの巡回処理に24時間かかるとします。巡回処理は深夜0:00~8:00までの8時間だけ行い、3日間に分けて行いたいとします。この場合、intervalに、60(s)×60(m)×24(h)×3=259200を、time_limitには、60(s)×60(m)×8(h)=28800を指定します。
投稿者 webmaster : 00:06 | コメント (0) | トラックバック (0)
コメント