2005年03月09日
3. SUZAKUのインストール
3.1 SUZAKUパッケージのインストール
SUZAKUのDownloadページから、アーカイブ(suzaku-x.xx.tar.gz)をダウンロードし、以下の手順でインストールします。
$ su
# cd /usr/local/src
# tar zxfv suzaku-x.xx.tar.gz
# cd /usr/local/src/suzaku-x.xx/etc
# cp -R suzaku /usr/local/etc/suzaku
# cd /usr/local/src/suzaku-x.xx/html
# cp -R suzaku_sample /var/www/html/suzaku_sample
# cd /var/www/html
# chown -R your_user.your_group suzaku_sample
3.2 検索サイトの構築
検索サイトのサンプル「suzaku_sample」を修正して、独自の検索サイトを構築します。
(1) 事前に確認/決定しておく事項
以下の事項をあらかじめ確認/決定しておきます。
・検索サイトのURL
・管理者宛メールの送信元、送信先のメールアドレス
・データベース用のユーザーID、パスワード、データベース名
・どのようなカテゴリのホームページを検索対象とするか
ここでは、仮に以下の前提で、設定方法の説明を行います。
・検索サイトのURL: http://your_site.com/eagle/
・管理者宛メールの送信元: webmaster@your_site.com
・管理者宛メールの送信先: taro@your_site.com
・データベース用のユーザーID: eagle_user
・データベース用のパスワード: abcd1234
・データベース名: eagle
・カテゴリ: 01-コンピュータ・ハードウェア、02-コンピュータ・ソフトウェア
(01, 02はカテゴリ・コード(英数字2桁))
(2) 検索サイトのディレクトリ名と、「suzaku_conf.rb」ファイルの変更
ディレクトリ名を変更します。
$ cd /var/www/html
$ mv suzaku_sample eagle
「suzaku_conf.rb」ファイルの内容を修正します。
$ vi eagle/scripts/suzaku_conf.rb
---
config_file_name = "eagle.rb"
---
(3) 設定ファイルの修正
設定ファイルを、以下のように修正します。
# cd /usr/local/suzaku/conf
# cp suzaku_sample.rb eagle.rb
# vi eagle.rb
---
# eagle.rb : 設定ファイル
# ライブラリのディレクトリパス
suzaku_libpath = "/usr/local/etc/suzaku/lib"
# MySQL データベース接続パラメータ
host = "localhost"
userid = "eagle_user"
password = "abcd1234"
database = "eagle"
# メール設定
mail_server = "localhost"
mail_from = "webmaster@your_site.com"
mail_to = "taro@your_site.com"
# ホームページ巡回時の設定
interval = 259200
time_limit = 28800
start_level = 1
max_level = 9
max_continue = 20
tmp_dir = "/var/tmp/suzaku/eagle"
log_dir = "/var/log/suzaku/eagle"
log_out = true
limit_in_same_site = true
message_out = false
force = false
auto_delete = true
# サイトのカテゴリ文字列
01 = "コンピュータ・ハードウェア"
02 = "コンピュータ・ソフトウェア"
---
上記は設定は、システムの本番運用時の設定例です。システムの正常稼動を確認するだけなら、上記の設定のうち、以下のパラメータを
interval = 60
time_limit = 180
message_out = true
force = true
に変更しておいた方がよいでしょう。この設定では、3分間(180秒間)だけ、ホームページの巡回処理を行います。
設定ファイルの詳しい説明は、こちらをご覧下さい。
(4) ディレクトリの作成
作業用およびログ用のディレクトリを作成します。
# cd /var/tmp
# mkdir suzaku
# cd suzaku
# mkdir eagle
# chmod 777 eagle
# cd /var/log
# mkdir suzaku
# cd suzaku
# mkdir eagle
# chmod 777 eagle
(5) データベースの作成
ホームページの URL や検索に使用するキーワードのインデックス(索引)を格納するデータベースを作成します。
# cd /usr/local/etc/suzaku/bin
./suzaku_run.sh ../scripts/database_setup.rb your_mysql_root_password eagle.rb
./suzaku_run.sh ../scripts/create_tables.rb eagle.rb
./suzaku_run.sh ../scripts/show_tables.rb eagle.rb
(6) URL の登録
検索対象とするホームページの URL を登録します。ブラウザで、URL
http://your_site_name/eagle/
にアクセスします。
右下の「管理者モード」をクリック」すると、管理者モードのログイン画面が表示されます。
パスワード(設定ファイルの「password =」で指定したもの)を入力し、「実行」をクリックすると、管理者モードに入ります。上部のメニューから、「サイトの新規登録」をクリックします。
「URL」に検索対象とするホームページのトップページのURLを入力します。(必須)
「種別」にはそのホームページの種類に応じたカテゴリーコードを入力します。(必須)
「名称(漢字)」「名称(かな)」は、そのホームページの名称を漢字(全角)とひらがな(全角)で入力します。(必須)
「メールアドレス」には、そのホームページの管理者のメールアドレスを入力します。(オプション)。
「コメント」には、そのホームページに関するコメントを入力します。(オプション)
入力したら、「実行」をクリックします。上部のメニューの「登録サイト一覧」をクリックすると、登録したホームページの一覧が表示されます。
登録した内容の修正、削除を行うときは、「NO.」欄の該当行の数字をクリックして下さい。
「管理者モード」を終了するには、上部のメニューの「ログオフ」をクリックして下さい。
なお、登録したいサイトのデータを CSV形式のファイルに記述し、一括ロードすることもできます。(DownloadページのURL Loader を使用する)
(7) ホームページの巡回処理を実行する。
ホームページの巡回処理を実行します。
# cd /usr/local/etc/suzaku/bin
# ./suzaku_run robot.rb eagle.rb &
巡回結果は、「管理者モード」の「登録サイト一覧」、「巡回ログ」、「システム状況」で確認できます。巡回処理を途中で中止したい場合には、
# ./suzaku_run.sh stop.rb eagle.rb
を実行して下さい。
(8) 検索サイトの画像の変更
初期状態では、検索サイトのトップページは
となっています。
ページ上部の画像は、eagle ディレクトリの下の images/title.gif というファイルなので、あなたのサイトにふさわしい画像に変更して下さい。同じく、ページ中央の画像 images/main.gif も変更して下さい。
(9) 巡回処理の cron への登録
巡回処理を定期的に実行するために、cron に登録します。例えば、毎日深夜0:00から巡回処理を実行するなら、以下のように登録します。
# crontab -e
---
00 00 * * * /usr/local/etc/suzaku/bin/suzaku_run.sh /usr/local/etc/suzaku/bin/ro
bot.rb eagle.rb
---
投稿者 webmaster : 00:05 | コメント (0) | トラックバック (0)
コメント