2005年03月09日

3. SUZAKUのインストール

3.1 SUZAKUパッケージのインストール

 SUZAKUのDownloadページから、アーカイブ(suzaku-x.xx.tar.gz)をダウンロードし、以下の手順でインストールします。

$ su
# cd /usr/local/src
# tar zxfv suzaku-x.xx.tar.gz
# cd /usr/local/src/suzaku-x.xx/etc
# cp -R suzaku /usr/local/etc/suzaku
# cd /usr/local/src/suzaku-x.xx/html
# cp -R suzaku_sample /var/www/html/suzaku_sample
# cd /var/www/html
# chown -R your_user.your_group suzaku_sample

3.2 検索サイトの構築

 検索サイトのサンプル「suzaku_sample」を修正して、独自の検索サイトを構築します。

(1) 事前に確認/決定しておく事項

 以下の事項をあらかじめ確認/決定しておきます。

 ・検索サイトのURL
 ・管理者宛メールの送信元、送信先のメールアドレス
 ・データベース用のユーザーID、パスワード、データベース名
 ・どのようなカテゴリのホームページを検索対象とするか

 ここでは、仮に以下の前提で、設定方法の説明を行います。

 ・検索サイトのURL: http://your_site.com/eagle/
 ・管理者宛メールの送信元: webmaster@your_site.com
 ・管理者宛メールの送信先: taro@your_site.com
 ・データベース用のユーザーID: eagle_user
 ・データベース用のパスワード: abcd1234
 ・データベース名: eagle
 ・カテゴリ: 01-コンピュータ・ハードウェア、02-コンピュータ・ソフトウェア
  (01, 02はカテゴリ・コード(英数字2桁))

(2) 検索サイトのディレクトリ名と、「suzaku_conf.rb」ファイルの変更

 ディレクトリ名を変更します。

$ cd /var/www/html
$ mv suzaku_sample eagle

 「suzaku_conf.rb」ファイルの内容を修正します。

$ vi eagle/scripts/suzaku_conf.rb
---
config_file_name = "eagle.rb"
---

(3) 設定ファイルの修正

 設定ファイルを、以下のように修正します。

# cd /usr/local/suzaku/conf
# cp suzaku_sample.rb eagle.rb
# vi eagle.rb
---
# eagle.rb : 設定ファイル

# ライブラリのディレクトリパス
suzaku_libpath = "/usr/local/etc/suzaku/lib"

# MySQL データベース接続パラメータ
host = "localhost"
userid = "eagle_user"
password = "abcd1234"
database = "eagle"

# メール設定
mail_server = "localhost"
mail_from = "webmaster@your_site.com"
mail_to = "taro@your_site.com"

# ホームページ巡回時の設定
interval = 259200
time_limit = 28800
start_level = 1
max_level = 9
max_continue = 20
tmp_dir = "/var/tmp/suzaku/eagle"
log_dir = "/var/log/suzaku/eagle"
log_out = true
limit_in_same_site = true
message_out = false
force = false
auto_delete = true

# サイトのカテゴリ文字列
01 = "コンピュータ・ハードウェア"
02 = "コンピュータ・ソフトウェア"
---

 上記は設定は、システムの本番運用時の設定例です。システムの正常稼動を確認するだけなら、上記の設定のうち、以下のパラメータを

interval = 60
time_limit = 180
message_out = true
force = true

に変更しておいた方がよいでしょう。この設定では、3分間(180秒間)だけ、ホームページの巡回処理を行います。
 設定ファイルの詳しい説明は、こちらをご覧下さい。

(4) ディレクトリの作成

 作業用およびログ用のディレクトリを作成します。

# cd /var/tmp
# mkdir suzaku
# cd suzaku
# mkdir eagle
# chmod 777 eagle

# cd /var/log
# mkdir suzaku
# cd suzaku
# mkdir eagle
# chmod 777 eagle

(5) データベースの作成

 ホームページの URL や検索に使用するキーワードのインデックス(索引)を格納するデータベースを作成します。

# cd /usr/local/etc/suzaku/bin
./suzaku_run.sh ../scripts/database_setup.rb your_mysql_root_password eagle.rb
./suzaku_run.sh ../scripts/create_tables.rb eagle.rb
./suzaku_run.sh ../scripts/show_tables.rb eagle.rb

(6) URL の登録

 検索対象とするホームページの URL を登録します。ブラウザで、URL
   http://your_site_name/eagle/
にアクセスします。

 右下の「管理者モード」をクリック」すると、管理者モードのログイン画面が表示されます。

 パスワード(設定ファイルの「password =」で指定したもの)を入力し、「実行」をクリックすると、管理者モードに入ります。上部のメニューから、「サイトの新規登録」をクリックします。

 「URL」に検索対象とするホームページのトップページのURLを入力します。(必須)
 「種別」にはそのホームページの種類に応じたカテゴリーコードを入力します。(必須)
 「名称(漢字)」「名称(かな)」は、そのホームページの名称を漢字(全角)とひらがな(全角)で入力します。(必須)
 「メールアドレス」には、そのホームページの管理者のメールアドレスを入力します。(オプション)。
 「コメント」には、そのホームページに関するコメントを入力します。(オプション)

 入力したら、「実行」をクリックします。上部のメニューの「登録サイト一覧」をクリックすると、登録したホームページの一覧が表示されます。

 登録した内容の修正、削除を行うときは、「NO.」欄の該当行の数字をクリックして下さい。
 「管理者モード」を終了するには、上部のメニューの「ログオフ」をクリックして下さい。

 なお、登録したいサイトのデータを CSV形式のファイルに記述し、一括ロードすることもできます。(DownloadページのURL Loader を使用する)

(7) ホームページの巡回処理を実行する。

 ホームページの巡回処理を実行します。

# cd /usr/local/etc/suzaku/bin
# ./suzaku_run robot.rb eagle.rb &

 巡回結果は、「管理者モード」の「登録サイト一覧」、「巡回ログ」、「システム状況」で確認できます。巡回処理を途中で中止したい場合には、

# ./suzaku_run.sh stop.rb eagle.rb

を実行して下さい。

(8) 検索サイトの画像の変更

 初期状態では、検索サイトのトップページは

 となっています。
ページ上部の画像は、eagle ディレクトリの下の images/title.gif というファイルなので、あなたのサイトにふさわしい画像に変更して下さい。同じく、ページ中央の画像 images/main.gif も変更して下さい。

(9) 巡回処理の cron への登録

 巡回処理を定期的に実行するために、cron に登録します。例えば、毎日深夜0:00から巡回処理を実行するなら、以下のように登録します。

# crontab -e
---
00 00 * * * /usr/local/etc/suzaku/bin/suzaku_run.sh /usr/local/etc/suzaku/bin/ro
bot.rb eagle.rb
---

投稿者 webmaster : 00:05 | コメント (0) | トラックバック (0)

トラックバック

コメント