全文検索CGI を動作させるための設定です。必ずすべてを設定してください。はじめて本CGIをご利用になる際には、他のメニューをご利用になる前に必ずシステム設定を行って下さい。

▼図:システム設定画面

以下、各種設定項目を解説します。

 全文検索 CGI を設置したディレクトリの URL を http:// から指定して下さい。ただし最後にスラッシュを入れないで下さい。初めて本 CGI を設置した場合には、CGI が予測した URL が挿入されますので、間違いがないかを確認して下さい。

top へ戻る

 あなたのサイトの HTML ファイルが格納されているディレクトリのパスを、サーバのファイルシステム上の絶対パスで指定して下さい。初めて本 CGI を設置した場合には、CGI が予測したパスが挿入されますので、間違いがないかを確認して下さい。この設定を間違えると、正しく HTML 文書を発見することができず、検索に必要なインデックスを生成することが出来ませんので、注意して下さい。

 文書格納ディレクトリが分散して複数存在する場合には、改行して次の行に記述して下さい。いくつでも指定することが出来ます。

ホスティングサービスやプロバイダーのホームページサービスをご利用の場合には、他の利用者のディレクトリを含めてしまうことがないよう細心の注意を払って設定して頂きますようお願い致します。指定したディレクトリによっては、貴方のサイトだけではなく、サーバに格納されている他の利用者の HTML ファイルまでインデックスを生成してしまうことになります。その場合には、相当なサーバ負荷の原因となりえます。文書格納ディレクトリ(ドキュメントルート)が良く分からない場合には、必ずご利用のサービス事業者にお問合せ下さい。
top へ戻る

 前項の「文書格納ディレクトリ(ドキュメントルート)」欄で指定したディレクトリに対応した URL を http:// から記述して下さい。ただし最後にスラッシュは入れないで下さい。もし複数の文書格納ディレクトリ(ドキュメントルート)を指定している場合には、それに対応した URL をそれぞれ同じ順番で 1 行づつ記述して下さい。

例えば、「文書格納ディレクトリ(ドキュメントルート)」欄で次のように設定されているとします。

▼「文書格納ディレクトリ(ドキュメントルート)」欄の設定例

 この場合、「文書格納ディレクトリの URL」では、それぞれに対応した順で次のように URL を指定します。

▼「文書格納ディレクトリの URL」欄の設定例
top へ戻る

 前項の「文書格納ディレクトリ(ドキュメントルート)」欄で指定したディレクトリ内で、検索に引っかからないよう、インデックス化の対象から除外したいディレクトリ指定して下さい。もし本 CGI の格納ディレクトリが、前項の「文書格納ディレクトリ(ドキュメントルート)」欄で指定したディレクトリ内に含まれているようでしたら、必ず、本 CGI の格納ディレクトリも指定して下さい。

本 CGI は、ブラウザー上で閲覧できない領域でも、前項の「文書格納ディレクトリ(ドキュメントルート)」欄で指定したディレクトリ内のファイルで、かつ、インデックス化対象ファイルの拡張子であれば、インデックス化を試みます。つまり、見られては困るファイルも検索結果に表示されてしまいます。従って、インデックス化除外ディレクトリパスの設定は、そのようなことがないよう、確実に設定して下さい。また、設定後、見られては困るページが検索に引っかからないことを必ず確認して下さい。

 ディレクトリパスを記述する際には、以下の点に注意して下さい。

▼設定例
top へ戻る

 インデックス(索引)ファイルの生成ディレクトリを指定して下さい。通常は、デフォルト値の "./index" として下さい。もし別のディレクトリにインデックスファイルを生成させたい場合には、本 CGI からの相対パスもしくは、サーバのファイルシステム上の絶対パスで指定して下さい。但し、かならず事前にディレクトリを作成し、CGI から新規にファイルを生成できるようパーミッションを与えて下さい。

top へ戻る

 検索対象としたいファイルの拡張子を指定して下さい。必ず拡張子の前にドットを入れて下さい。また、不必要な拡張子を指定することがないよう注意して下さい。全文検索 CGI は、文書をインデックス化する際に、ここで指定された拡張であるファイルかどうかを判定した上で、ファイルの中身を走査します。事前にテキストファイルかどうかをチェックしますが、ここで余分な拡張子を指定することで、余分な処理が増えてしまいますので注意して下さい。特に画像ファイル等のバイナリーファイルを指定することがないよう注意して下さい。

▼設定例
top へ戻る

 本 CGI では、ひとつの文書をインデックス化する際に、該当の HTML ファイルを一旦読み込んだ上で、処理を行います。しかし、もしその HTML ファイルのサイズが大きい場合には、ご利用のサーバによって Internal Server Error となることがあります。これは、ご利用のサーバが、安定運用のために、CGI が使う CPU 利用時間やメモリーサイズに上限を設けているからです。

 本 CGI がインデックス化を行う際に、サーバの CPU やメモリーを使う量は、該当 HTML ファイルのサイズに比例します。

 インデックス化を行うたびに、いつも同じ HTML ファイルの処理でエラーとなってしまう場合には、その HTML ファイルのサイズが大きすぎることが考えられます。その場合には、この設定で、読込サイズの上限を指定してください。インデックス化する際には、ここで指定したバイト数分だけを読み込んで上で処理を行います。ただし、指定されたサイズ以降については、インデックス化されませんので、ご注意下さい。

 ご指定のサイト全体の文書を問題なくインデックス化できた場合には、ここには何も設定しないで下さい。

top へ戻る

 検索の際に、英数字の全角・半角を区別することなく検索させる場合には「しない」を、区別させる場合には「する」を選択して下さい。

top へ戻る

 検索の際に、アルファベットの大文字・小文字を区別することなく検索させる場合には「しない」を、区別させる場合には「する」を選択して下さい。

top へ戻る

 文書をインデックス化する際に、一文字ずつインデックス化する場合には「文字ごとに区切る」を、単語ごと区切ってインデックス化する場合には「単語ごとに区切る」を選択して下さい。

 「文字ごとに区切る」を選択した場合には、一文字ごとにインデックスを作成します。例えば、"search" という単語があったとした場合、"s", "e", "a", "r", "c", "h" といった具合に一文字ずつインデックスを作成します。この場合、例えば、検索キーワードに "ear" を入力してもヒットすることになります。

 それに対して「単語ごとに区切る」を選択した場合には、"search" という単語で一つのインデックスを生成します。従って、検索キーワードに "ear" が指定されたとしてもヒットしないことになります。

 どちらの選択も、それぞれ一長一短があります。前者の場合は、検索に漏れが生じないというメリットがあるかわりに、望まれない文書(検索ノイズ)までヒットする可能性が高くなるという短所があります。後者の場合は、検索に漏れが生じるかもしれないというデメリットはありますが、完全な単語が検索キーワードに指定されれば、前者より高速にヒットさせることが可能とります。さらに、検索ノイズが減るというメリットがあります。

 概ね、大規模な文書数を誇るサイトでは、ノイズの影響が目立つので、「単語ごとに区切る」を選択されたほうが良いでしょう。それに対して、さほど文書数が多くないサイトでは、ノイズの影響よりも、検索の漏れの影響のほうが大きく懸念されるため、「文字ごとに区切る」を選択するほうが良いでしょう。

 尚、本設定は、あくまでも半角英数字に対して適用される設定です。日本語の文字には適用されません。日本語の文字の場合にはこの設定にかかわらず、文字ごとに区切ってインデックス化されます。

top へ戻る

 全文検索CGI は、与えられた検索キーワードから複数の文書がヒットした場合には、それぞれに重み付けをして、そのキーワードにとって重要と思われる文書から順に表示します。その重み付けには文書のタイトルが大きく影響しています。また、検索結果を表示する際にも、タイトルと認識された文字列が表示されます。

 通常、HTML 文書であれば、タイトルに対応するタグは title タグですので、開始タグに <title>, 終了タグに </title> を指定して下さい。ここで指定された開始タグと終了タグで囲まれた部分をタイトルとみなして、インデックス化と検索処理が行われます。

 もし title タグではなく別のタグに、タイトルに相当する内容が記述されているようなサイトでは、この設定を変更して下さい。ただし、body タグのような文書全体を指すようなタグや p タグのように、一つの文書に複数存在しえるタグを指定しないよう注意して下さい。もし title タグ以外のタグを指定したい場合には、事前に HTML 側にタイトルに相当する部分を一意的なタグで囲んでおいて下さい。例えば、<div id="title">xxxxxx</div> のように id 属性を使って一意的にするのも一つの手です。

top へ戻る

 全文検索 CGI は、与えられた検索キーワードから複数の文書がヒットした場合には、それぞれに重み付けをして、そのキーワードにとって重要と思われる文書から順に表示します。その重み付けには文書のタイトルが大きく影響しています。

 全文検索 CGI では、検索キーワードの文書内での出現回数(頻度)、検索キーワードの出現文書数(分布)、文書サイズを使って、文書の重み付けを計算します。出現回数が多ければスコアを高く、出現回数が少なければスコアを低く見積もります。次に出現文書数ですが、出現文書数が多ければ、そのキーワードそものののスコアを低く見積もります。逆に出現文書数が少なければ、そのキーワードは希少性が高いため、ヒットした文書は高いスコアとして計算されます。最後に文書サイズですが、文書サイズが小さいものほど、スコアを高くして計算します。つまり、文書サイズが大きければ、それだけそのキーワードの出現率がもともと高いはずであり、その文書にとっては大きな意味を持たないであろうという想定をします。逆に、文書サイズが小さいにもかかわらず、検索キーワードを含んでいれば、その検索キーワードにとって、その文書は意味がある文書であろうと想定します。

 通常、タイトルはその文書を表す重要な情報とみなされます。従って、もしタイトルに検索キーワードが含まれていれば、その文書は他の文書よりも重要とみなすのです。その際に、あえて出現回数を多く見積もるのですが、その倍率をここで指定します。もし 1 (倍)を指定した場合には、検索キーワードがタイトルに含まれる文書も、文書内にしか現れない文書も同じ重み付けになります。

top へ戻る

 検索結果で 1 ページに表示するヒット文書の表示数を指定して下さい。

top へ戻る

 検索キーワードに、a, is, i 等が指定された場合には、あまり意味をなさない検索結果となってしまいます。そのため、検索キーワードが複数与えられた場合に、これらの単語を検索キーワードから除外して検索します。こうすることで、無駄な検索処理を減らすことができます。

top へ戻る

 検索結果画面に、ヒットした文書の内容を部分的に表示するかどうかを指定します。もし表示しない場合には「しない」を、表示させる場合には「する」を選択して下さい。「する」を選択した場合には、表示するサイズをバイトで指定して下さい。全角文字であれば 1 文字で 2 バイトです。半角英数字であれば 1 文字で 1 バイトです。

top へ戻る

 検索結果画面にヒットした文書の内容が表示された際に、検索キーワードの部分だけを色分け表示することが出来ます。ここではその色を 16 進数表記で指定して下さい。先頭には必ず # (シャープ記号)を入れて下さい。例えば赤字にしたいのであれば、"#FF0000" と指定します。

top へ戻る

 全文検索CGI ではさまざまな時間情報を保持します。それらを検索結果画面上に表示するために、世界標準時間(グリニッジ標準時間)からの時差を指定します。本 CGI では、この時差をもとに、表示する時間を算出します。日本人向けのサイトであれば "9" を指定して下さい。

尚、この設定は、サーバの時計の狂いを調整するものではありません。もしご利用のサーバの時計が狂っている場合には、ここで調整するのではなく、ご利用のサーバ管理者(サービス提供事業者)に修正して頂くよう依頼して下さい。

top へ戻る

 全文検索CGIは、検索窓からどのようなキーワードを入力して検索されたかを記録することができます。記録したログから、人気のキーワードをランキング表示することができます。検索キーワードのランキングから、貴サイトで人気のコンテンツは何なのかを把握することができるでしょう。また、逆に、検索回数が多いということは、貴サイトにおいて、目的のコンテンツまでのリーチが複雑なのかもしれません。サイトのユーザビリティー改善の指標としても活用することができるでしょう。

検索キーワードロギングを行う場合には、「はい」を、行わない場合には「いいえ」を選択して下さい。

top へ戻る

 検索キーワードのロギングを行うと、ログがどんどん溜まってしまい、サーバのディスク容量を圧迫してしまいます。そのため、ある日数を経過したら、それ以前のログを削除する必要があります。ここでは、当日分を含めて過去何日分を保存しておくのかを定義します。テキストボックスには、保存日数を入力して下さい。

top へ戻る