[ English Version ]

情報検索(Information Retrieval)

ネットワークの普及に伴い,情報はさまざまな場所に分散し存在ている.大きくはインターネットにおけるWWWのような,情報を提供するサーバが世界規模で分散して存在している.小さくは,ある組織内での情報も個人毎にそれぞれで保持しており,各計算機毎,もしくはNFSやAppleShareのようなディスク共有の仕組みを利用していても,ユーザ毎のディレクトリにさまざまな情報が分散していると言える.このように情報源が分散している環境において,WWWのような巨大な情報源はもちろん,ローカルの共有ディスクの中でさえ,ユーザが必要とする情報を発見するのはたいへん困難である.

膨大な情報のなかから必要な情報を見つけるための技術が情報検索技術である.情報検索の研究の歴史は大変古く,まだコンピュータが発明されていない時代の図書館学(図書館で様々な書物を整理・管理するための学問)にまで遡る.しかし,インターネットのようなネットワークの普及に伴い,図書館における書籍検索などの為に開発されてきた検索システムが適用できない場面が多くなってきた.ここには以下のような,従来の検索システムが対象とした情報源と,近年のネットワーク中心の情報源の違いが大きく関わっている.

情報の変化の速度 WWWでは,情報の更新/配信が簡単であり,情報自体が日々刻々と変化する.このような情報の新鮮さがWWWの利用価値を高めているが,従来の情報検索が対象としてた,書籍のような基本的に変化しない手法は適用できない部分が多い.
情報の絶対量 WWWでは,世間一般のどのような人手も情報を発信することができる.この手軽さもWWW普及の要因の一つであるが,これにより,WWW上の情報は膨大になり,いわゆる情報過多に陥ってしまっている.従来の情報検索のような,比較的狭い,限られた世界での検索技術は適用できない場合が多い.
情報の非永続性 WWWの情報は日々刻々と変化する.従来の検索技術では,書籍などのように一度検索対象となる情報に関するデータを収集すれば,それ自体が変化することはない.これに対しWWWでは,一度Webページの情報を収集しても,それが1時間後には変わってしまっている可能性もある.言うなれば,従来の情報検索では,静的なデータベースを対象にしていたのに対し,WWWは動的なデータベースとなっている.
情報の非均一性 従来の情報検索では,学術書籍のような,基本的に定型文書がターゲットになっていた.WWWでは,さまざまな人がさまざまな情報を発信することができるため,情報自体に統一的なフォーマットはない.また,WWWではテキスト文書以外に,画像や音声などのマルチメディアデータも発信でき,それらに対する検索要望も高まっている.
媒体の多様性 従来の情報検索では,基本的に検索を行うときは専用の端末で検索要求を出し,結果を提示する.これに対し,WWWはインターネットというオープンな環境で利用されるため,さまざまな媒体からのアクセスがある.

以上のことから,近年,分散した情報源に対する情報検索の研究が一段と活発に行われている.

集中型検索システム(Centralized Information Retrieval)



分散した情報源から必要な情報を見つけるという問題に対し,従来は上の図のような集中型の検索システムで対処していた.集中型の検索システムでは,ネットワーク上に存在する情報を各情報源から収集し,検索システム内部では,収集した情報を元に作成したインデックス利用して検索を行う.集中型の検索システムはさまざまな問題に直面している.まず,情報量が増大するにつれて,すべての情報をカバーすることが困難になる.これにより,たとえネットワーク上に有用な情報があったとしても,検索システムが収集できてなければ検索することはできない.カバー率の低下に関連して,システムができるだけ広く情報を収集しようとした場合,同じ場所にある情報を更新する頻度が低くなり,システム内に含まれる情報が古く,意味のないものになることもある.ユーザは検索結果として提示されたとしても,情報自体に意味がないか,もしくは存在しない可能性もある.また,アクセス制限のある情報源や,動的に内容が変更されるような情報源では,検索システムでは情報を収集できず,検索の対象外になってしまう.集中型では膨大な情報をローカルに保持し,その中から検索を行う.一般に処理にかかる時間と検索の精度はトレードオフの関係にある.ユーザとインタラクティブに検索を行う場合,レスポンスタイムを向上させるために,比較的軽い検索処理しか適用できず,検索結果にはノイズが含まれることが多い.

現在存在する検索システムのほとんどがこの形態で,WWW上に存在するAltavistaGoogleといった検索エンジンもこの集中型の検索システムである.

分散型検索システム(Distributed Information Retrieval)

以上のような問題に対し,近年分散情報検索に関する研究が盛んに行われている.分散情報検索とは,検索要求に対し,検索処理を各情報源で行わせ,各情報源から返ってきた結果を統合し,検索結果とする検索の仕組みである.検索処理を各情報源で行わせるため,一カ所に情報を集約する必要がなく,集中型の検索システムのカバー率や情報の鮮度に関する問題に対処できる.また,情報の表示形式が動的に変わるようなところでも,検索処理は情報源で行うため,提示する情報をその情報源で制御できる.よって,内容が動的に変わったり,アクセス制限のあるような情報源も検索対象にいれることができる.また,一つの情報源に含まれる情報の量は一カ所に集めたときよりも格段に少ない.そのため,検索自体はより高度な処理が適用できるという利点もある.

この形態の検索システムがまだまだ少ないが,Digital Libraryの研究で利用されている.またWWWにおけるメタサーチエンジンもこのタイプの検索システムである.メタサーチエンジンの例としてはMetacrawlerSavvySearchがあげられる.

分散情報検索では,従来の集中型の検索システムより複雑な処理が必要となる.分散情報検索のプロセスは大きく3つに分けられる.

情報源選択
(Source Selection)
ユーザからのqueryは各情報源に送られる.各情報源には,含まれる情報に関して特徴がある.queryがその特徴に一致した情報源に送れば適切な情報が得られる可能性が高いが,一致しないときは不適切な情報が返ってきて,検索の適合率をさげることになる.そのため,分散情報検索ではユーザのqueryに対し,適切な情報源を選択するという処理が必要となる.ある論文の実験結果では,情報源を分散し,適切な情報源に対しqueryを送ることにより,集中型の検索システムよりよい検索結果が得られることが示されている.
query処理
(Query Processing)
検索処理は各情報源で行われる.情報源での検索は表示インタフェースを元に作成したインデックスを利用して検索を行う集中型とは異なり,表示インタフェースを作成するためのデータを元に検索を行うことができ,比較的狭い範囲での検索になるため,より高度な検索を適用できる可能性がある.分散情報検索で用いる情報源の検索インタフェースは情報源によって異なるため,インタフェースの異種性を吸収する仕組みが必要となる.
結果統合
(Result Merging)
各情報源から返ってきた結果は一つに統合してユーザに提示する必要がある.このとき,表示する順番によってはユーザはなかなか必要とする情報にたどりつけないこともある.またユーザにとっては必要がない情報も含まれる可能性がある.そのため,検索結果のフィルタリングやランキングが重要になる.

この3つのプロセスの中で,情報源選択は検索の精度に大きく関わるため,非常に重要な処理である.これまでに情報源の選択についてさまざまな手法が提案されている.それらの多くは,情報源中の文書における単語の出現頻度を元に実現されている.単純に語の出現頻度のみを利用した場合,例えば''agent''という単語について,旅行関係の情報が多い情報源では''travel agent''というものに関連して''agent''という単語が多く含まれる可能性が高い.また人工知能関係では''intelligent agent''関係でagentが含まれる可能性がある.語の出現頻度のみに依存した手法の場合,ユーザがintelligent agentについて調べたいのにtravel agentに関する情報が表示される可能性もある.また,多義語が含まれている場合ついても同様に不適切な情報が提示される可能性がある.そのため,より適合率の高い検索を行うためには,情報源の選択において,語の意味内容を考慮して行う必要がある.

情報源の選択を実現するには大きく2つの課題が存在する.一つは各情報源の特徴を表現すること,もう一つが情報源の特徴と検索要求の関連性を評価することである.本研究では,情報源に含まれる文書を無作為抽出し,そこから作成されるシソーラスを情報源の特徴として利用している.シソーラスとは語と語の関係を示す辞書であり,共起関係に基づくシソーラスの自動構築に関する研究は盛んに行われている.共起関係に基づくシソーラスでは,同時に出現する語は関係が深いという仮定に基づいている.語と語の関係はその語が持つ意味内容によって異なる.同じ語であっても,用いられている意味が異なれば,共起する語も異なる.つまり作成されるシソーラスの形も異なってくる.語と語の関係の深さはその情報源の特徴であり,よって,ある語と他の語の関係を見ることにより,ある語がどのような意味で使われているかが区別できると考えられる.情報源に含まれる情報に偏りがある場合,その情報源に含まれる情報を用いてシソーラスを自動構築することにより,その偏った情報の傾向がシソーラスに現れると考えられる.各情報源毎にシソーラスを構築し,それを情報源に関する記述(Source Description)として利用することにより,語の意味内容も考慮した選択が実現できると考えられる.