プロジェクト名

トピック追跡

メンバー

大川原雄也,伊藤正都,児玉政幸,高橋潤

キーワード

NewsML,トピック分析,自然言語

目的

Web上の時系列データであるニュース記事を対象としたトピック分析

概要

近年,インターネットの普及により,大量のテキストデータが時系列的に配信されるようになった.このうち, 時系列データの一つであるニュース記事は,いくつかのトピックに分類することができる.膨大なテキストを 類似する内容(トピック)に分類し,そのトピックの内容を示す語をラベル付けすることで,関連するニュー スの検索が容易になると考える.また,あるトピックに関する一連のニュースは,時系列に沿って遷移する. トピックの遷移を検出し,遷移を観察することで,一連のニュースの流れを俯瞰しやすくなると考える.

本プロジェクトでは,Web上の時系列データであるニュース記事を対象にトピック分析を行う.トピック分析 として,文書集合からのトピックの検出(トピックへの分類),各トピックに対応する特徴的な単語群の抽出 および時系列でのトピックの遷移を検出する.また,時系列で追加されていくテキストを同じトピックのもの にクラスタリングする.


Copyright (c) 2006 Shintani Lab. All rights reserved.