@techreport{oai:ipsj.ixsq.nii.ac.jp:00056871, author = {翠, 輝久 and 河原, 達也 and Teruhisa, MISU and Tatsuya, KAWAHARA}, issue = {136(2006-SLP-064)}, month = {Dec}, note = {音声対話システムにおいて、ユーザの多様な発話を頑健に認識するためには、タスクドメインに合致した十分な量のテキストデータで N-gram 言語モデルを学習することが望ましい。しかし、新たに音声対話システムを作成する際に、ユーザが入力すると想定される発話を大量に用意することは困難である。そこで本研究では、Webから学習データを収集・選択することにより効率よく言語モデルを構築する手法を提案する。Webの検索クエリは、対話システムが対象とするドメインについて記述された文書から作成して、Webを検索する。このようにして収集されたWebテキストの多くは、対話システムのユーザの発話スタイルとマッチしたものではなく、言語モデルの学習データとしてこれらのすべてを使用するのは適切でない。そこで、別の対話システムで収集されたユーザ発話コーパスを併用することで、発話スタイルの近い文を選択する。ソフトウェアサポートと観光案内の2つのドメインにおいて評価を行った結果、音声認識精度の有意な改善が得られた。また実験結果の分析により、Webテキストを選択する際に、テキストのスタイルを考慮することの重要性が確認された。, This paper proposes a bootstrapping method of constructing statistical language models for new spoken dialog systems by collecting and selecting sentences from the World Wide Web (WWW). To make effective search queries that cover the target domain in full detail, we exploit the document set described about the target domain as seeding data. An important issue is hoe to filter the retrieved Web pages, since all of the retrieved Web texts are not necessarily suitable as training data. We induct an existing dialog corpus of different domain to prefer the texts of spoken style. The proposed method was evaluated on two different tasks of software support and sightseeing guidance, and significant reduction of the word error rate was achieved. We show that it is vital to incorporate the dialog corpus, though not relevant to the target domain, in the text selection phase.}, title = {ドメインとスタイルを考慮したWebテキストの選択による対話システム用言語モデルの構築}, year = {2006} }