Item type |
Journal(1) |
公開日 |
2021-02-15 |
タイトル |
|
|
タイトル |
日本語形態素文字種境界法によるデータベース検索量の削減 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Japanese Morpheme Character Type Boundery Method to Reduce Database Search |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
[特集:インタラクションの理解および基盤・応用技術] 辞書/語彙意味,テキスト処理,ユーザインタフェースとインタラクティブシステム |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_6501 |
|
資源タイプ |
journal article |
ID登録 |
|
|
ID登録 |
10.20729/00209333 |
|
ID登録タイプ |
JaLC |
著者所属 |
|
|
|
公立はこだて未来大学 |
著者所属 |
|
|
|
公立はこだて未来大学 |
著者所属(英) |
|
|
|
en |
|
|
Future University Hakodate |
著者所属(英) |
|
|
|
en |
|
|
Future University Hakodate |
著者名 |
米持, 幸寿
大場, みち子
|
著者名(英) |
Yukihisa, Yonemochi
Michiko, Oba
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
商品名などの固有名詞には,複数の語を含む長い複合語がある.それらは市場に出回っている自然言語処理用の基礎データに含まれていないことが多い.音声インタフェースのようなテキスト対話システムをビジネスシステムに適用する際,それら複合語を抽出するために業務データベースへの検索が多発することになる.人が話しかける対話型システムでは幅広い表現に対応するために大規模語彙を統合する必要もある.これに対応するため,シソーラスやLinked Open Data(LOD)といった外部データソースへのアクセス要求もある.そのようなシステムでは業務データベースやLODエンドポイントへの検索回数が膨大になることを抑制する手法が必要となる.本研究では,業務データベース,シソーラス,LODの語彙を統合検索できるアーキテクチャと,検索回数を抑制する方法として「日本語形態素文字種境界法:Japanese Morpheme Character Type Boudery(JMCTB)Method」を提案する.対話テキストコーパスを使う実験により,単純なN gram形態素検索と比較して検索回数を96%削減できることを示す. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Proper nouns like product names include Multi Word Entity. They are often not registered in fundamental data for Natural Language Processing in the market. Searching Business Database is required to extract such words when Text Interactive System like voice interface is applied to a business system. Integrating Huge Lexcon is also required to respond to wide expression on interactive system which human talk to. Accessing external datasource includes thesaurus or Linked Open Data (LOD) for such requirement. Both of these requirements, a method to reduce the number of times of searching. This research proposes the architecture to integrate lexicons of Business Database, thesaurus, and LOD with a method Japanese Morpheme Character Type Boudery (JMCTB) to reduce the number of times of searching. The experiment using an Interactive Corpora shows 96% of number of searching can be reduced from simple N gram characters search method. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN00116647 |
書誌情報 |
情報処理学会論文誌
巻 62,
号 2,
p. 594-606,
発行日 2021-02-15
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
1882-7764 |