@article{oai:ipsj.ixsq.nii.ac.jp:00185827, author = {浅原, 正幸 and 河原, 一哉 and 大場, 寧子 and 前川, 喜久雄 and Masayuki, Asahara and Kazuya, Kawahara and Yasuko, Ohba and Kikuo, Maekawa}, issue = {2}, journal = {情報処理学会論文誌}, month = {Feb}, note = {国立国語研究所は言語研究に資する258億語規模のウェブコーパス『国語研ウェブコーパス』を構築した.コーパスの構築は,ページ収集・言語解析・保存・検索系の構築の4種類の部分工程からなる.本稿では,『国語研ウェブコーパス』を概説するとともに,その検索系である『梵天』の機能について紹介する.この検索系は100億語規模のテキストコーパスを文字列だけでなく,形態素列・係り受け部分木に基づく問合せが可能である., The National Institute for Japanese Language and Linguistics, Japan (NINJAL) compiled a web corpus for linguistic research comprising 25 billion words. The project is divided into four parts: page collection, linguistic analysis, development of the corpus concordance system, and preservation. This article presents a corpus concordance system named ‘BonTen’, which enables a ten-billion-scaled corpus to be queried by string, a sequence of morphological information or a subtree of the syntactic dependency structure.}, pages = {299--305}, title = {『国語研日本語ウェブコーパス』とその検索系『梵天』}, volume = {59}, year = {2018} }