WEKO3
アイテム
プログラム理解を支援するコンセプトキーワードの自動抽出法ckTF/IDF法の提案
https://ipsj.ixsq.nii.ac.jp/records/9861
https://ipsj.ixsq.nii.ac.jp/records/9861156c1c1b-a60f-4dac-a609-714eac624930
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2007 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Journal(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2007-08-15 | |||||||
タイトル | ||||||||
タイトル | プログラム理解を支援するコンセプトキーワードの自動抽出法ckTF/IDF法の提案 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | ckTF/IDF: a Method for Automatically Extracting Concept Keywords for Program Understanding | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 特集:ソフトウェア工学の理論と実践 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
その他タイトル | ||||||||
その他のタイトル | テスト技法・保守技術 | |||||||
著者所属 | ||||||||
東京工業大学大学院情報理工学研究科計算工学専攻 | ||||||||
著者所属 | ||||||||
東京工業大学大学院情報理工学研究科計算工学専攻 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science, Graduate School of Information Science and Engineering, Tokyo Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science, Graduate School of Information Science and Engineering, Tokyo Institute of Technology | ||||||||
著者名 |
大場, 勝
権藤, 克彦
× 大場, 勝 権藤, 克彦
|
|||||||
著者名(英) |
Masaru, Ohba
Katsuhiko, Gondow
× Masaru, Ohba Katsuhiko, Gondow
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本論文では,識別子からコンセプトキーワードを発見するためのckTF/IDF(Concept Keyword Term Frequency/Inverse Document Frequency)法を提案する.ckTF/IDF 法は大規模なソフトウェアにおけるコンセプトキーワードの抽出に適している.その理由は以下の2 つである.1 つ目は,ckTF/IDF 法はTF/IDF 法に比べ非常に軽量であること.2 つ目は識別子からコンセプトキーワードを抽出するための発見的手法を導入している点である.我々は,教育用OS udos(約5 000 行)とgcc(GNU Compiler Collection,約90 万行)とを事例に予備実験を行った.予備実験の結果,ckTF/IDF 法によるコンセプトキーワードの計算速度は,gcc の場合,TF/IDF 法と比べ新規検索で約6 倍,ファイル更新にともなう再計算で約890 倍も高速だった.コンセプトキーワードの抽出の精度と再現率は,udos の場合で,それぞれ57%と26%だった.これは,我々のアプローチが識別子におけるコンセプトキーワードの抽出に向いていることを示している.今後の課題は,たとえば,ckTF/IDF 法を使って高速で精度の高いソースコード検索エンジンを開発することといった,コンセプトキーワードの応用である. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | We propose the Concept Keyword Term Frequency/Inverse Document Frequency (ckTF/IDF) method as a novel technique to efficiency mine concept keywords from identifiers in large software projects. ckTF/IDF is suitable for mining concept keywords,since the ckTF/IDF is more lightweight than the TF/IDF method,and the ckTF/IDF’s heuristics is tuned for identifiers in programs. We then experimentally apply the ckTF/IDF to our educational operating system udos (consisting of around 5,000 lines in C code) and GNU C Compiler Collection (gcc, consisting of around 900,000 lines in C code), which produced promising results; By ckTF/IDF method, The gcc’s source code was processed in 6 times faster than TF/IDF method at first time, and in 891 times faster than TF/IDF method at updating the source code. the udos’s source code was processed with an accuracy of around 57%. This preliminary result suggests that our approach is useful for mining concept keywords from identifiers, although we need more research and experience. For example, ckTF/IDF method can apply to fast source code search engine. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN00116647 | |||||||
書誌情報 |
情報処理学会論文誌 巻 48, 号 8, p. 2596-2607, 発行日 2007-08-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7764 |