Item type |
Journal(1) |
公開日 |
2020-11-15 |
タイトル |
|
|
タイトル |
音声エンタテインメントからのウェブ音声マイニングの可能性 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Application Vision of Web Speech Mining from Vocal Entertainment Contents |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
[特集:エンタテインメントコンピューティング] ウェブ音声マイニング,エンタテインメントの活用,音声情報処理 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_6501 |
|
資源タイプ |
journal article |
ID登録 |
|
|
ID登録 |
10.20729/00207634 |
|
ID登録タイプ |
JaLC |
著者所属 |
|
|
|
関西大学総合情報学部 |
著者所属 |
|
|
|
立命館大学情報理工学部 |
著者所属 |
|
|
|
同志社大学理工学部 |
著者所属 |
|
|
|
立命館大学情報理工学部 |
著者所属(英) |
|
|
|
en |
|
|
Faculty of Informatics, Kansai University |
著者所属(英) |
|
|
|
en |
|
|
College of Information Science and Engineering, Ritsumeikan Univeristy |
著者所属(英) |
|
|
|
en |
|
|
Faculty of science and engineering, Doshisha Univeristy |
著者所属(英) |
|
|
|
en |
|
|
College of Information Science and Engineering, Ritsumeikan Univeristy |
著者名 |
山西, 良典
田中, 一星
井本, 桂右
山下, 洋一
|
著者名(英) |
Ryosuke, Yamanishi
Issei, Tanaka
Keisuke, Imoto
Yoichi, Yamashita
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
ウェブ上には様々なマルチメディアで構成されたユーザ参加型のエンタテインメントコンテンツが存在している.これらのエンタテインメントコンテンツからは,統制された条件に従った映像や音声を取得できる可能性がある.本稿では,音声データの活用に焦点を当て,ウェブ上のエンタテインメントコンテンツからの統制された環境下での音声データの収集をウェブ音声マイニングとして提案する.ウェブ音声マイニングの基本的な手続きのフレームワークを示し,ウェブ上のエンタテイメントコンテンツから音声データセットを取得した.音声コンテキスト認識とt-SNE法を用いた2次元空間上への可視化を通して,取得した音声データセット中の発話に見られる音響特徴の傾向について基礎的な考察を行った.その結果,各発話は課題コンテキストごとに複数の発話者で共通の音響特徴を示す傾向であることを確認し,ユーザ発信型のエンタテインメントコンテンツ中の音声をラベル付き音声データとして研究用途に応用できる可能性を示した. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
There is a lot of participatory entertainment consisting of varied multimedia on Web. From such entertainment contents, we believe that it should be possible to acquire multimedia data such as movie and audio under the fixed condition. This paper focuses on the application of the speech data, and proposes the framework that acquires speech data under the fixed condition from vocal entertainment contents on Web as Web speech mining. In this paper, basic procedures of Web speech mining were introduced and the speech dataset was constructed from the entertainment content on Web. The speeches in the constructed dataset were foundationally studied based on their acoustic features through speech context recognition and visulaization using t-SNE method. As the result, we confrimed that speeches in the consturcted dataset showed a trend that the speakers commonly expressed specific acoustic features for each context. The results also pointed the application vision of Web speech mining, where speeches in user-generated entertainment contents can be applied to labeled speech data for research use. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN00116647 |
書誌情報 |
情報処理学会論文誌
巻 61,
号 11,
p. 1708-1717,
発行日 2020-11-15
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
1882-7764 |