| Item type |
SIG Technical Reports(1) |
| 公開日 |
2025-06-06 |
| タイトル |
|
|
言語 |
ja |
|
タイトル |
音声トークンの言語に関する分析 |
| 言語 |
|
|
言語 |
jpn |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
東京大学大学院情報理工学系研究科 |
| 著者所属 |
|
|
|
慶応義塾大学理工学部/東京大学大学院情報理工学系研究科 |
| 著者所属 |
|
|
|
カリフォルニア大学バークレー校 |
| 著者所属 |
|
|
|
東京大学大学院情報理工学系研究科 |
| 著者所属 |
|
|
|
東京大学大学院情報理工学系研究科 |
| 著者所属 |
|
|
|
東京大学大学院情報理工学系研究科 |
| 著者所属(英) |
|
|
|
en |
|
|
/ |
| 著者所属(英) |
|
|
|
en |
|
|
Berkeley Artificial Intelligence Research Lab (BAIR) |
| 著者名 |
朴,浚鎔
高道,慎之介
David M.,Chan
神藤,駿介
齋藤,佑樹
猿渡,洋
|
| 著者名(英) |
Joonyong Park
Shinnosuke Takamichi
David M. Chan
Shunsuke Kando
Yuki Saito
Hiroshi Saruwatari
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
近年の音声処理研究は、HuBERTなどの自己教師あり学習(Self-Supervised Learning: SSL)モデルや、EnCodecなどのニューラル音声コーデック(Neural Audio Codec: NAC)モデルによって得られる離散トークン表現によって大きく進展している。しかし、これらの表現が言語学的、統計学的な指標を通じて綿密に分析されることは少ない。本研究では、音声から得られるさまざまな離散トークンの統計的および言語的特性を比較分析する。統計的法則に基づく特徴の違いや共通性に加え、エントロピーや冗長性、文法構造、トポロジカル埋め込みの類似性についても明らかにすることを目的とする。さらに、トークン誤り率や音声品質といった指標を用いて、それぞれのトークン化手法が音声データの意味的・音響的情報をどの程度保持しているかを検証する。これらの実験は、個々の音声トークンが持つ統計的性質の理解につながり、音声モデルの設計に洞察を与えることができる。 |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10438388 |
| 書誌情報 |
研究報告音楽情報科学(MUS)
巻 2025-MUS-143,
号 74,
p. 1-6,
発行日 2025-06-06
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8752 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |