@techreport{oai:ipsj.ixsq.nii.ac.jp:02002370, author = {朴,浚鎔 and 高道,慎之介 and David M.,Chan and 神藤,駿介 and 齋藤,佑樹 and 猿渡,洋 and Joonyong Park and Shinnosuke Takamichi and David M. Chan and Shunsuke Kando and Yuki Saito and Hiroshi Saruwatari}, issue = {74}, month = {Jun}, note = {近年の音声処理研究は、HuBERTなどの自己教師あり学習(Self-Supervised Learning: SSL)モデルや、EnCodecなどのニューラル音声コーデック(Neural Audio Codec: NAC)モデルによって得られる離散トークン表現によって大きく進展している。しかし、これらの表現が言語学的、統計学的な指標を通じて綿密に分析されることは少ない。本研究では、音声から得られるさまざまな離散トークンの統計的および言語的特性を比較分析する。統計的法則に基づく特徴の違いや共通性に加え、エントロピーや冗長性、文法構造、トポロジカル埋め込みの類似性についても明らかにすることを目的とする。さらに、トークン誤り率や音声品質といった指標を用いて、それぞれのトークン化手法が音声データの意味的・音響的情報をどの程度保持しているかを検証する。これらの実験は、個々の音声トークンが持つ統計的性質の理解につながり、音声モデルの設計に洞察を与えることができる。}, title = {音声トークンの言語に関する分析}, year = {2025} }