@techreport{oai:ipsj.ixsq.nii.ac.jp:02000725, author = {郭,承迅 and 細野,海人 and 宮田,高道 and 宮田,純子 and 木下,宏揚 and Chenghsun Kuo and Kaito Hosono and Takamichi Miyata and Sumiko Miyata and Hirotsugu Kinoshita}, issue = {39}, month = {Feb}, note = {著作権管理システムでは,音声が改変されていないか検査できるように,情報の指紋ともいえるメッセージダイジェストが必要になる.しかし,加工編集されたコンテンツにに対応するには,暗号学的ハッシュ関数だけでは不十分で,知覚ハッシュが重要な要素技術となる.知覚ハッシュによるメッセージダイジェストは,音声の加工・編集を行っても人間が元は同じ音声と認識できる場合に等しいハッシュ値を出力するため,著作権管理に向いている.さらに,同一話者が異なる単語を発声した場合や異なる話者が同一単語を発声した場合においても,コンテンツの同一性に基づくハッシュ値を生成可能である.また,論文や書籍・オーディオコレクションなどのコンテンツには,複数の異なる音声が収録されており,コンテンツ内の各音声に同一のハッシュ値を一括して生成すれば,コンテンツの管理が容易になる.本研究では,Wav2Vec2モデルを利用した知覚ハッシュ生成手法を提案する.音声波形を直接処理する特性を活かし,従来のCNNベース手法よりも編集耐性と話者/コンテンツ同一性の両立を実現する., For copyright management systems, message digests, which can be considered as fingerprints of information, are necessary to inspect whether audio has been modified or not. Message digests based on perceptual hashes are suitable for copyright management because they produce equal hash values for audio that humans can recognize as the same original sound, even if the audio is processed or edited. Furthermore, contents such as papers, books, and audio collections contain several different audios. If the same hash value is generated for each audio in the content, it becomes easier to manage the content. In this study, we propose a method for generating perceptual hashes using CNN weight coefficients.}, title = {機械学習による音声情報のための知覚ハッシュ}, year = {2025} }