@techreport{oai:ipsj.ixsq.nii.ac.jp:02007421, author = {郭,承迅 and 細野,海人 and 宮田,高道 and 宮田,純子 and 木下,宏揚 and Kuo Chenghsun and Kaito Hosono and Takamichi Miyata and Sumiko Miyata and Hirotsugu Kinoshita}, issue = {44}, month = {Feb}, note = {近年,SNSや動画共有サービスの普及により,音声コンテンツの流通が急速に拡大している.これに伴い,二次利用やDeepFake音声などの問題が顕在化しており,著作権管理の重要性が増している.コンテンツの同一性を確認する技術としてハッシュ関数が広く用いられているが,従来の暗号学的ハッシュ関数はデータのごくわずかな変化でも出力が大幅に異なるため,圧縮やノイズ付加などの正当な信号処理が施されたコンテンツの同一性判定には不向きである.これに対し,人間の知覚特性に基づき,内容が同一であれば同一の値を,内容が異なれば異なる値を出力する「知覚ハッシュ」が注目されている.著者らはこれまでに,小規模なデータセット(Mini Speech Commands)を用いて,CNNおよびWav2Vec2モデルの重み係数を利用した音声知覚ハッシュ生成の基礎的検討を行ってきた.その結果,両手法の基本的な有効性が確認されたものの,より実用的な環境を想定した大規模データセットに対するスケーラビリティやロバスト性については未検証であった.そこで本研究では,学習データセットの規模が知覚ハッシュ生成モデルの性能に与える影響を明らかにすることを目的とする.具体的には,CNNおよびWav2Vec2モデルに対し,小規模データ(Mini)と全量データ(Full Speech Commands)を用いた場合の識別精度と汎化性能の変化を定量的に評価する.実験の結果,データ規模の拡大に対してWav2Vec2モデルが極めて高い堅牢性と適応能力を示すことを明らかにした., With the rapid spread of SNS and video sharing services, unauthorized secondary use and DeepFake audio have emerged as significant issues for copyright management. While hash functions are commonly used to verify content integrity, conventional cryptographic hash functions are unsuitable for content that has undergone legitimate signal processing. In contrast, “perceptual hashing,” which outputs identical values for perceptually identical content, has attracted attention as a robust alternative. In our previous work, we confirmed the basic effectiveness of audio perceptual hash generation using CNN andWav2Vec2 model weights on a small-scale dataset. This study aims to clarify the impact of training dataset scale on model performance by evaluating identification accuracy and generalization for both models on small-scale versus full-scale datasets. The results demonstrate that theWav2Vec2 model exhibits extremely high robustness and adaptability to data scale expansion.}, title = {機械学習を用いた音声知覚ハッシュの大規模データセットによる評価}, year = {2026} }