<?xml version='1.0' encoding='UTF-8'?>
<OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd">
  <responseDate>2026-05-20T17:20:42Z</responseDate>
  <request verb="GetRecord" metadataPrefix="oai_dc" identifier="oai:ipsj.ixsq.nii.ac.jp:00218519">https://ipsj.ixsq.nii.ac.jp/oai</request>
  <GetRecord>
    <record>
      <header>
        <identifier>oai:ipsj.ixsq.nii.ac.jp:00218519</identifier>
        <datestamp>2025-01-19T15:08:08Z</datestamp>
        <setSpec>1164:5159:10869:10940</setSpec>
      </header>
      <metadata>
        <oai_dc:dc xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/" xmlns="http://www.w3.org/2001/XMLSchema" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/oai_dc/ http://www.openarchives.org/OAI/2.0/oai_dc.xsd">
          <dc:title>双方向RNNによるMFCC及びラウドネスからの振幅スペクトログラム予測</dc:title>
          <dc:title>Amplitude Spectrogram Prediction from MFCC and Loudness Using Bidirectional RNN</dc:title>
          <dc:creator>川口, 翔也</dc:creator>
          <dc:creator>北村, 大地</dc:creator>
          <dc:creator>Shoya, Kawaguchi</dc:creator>
          <dc:creator>Daichi, Kitamura</dc:creator>
          <dc:subject>ポスターセッション4</dc:subject>
          <dc:description>変分自己符号化器（variational autoencoder: VAE）は入力データの潜在的な特徴量を教師無しで学習できる DNN であり，潜在特徴量に複数クラスの相対関係を表す構造を導入することで，一定の解釈性を持たせることができる．例えば，複数楽器音の音色特徴量を表すメル周波数ケプストラム係数（mel-frequency cepstrum coefficient: MFCC）の潜在特徴量を VAE で学習することで，各楽器音の特徴量を併せ持つような新しい音響信号の MFCC を新たに生成できる．我々は現在，VAE を用いて楽器音の音色を変換するシステムの構築を目指しており，その一例として，入力信号の MFCC を VAE で生成した MFCC に置き換える音色変換を検討している．このようなシステムでは，基本周波数，MFCC，及び音量変化の 3 つの音響特徴量を入力とすることを想定しているが，MFCC を置き換えた後に音響信号に戻すためには，前述の 3 つの音響特徴量からスペクトログラムを生成する必要があり，これは解析的な処理ではない．そこで本稿では，基本周波数，MFCC，及び音量から振幅スペクトログラムを予測する手法について検討する．特に，前述の音響特徴量を入力とする双方向再帰型ニューラルネットワークを用いた振幅スペクトログラムの予測について実験的に調査する．ピアノ及びギターを用いた実験では，両楽器において比較的高精度に振幅スペクトログラムが予測可能であることを示す．</dc:description>
          <dc:description>technical report</dc:description>
          <dc:publisher>情報処理学会</dc:publisher>
          <dc:date>2022-06-10</dc:date>
          <dc:format>application/pdf</dc:format>
          <dc:identifier>研究報告音声言語情報処理（SLP）</dc:identifier>
          <dc:identifier>60</dc:identifier>
          <dc:identifier>2022-SLP-142</dc:identifier>
          <dc:identifier>1</dc:identifier>
          <dc:identifier>6</dc:identifier>
          <dc:identifier>2188-8663</dc:identifier>
          <dc:identifier>AN10442647</dc:identifier>
          <dc:identifier>https://ipsj.ixsq.nii.ac.jp/record/218519/files/IPSJ-SLP22142060.pdf</dc:identifier>
          <dc:language>jpn</dc:language>
        </oai_dc:dc>
      </metadata>
    </record>
  </GetRecord>
</OAI-PMH>
