<?xml version='1.0' encoding='UTF-8'?>
<OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd">
  <responseDate>2026-05-20T17:14:19Z</responseDate>
  <request verb="GetRecord" metadataPrefix="jpcoar_1.0" identifier="oai:ipsj.ixsq.nii.ac.jp:00226347">https://ipsj.ixsq.nii.ac.jp/oai</request>
  <GetRecord>
    <record>
      <header>
        <identifier>oai:ipsj.ixsq.nii.ac.jp:00226347</identifier>
        <datestamp>2025-01-19T12:30:23Z</datestamp>
        <setSpec>1164:5064:11199:11282</setSpec>
      </header>
      <metadata>
        <jpcoar:jpcoar xmlns:datacite="https://schema.datacite.org/meta/kernel-4/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcndl="http://ndl.go.jp/dcndl/terms/" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:jpcoar="https://github.com/JPCOAR/schema/blob/master/1.0/" xmlns:oaire="http://namespace.openaire.eu/schema/oaire/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rioxxterms="http://www.rioxx.net/schema/v2.0/rioxxterms/" xmlns:xs="http://www.w3.org/2001/XMLSchema" xmlns="https://github.com/JPCOAR/schema/blob/master/1.0/" xsi:schemaLocation="https://github.com/JPCOAR/schema/blob/master/1.0/jpcoar_scm.xsd">
          <dc:title>トークン表現を用いたギター自動採譜における系列変換ネットワークの学習法</dc:title>
          <dc:title xml:lang="en">Training methods for sequence-to-sequence network in token-based automatic guitar transcription</dc:title>
          <jpcoar:creator>
            <jpcoar:creatorName>金, 世訓</jpcoar:creatorName>
          </jpcoar:creator>
          <jpcoar:creator>
            <jpcoar:creatorName>武田, 一哉</jpcoar:creatorName>
          </jpcoar:creator>
          <jpcoar:creator>
            <jpcoar:creatorName>戸田, 智基</jpcoar:creatorName>
          </jpcoar:creator>
          <jpcoar:subject subjectScheme="Other">一般発表</jpcoar:subject>
          <datacite:description descriptionType="Other">本稿では，出力としてトークン化された音楽表現を使用する sequence-to-sequence ギター自動採譜モデルを効果的に学習するための手法を提案する．提案法は，主に，1）トークン化された音楽表現に対応したマルチタスク学習，および，2）学習データ拡張から構成される．エンコーダー・デコーダー型の Transformer モデルの学習において，エンコーダーに connectionist temporal classification (CTC) を適用したハイブリッド CTC-Attention によるマルチタスク学習を導入することで，出力トークン系列と音響特徴系列のアラインメントの学習難易度を改善する．学習データ拡張に関しては，1）決められた小節数に曲を分割する際の小節オーバーラップ処理，および，2）MIDI のみのデータも併用して学習データ量を増加させるために，MIDI から音波形を合成してペアデータを生成する処理を導入する．実験的評価の結果から，1）提案するデータ拡張法がトークン化された出力を生成する Transformer モデルの学習に効果的であること，2）提案するマルチタスク学習は学習データ量が不十分な場合に特に効果的であること，3）提案法により従来法を上回る自動採譜性能を達成できることを確認した．</datacite:description>
          <datacite:description descriptionType="Other">We propose multiple methods for effectively training a sequence-to-sequence automatic guitar transcription model which uses tokenized music representation as an output. Our proposed method mainly consists of 1) a hybrid CTC-Attention model for sequence-to-sequence automatic guitar transcription that uses tokenized music representation, and 2) two data augmentation methods for training the model. Our proposed model is a generic encoder-decoder Transformer model but adopts multi-task learning with CTC from the encoder to make the model more easily learn desirable alignments between the output tokens and acoustic features. Our proposed data augmentation methods scale up the amount of training data by 1) creating bar overlap when splitting an excerpt to be used for network input, and 2) by utilizing MIDI-only data to synthetically create audio-MIDI pair data. We confirmed that 1) the proposed data augmentation methods were highly effective for training generic Transformer models that generate tokenized outputs, 2) the addition of multi-task learning with CTC in our proposed model is especially effective when there is an insufficient amount of training data, and 3) our proposed hybrid CTC-Attention model outperforms conventional methods that transcribe guitar performance with tokens.</datacite:description>
          <dc:publisher xml:lang="ja">情報処理学会</dc:publisher>
          <datacite:date dateType="Issued">2023-06-16</datacite:date>
          <dc:language>jpn</dc:language>
          <dc:type rdf:resource="http://purl.org/coar/resource_type/c_18gh">technical report</dc:type>
          <jpcoar:identifier identifierType="URI">https://ipsj.ixsq.nii.ac.jp/records/226347</jpcoar:identifier>
          <jpcoar:sourceIdentifier identifierType="ISSN">2188-8752</jpcoar:sourceIdentifier>
          <jpcoar:sourceIdentifier identifierType="NCID">AN10438388</jpcoar:sourceIdentifier>
          <jpcoar:sourceTitle>研究報告音楽情報科学（MUS）</jpcoar:sourceTitle>
          <jpcoar:volume>2023-MUS-137</jpcoar:volume>
          <jpcoar:issue>43</jpcoar:issue>
          <jpcoar:pageStart>1</jpcoar:pageStart>
          <jpcoar:pageEnd>7</jpcoar:pageEnd>
          <jpcoar:file>
            <jpcoar:URI label="IPSJ-MUS23137043.pdf">https://ipsj.ixsq.nii.ac.jp/record/226347/files/IPSJ-MUS23137043.pdf</jpcoar:URI>
            <jpcoar:mimeType>application/pdf</jpcoar:mimeType>
            <jpcoar:extent>1.6 MB</jpcoar:extent>
            <datacite:date dateType="Available">2025-06-16</datacite:date>
          </jpcoar:file>
        </jpcoar:jpcoar>
      </metadata>
    </record>
  </GetRecord>
</OAI-PMH>
