<?xml version='1.0' encoding='UTF-8'?>
<OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd">
  <responseDate>2026-03-05T17:42:18Z</responseDate>
  <request metadataPrefix="oai_dc" verb="GetRecord" identifier="oai:ipsj.ixsq.nii.ac.jp:00048045">https://ipsj.ixsq.nii.ac.jp/oai</request>
  <GetRecord>
    <record>
      <header>
        <identifier>oai:ipsj.ixsq.nii.ac.jp:00048045</identifier>
        <datestamp>2025-01-22T08:42:22Z</datestamp>
        <setSpec>1164:4179:4201:4205</setSpec>
      </header>
      <metadata>
        <oai_dc:dc xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/" xmlns="http://www.w3.org/2001/XMLSchema" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/oai_dc/ http://www.openarchives.org/OAI/2.0/oai_dc.xsd">
          <dc:title>『日本語話し言葉コーパス』における自己修復部(Dタグ)の自動検出および修正に関する検討</dc:title>
          <dc:title>Automatic Detection and Correction of Self-Repairs in the Corpus of Spontaneous Japanese</dc:title>
          <dc:creator>下岡, 和也</dc:creator>
          <dc:creator>河原, 達也</dc:creator>
          <dc:creator>内元, 清貴</dc:creator>
          <dc:creator>井佐原, 均</dc:creator>
          <dc:creator>Kazuya, Shitaoka</dc:creator>
          <dc:creator>Tatsuya, Kawahara</dc:creator>
          <dc:creator>Kiyotaka, Uchimoto</dc:creator>
          <dc:creator>Hitoshi, Isahara</dc:creator>
          <dc:description>話し言葉においては，繰り返しや言い直しなどの自己修復部が数多く存在するが，書き起こしの整形過程においてこれらは削除・修正されるのが一般的である． 『日本語話し言葉コーパス』(CSJ)においては，このような文節に対してDタグが付与されている．本研究ではまず，このDタグが付与されている自己修復部を自動検出する手法について検討する．具体的には，形態素や係り受けの情報を用いて機械学習を行い，実験的評価を示す．次に，このような自己修復部を，文整形・編集においてどのように処理すべきかについて検討する．当該文節に関する係り受け関係に基づいて場合分けを行うことで，削除すべき範囲を適切に同定できることを示す．</dc:description>
          <dc:description>In the transcripts of spontaneous speech, there are many self-repairs as well as fillers, and they are usually corrected by human editors. In the Corpus of Spontaneous Japanese (CSJ), a special tag (D-tag) is attached to the bunsetsu units of this kind of phenomenon.  We present a method to detect such units based on a machine learning technique.  Then, we investigate how to correct them, by classifying them based on the dependency structures.</dc:description>
          <dc:description>technical report</dc:description>
          <dc:publisher>情報処理学会</dc:publisher>
          <dc:date>2005-05-27</dc:date>
          <dc:format>application/pdf</dc:format>
          <dc:identifier>情報処理学会研究報告自然言語処理（NL）</dc:identifier>
          <dc:identifier>50(2005-NL-167)</dc:identifier>
          <dc:identifier>2005</dc:identifier>
          <dc:identifier>95</dc:identifier>
          <dc:identifier>100</dc:identifier>
          <dc:identifier>AN10115061</dc:identifier>
          <dc:identifier>https://ipsj.ixsq.nii.ac.jp/record/48045/files/IPSJ-NL05167014.pdf</dc:identifier>
          <dc:language>jpn</dc:language>
        </oai_dc:dc>
      </metadata>
    </record>
  </GetRecord>
</OAI-PMH>
