<?xml version='1.0' encoding='UTF-8'?>
<OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd">
  <responseDate>2026-05-19T18:57:09Z</responseDate>
  <request verb="GetRecord" metadataPrefix="jpcoar_1.0" identifier="oai:ipsj.ixsq.nii.ac.jp:00095290">https://ipsj.ixsq.nii.ac.jp/oai</request>
  <GetRecord>
    <record>
      <header>
        <identifier>oai:ipsj.ixsq.nii.ac.jp:00095290</identifier>
        <datestamp>2025-01-21T13:58:07Z</datestamp>
        <setSpec>934:1119:7062:7270</setSpec>
      </header>
      <metadata>
        <jpcoar:jpcoar xmlns:datacite="https://schema.datacite.org/meta/kernel-4/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcndl="http://ndl.go.jp/dcndl/terms/" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:jpcoar="https://github.com/JPCOAR/schema/blob/master/1.0/" xmlns:oaire="http://namespace.openaire.eu/schema/oaire/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rioxxterms="http://www.rioxx.net/schema/v2.0/rioxxterms/" xmlns:xs="http://www.w3.org/2001/XMLSchema" xmlns="https://github.com/JPCOAR/schema/blob/master/1.0/" xsi:schemaLocation="https://github.com/JPCOAR/schema/blob/master/1.0/jpcoar_scm.xsd">
          <dc:title>スーパーコンピュータ「京」における格子QCDの単体性能チューニング</dc:title>
          <dc:title xml:lang="en">Performance Tuning of a Lattice QCD Code on a Node of the K computer</dc:title>
          <jpcoar:creator>
            <jpcoar:creatorName>寺井, 優晃</jpcoar:creatorName>
            <jpcoar:creatorName>石川, 健一</jpcoar:creatorName>
            <jpcoar:creatorName>杉崎, 由典</jpcoar:creatorName>
            <jpcoar:creatorName>南, 一生</jpcoar:creatorName>
            <jpcoar:creatorName>庄司, 文由</jpcoar:creatorName>
            <jpcoar:creatorName>中村, 宜文</jpcoar:creatorName>
            <jpcoar:creatorName>藏増, 嘉伸</jpcoar:creatorName>
            <jpcoar:creatorName>横川, 三津夫</jpcoar:creatorName>
          </jpcoar:creator>
          <jpcoar:creator>
            <jpcoar:creatorName xml:lang="en">Masaaki, Terai</jpcoar:creatorName>
            <jpcoar:creatorName xml:lang="en">Ken-ichi, Ishikawa</jpcoar:creatorName>
            <jpcoar:creatorName xml:lang="en">Yoshinori, Sugisaki</jpcoar:creatorName>
            <jpcoar:creatorName xml:lang="en">Kazuo, Minami</jpcoar:creatorName>
            <jpcoar:creatorName xml:lang="en">Fumiyoshi, Shoji</jpcoar:creatorName>
            <jpcoar:creatorName xml:lang="en">Yoshifumi, Nakamura</jpcoar:creatorName>
            <jpcoar:creatorName xml:lang="en">Yoshinobu, Kuramashi</jpcoar:creatorName>
            <jpcoar:creatorName xml:lang="en">Mitsuo, Yokokawa</jpcoar:creatorName>
          </jpcoar:creator>
          <jpcoar:subject subjectScheme="Other">[高性能計算] アプリケーション性能， 性能ばらつき， TLBミス， ラージページ， スーパーコンピュータ「京」</jpcoar:subject>
          <datacite:description descriptionType="Other">格子量子色力学（格子QCD）は，時空間を4次元の立方格子として離散化し，格子点にクォークを，格子点間を結ぶリンクにグルオンを配置し，そのダイナミクスを求めることでクォークとグルオン間に働く強い力の相互作用を数値的に解く計算手法である．ダイナミクスを求める過程で，Wilson-Dirac演算子の逆行列の計算が行われる．この演算子は，複素要素を持つ大規模疎行列となるため，逆行列計算は格子QCDで最も計算時間を要する．今回チューニングを行った格子QCDコードであるLDDHMCは，領域分割されたHMCアルゴリズムに基づく手法（DD-HMC）を採用している．特徴としては，倍精度BiCGStab法の前処理として，単精度の領域分割シュワルツ交代法（SAP）を適用したBiCGStab法を使うことでほとんどの計算を単精度で行いつつ倍精度の解を求めることにある．さらにSAPの小領域に制限された行列の逆を求めるところにSSOR法を用いSAPの収束を改善している．「京」の単体性能向上のため，SSOR法の部分から3つのカーネルを抽出し，詳細プロファイラ機能を用いたボトルネック解析を実施した．その結果，オリジナルコードでは，a) SIMD命令率，b) 整数ロードキャッシュアクセス待ち，c) 浮動小数点ロードキャッシュアクセス待ち，d) 命令スケジューリング，e) バリア同期待ちに問題点があることが明らかになった．これらの問題点についてチューニングを実施した結果，カーネル1で1コアあたり23.2%から38.1%，カーネル2で24.3%から38.0%，カーネル3で23.6%から44.9%に実効効率が改善された．1チップあたりでは，カーネル1で29.5%，カーネル2で30.9%，カーネル3で37.8%の改善が得られた．コンパイラの改良において，カーネルを用いたプロファイル情報の解析やチューニング手法が有効であることを示した．</datacite:description>
          <datacite:description descriptionType="Other">Lattice QCD is first principle calculation to solve the dynamics between quarks and gluons based on strong interaction. The calculation is performed on four dimensional space-time which is discretized to lattice, and requires a huge amount of inversion of the sparse matrix derived from Wilson-Dirac equation. In this study, Lattice QCD code, LDDHMC uses domain decomposition HMC algorithm with mixed precision BiCGStab solver for the linear equation. This scheme is nested, consists of inner solver and outer solver. The outer solver is calculation of BiCGStab with double precision. The inner solver is preconditioning calculation of BiCGStab with single precision and is preconditioned by the Luscher's SAP. Furthermore, the calculation for the small block of SAP is improved with SSOR. To improve the performance we extracted three kernel codes from the SSOR routine in the application codes, and analyzed bottlenecks for the kernels by profiler. Based on the profiling we obtained the problems for following points: a) SIMD instruction rate, b) integer L1D cache misses, c) floating-point L1D cache misses, d) instruction scheduling, e) barrier synchronization. As a result, the tuning improves the peak performance a core from 23.2% to 38.1% in the kernel-1, from 24.3% to 38.0% in the kernel-2, from 23.6% to 44.9% in the kernel-3. The peak performance a chip is 29.5% in the kernel-1, 30.9% in the kernel-2, 37.8% in the kernel-3. The results show effectiveness for improvement of the compiler by profiling and tuning.</datacite:description>
          <dc:publisher xml:lang="ja">情報処理学会</dc:publisher>
          <datacite:date dateType="Issued">2013-09-25</datacite:date>
          <dc:language>jpn</dc:language>
          <dc:type rdf:resource="http://purl.org/coar/resource_type/c_6501">journal article</dc:type>
          <jpcoar:identifier identifierType="URI">https://ipsj.ixsq.nii.ac.jp/records/95290</jpcoar:identifier>
          <jpcoar:sourceIdentifier identifierType="ISSN">1882-7829</jpcoar:sourceIdentifier>
          <jpcoar:sourceIdentifier identifierType="NCID">AA11833852</jpcoar:sourceIdentifier>
          <jpcoar:sourceTitle>情報処理学会論文誌コンピューティングシステム（ACS）</jpcoar:sourceTitle>
          <jpcoar:volume>6</jpcoar:volume>
          <jpcoar:issue>3</jpcoar:issue>
          <jpcoar:pageStart>43</jpcoar:pageStart>
          <jpcoar:pageEnd>57</jpcoar:pageEnd>
          <jpcoar:file>
            <jpcoar:URI>https://ipsj.ixsq.nii.ac.jp/record/95290/files/IPSJ-TACS0603007.pdf</jpcoar:URI>
            <jpcoar:mimeType>application/pdf</jpcoar:mimeType>
            <jpcoar:extent>2.9 MB</jpcoar:extent>
            <datacite:date dateType="Available">2015-09-25</datacite:date>
          </jpcoar:file>
        </jpcoar:jpcoar>
      </metadata>
    </record>
  </GetRecord>
</OAI-PMH>
