WEKO3
アイテム
スーパーコンピュータTSUBAME3.0におけるAlphaFoldのデータベースの保存方法の変更とHHblitsの最適化による性能向上
https://ipsj.ixsq.nii.ac.jp/records/226907
https://ipsj.ixsq.nii.ac.jp/records/22690743959f4c-fa11-43a1-af03-833bb81337fe
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2025年7月17日からダウンロード可能です。
|
Copyright (c) 2023 by the Information Processing Society of Japan
|
|
非会員:¥660, IPSJ:学会員:¥330, MPS:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2023-07-17 | |||||||||||||
タイトル | ||||||||||||||
タイトル | スーパーコンピュータTSUBAME3.0におけるAlphaFoldのデータベースの保存方法の変更とHHblitsの最適化による性能向上 | |||||||||||||
言語 | ||||||||||||||
言語 | jpn | |||||||||||||
資源タイプ | ||||||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||||||
資源タイプ | technical report | |||||||||||||
著者所属 | ||||||||||||||
東京工業大学情報理工学院 | ||||||||||||||
著者所属 | ||||||||||||||
東京工業大学学術国際情報センター | ||||||||||||||
著者所属 | ||||||||||||||
東京工業大学学術国際情報センター/東京工業大学情報理工学院 | ||||||||||||||
著者所属 | ||||||||||||||
東京工業大学情報理工学院 | ||||||||||||||
著者所属(英) | ||||||||||||||
en | ||||||||||||||
School of Computing, Tokyo Institute of Technology | ||||||||||||||
著者所属(英) | ||||||||||||||
en | ||||||||||||||
Global Scientific Information and Computing Center, Tokyo Institute of Technology | ||||||||||||||
著者所属(英) | ||||||||||||||
en | ||||||||||||||
Global Scientific Information and Computing Center, Tokyo Institute of Technology / School of Computing, Tokyo Institute of Technology | ||||||||||||||
著者所属(英) | ||||||||||||||
en | ||||||||||||||
School of Computing, Tokyo Institute of Technology | ||||||||||||||
著者名 |
藤田, 隼斗
× 藤田, 隼斗
× 野村, 哲弘
× 遠藤, 敏夫
× 関嶋, 政和
|
|||||||||||||
論文抄録 | ||||||||||||||
内容記述タイプ | Other | |||||||||||||
内容記述 | タンパク質は生命活動に不可欠な生体高分子である.私たちの体内における活動の多くはタンパク質によって担われており,タンパク質の立体構造はその役割に深く関係している.そのため,タンパク質の立体構造の理解はタンパク質の機能の理解に役立ち,人体の働きを理解する基礎となる.ただし既知のタンパク質のアミノ酸配列に対して,実験的に立体構造が決定されているタンパク質は多いとは言えない.これらのギャップを埋めるために計算機によるアプローチが必要であり,そのアプローチの 1 つとして開発されたのが AlphaFold である.AlphaFold は一定の相同性を持つ複数のアミノ酸配列をなるべく一致するように並べたマルチシーケンスアラインメント (MSA) を活用し,タンパク質の立体構造に関する知識を深層学習アルゴリズムの設計に取り入れた機械学習アプローチである.第 14 回タンパク質構造予測精密評価 (CASP14) にて他の手法を大きく上回る結果を残した.AlphaFold は hhblits 等の既存のツールを使い,BFD などの巨大な遺伝子データベースから MSA を取得している.しかし,そのうちの 1 つの hhblits の実行に多大な時間がかかるという問題がある.この実行時間の一番の要因は I/O にあり,遺伝子データベースをどういったストレージに保管するかによって実行時間が大きく異なってくる.実際に TSUBAME3.0 の高速ストレージ領域にデフォルトの設定で保管した場合と Stripe 設定をして保管した場合とで実行時間が大きく異なっている.そこで,本研究では TSUBAME3.0 上で選択できる遺伝子データベースの保管方法を何通りか試し,実行時間を計測した.さらに,ボトルネックとなっている hhblits に対してプロファイリングを行い,その結果から並列化数のチューニングやデータベースの保存方法の変更,ソートの最適化を行った.また,AlphaFold の MSA 取得ツール間のデータ依存関係からツール実行を非同期に行うようにした.その結果,TSUBAME3.0 上で単一のアミノ酸配列から立体構造を予測する際の実行時間を平均して 2 分の 1 に短縮することに成功した. | |||||||||||||
書誌レコードID | ||||||||||||||
収録物識別子タイプ | NCID | |||||||||||||
収録物識別子 | AN10505667 | |||||||||||||
書誌情報 |
研究報告数理モデル化と問題解決(MPS) 巻 2023-MPS-144, 号 3, p. 1-8, 発行日 2023-07-17 |
|||||||||||||
ISSN | ||||||||||||||
収録物識別子タイプ | ISSN | |||||||||||||
収録物識別子 | 2188-8833 | |||||||||||||
Notice | ||||||||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||||||
出版者 | ||||||||||||||
言語 | ja | |||||||||||||
出版者 | 情報処理学会 |