WEKO3
アイテム
データセット分割改良によるリガンド結合親和性予測のデータバイアスの削減
https://ipsj.ixsq.nii.ac.jp/records/226684
https://ipsj.ixsq.nii.ac.jp/records/226684da84fa3f-e9e6-4c9c-9a53-5e5906e218ae
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2025年6月22日からダウンロード可能です。
|
Copyright (c) 2023 by the Information Processing Society of Japan
|
|
非会員:¥660, IPSJ:学会員:¥330, BIO:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2023-06-22 | |||||||||
タイトル | ||||||||||
タイトル | データセット分割改良によるリガンド結合親和性予測のデータバイアスの削減 | |||||||||
タイトル | ||||||||||
言語 | en | |||||||||
タイトル | Reducing data bias in ligand binding affinity prediction by improving dataset partitioning | |||||||||
言語 | ||||||||||
言語 | jpn | |||||||||
キーワード | ||||||||||
主題Scheme | Other | |||||||||
主題 | バイオ情報学1 | |||||||||
資源タイプ | ||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||
資源タイプ | technical report | |||||||||
著者所属 | ||||||||||
東京工業大学情報理工学院情報工学系 | ||||||||||
著者所属 | ||||||||||
東京工業大学情報理工学院情報工学系 | ||||||||||
著者所属(英) | ||||||||||
en | ||||||||||
Department of Computer Science, School of Computing, Tokyo Institute of Technology | ||||||||||
著者所属(英) | ||||||||||
en | ||||||||||
Department of Computer Science, School of Computing, Tokyo Institute of Technology | ||||||||||
著者名 |
山崎, 希
× 山崎, 希
× 石田, 貴士
|
|||||||||
論文抄録 | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | タンパク質リガンド複合体の結合親和性予測は創薬において重要な役割を果たす.近年では3次元畳み込みニューラルネットワークやグラフニューラルネットワークを利用した深層学習モデルが開発されており,その多くが既知の立体構造と結合親和性を学習に用いている.しかし,このようなデータセットでは類似したリガンドは類似した結合親和性を持つバイアスがあるため,単純なランダム分割により訓練セットとテストセットを分けるとリガンドの構造のみから結合親和性を予測することができてしまうという問題が存在している.これは,タンパク質の構造についても同じことが言える.そこで,本研究ではタンパク質の配列とリガンドの記述子を用いてクラスタリングを行い,このようなバイアスを削減するデータ分割手法を提案した.さらに,提案された分割手法を用いてモデルの学習・予測を行い,データ分割の評価を行った.その結果,提案された分割手法ではリガンド構造のみからの予測はランダムな分割に比べ予測精度が大きく低下し,既存の予測モデルの予測精度がリガンドのバイアスに大きく依存することが示唆された. | |||||||||
論文抄録(英) | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | Binding affinity prediction of protein-ligand complexes plays an important role in drug discovery. Recently, deep learning models using 3D convolutional neural networks and graph neural networks have been developed. Many of them use known 3D structures and their binding affinities for training their models. However, in such datasets, there is a bias that similar ligands tend to have similar binding affinities. Therefore, when a simple random data partitioning is used, the binding affinity can be predicted from the ligand structure alone. The same can be said for protein structures. In this study, we proposed a data partitioning method that reduces such bias by performing clustering using protein sequences and ligand descriptors. Furthermore, we evaluated the proposed data partitioning method by training and predicting models using the proposed data partitioning. The results show that the prediction accuracy of the proposed partitioning method based on ligand structure alone is much lower than that of random partitioning, suggesting that the prediction accuracy of existing prediction models is highly dependent on the ligand bias. | |||||||||
書誌レコードID | ||||||||||
収録物識別子タイプ | NCID | |||||||||
収録物識別子 | AA12055912 | |||||||||
書誌情報 |
研究報告バイオ情報学(BIO) 巻 2023-BIO-74, 号 29, p. 1-7, 発行日 2023-06-22 |
|||||||||
ISSN | ||||||||||
収録物識別子タイプ | ISSN | |||||||||
収録物識別子 | 2188-8590 | |||||||||
Notice | ||||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||
出版者 | ||||||||||
言語 | ja | |||||||||
出版者 | 情報処理学会 |