@techreport{oai:ipsj.ixsq.nii.ac.jp:00237622,
 author = {野崎, 愛 and 小島, 拓也 and 中村, 宏 and 高瀬, 英希},
 issue = {28},
 month = {Aug},
 note = {量子計算機時代にも安全に利用可能な暗号として耐量子暗号の研究が活発に行われている．公開鍵暗号として選定された CRYSTICALS-Kyber や準同型暗号を始めとする格子暗号の一種では，Number Theoretic Transform（NTT）の処理が実行時間の大きな割合を占める．NTT は離散フーリエ変換を剰余多項式上で行うアルゴリズムであり，バタフライ演算に伴い発生する，入力配列の全域にわたる不連続なメモリアクセスのコストが大きい．従来，NTT のアクセラレーションには階層的なメモリ構造を持つアーキテクチャが用いられてきたが，NTT の計算強度ではメモリバンド幅律速となることが多く，メモリアクセスの改善が求められている．近年，深層学習向けに，階層的なメモリ構造ではなく，2 次元配列上に並べられた Processing Element（PE）が分散してデータを保持し，隣接 PE 間でデータをやり取りするアーキテクチャが研究・開発されている．AMD AI Engine はその一例であり，このようなデータフロー型のアーキテクチャは NTT の不連続なメモリアクセスを高効率に処理できる可能性がある．本研究では，AI Engine によるアクセラレーションによって NTT 処理の高速化を目指す．一元的にアクセス可能なメモリを持たない AI Engine において，PE 間でどのようにデータを分割し，データ転送を行うか，データレイアウトを設計する．さらに，主要な演算器であるベクター演算器を活用すべく，PE に割り当てられた部分的な NTT の並列化を行う．これらの設計の有用性を確かめるため，実行時間を評価し，NVIDIA A100 との比較を行った．},
 title = {AMD AI Engineによる数論変換のアクセラレーションの検討},
 year = {2024}
}