ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 論文誌(トランザクション)
  2. プログラミング(PRO)
  3. Vol.1
  4. No.2

SIMD命令を用いるUTF-8文字列デコード処理の高速化

https://ipsj.ixsq.nii.ac.jp/records/16433
https://ipsj.ixsq.nii.ac.jp/records/16433
2cdea9ac-21c1-4d88-8035-32a8c2267298
名前 / ファイル ライセンス アクション
IPSJ-TPRO0102002.pdf IPSJ-TPRO0102002.pdf (1.1 MB)
Copyright (c) 2008 by the Information Processing Society of Japan
オープンアクセス
Item type Trans(1)
公開日 2008-09-26
タイトル
タイトル SIMD命令を用いるUTF-8文字列デコード処理の高速化
タイトル
言語 en
タイトル Accelerating UTF-8 Decoding Using SIMD Instructions
言語
言語 jpn
キーワード
主題Scheme Other
主題 通常論文
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_6501
資源タイプ journal article
著者所属
日本IBM東京基礎研究所
著者所属
日本IBM東京基礎研究所
著者所属
日本IBM東京基礎研究所
著者所属(英)
en
IBM Tokyo Research Laboratory
著者所属(英)
en
IBM Tokyo Research Laboratory
著者所属(英)
en
IBM Tokyo Research Laboratory
著者名 井上, 拓 小松, 秀昭 中谷, 登志男

× 井上, 拓 小松, 秀昭 中谷, 登志男

井上, 拓
小松, 秀昭
中谷, 登志男

Search repository
著者名(英) Hiroshi, Inoue Hideaki, Komatsu Toshio, Nakatani

× Hiroshi, Inoue Hideaki, Komatsu Toshio, Nakatani

en Hiroshi, Inoue
Hideaki, Komatsu
Toshio, Nakatani

Search repository
論文抄録
内容記述タイプ Other
内容記述 近年,XMLなど多くの用途において,テキストデータの標準的な表現形式として,1文字を1~3バイトの可変長で表現するUTF-8エンコーディングが用いられている.一方,Java仮想マシンなど多くの処理系においては,文字列の内部表現として1文字が2バイトの固定長であるUTF-16エンコーディングが用いられている.そのため,Javaで記述されたWebアプリケーションサーバなどの多量のテキストデータを取り扱うワークロードにおいては,テキストデータをUTF-8とUTF-16との間で相互に変換する処理が大きな処理時間を占める場合があり,このテキストデータ変換処理の高速化はシステム全体の性能向上において重要な意味を持つ.本研究では,SIMD命令を用いてUTF-8からUTF-16への変換をはじめとする可変長符号化データのデコード処理を高速に行う手法を提案する.この手法では複数のデータを並列に処理することに加えて,条件分岐での分岐予測ミスによるオーバヘッドを減少させることで,大きな性能向上が得られる.本手法をPowerPCアーキテクチャのSIMD命令セットであるVMX命令を用いて実装し,様々なテキストデータを入力としてUTF-8文字列デコード処理の性能を計測した結果,SIMD命令を用いない既存の方法と比較して単純な例で10倍以上,実際のテキストデータを用いたケースでも2倍から10倍の性能向上が得られた.
論文抄録(英)
内容記述タイプ Other
内容記述 Recently UTF-8 encoding is widely used as a standard format for text data exchange. The Java programming language, however, uses UTF-16 encoding as its internal representation format for text data. As a result, data conversions between UTF-8 and UTF-16 consume considerable amount of CPU time in workloads that process large amount of text data, such as web application servers. Hence accelerating these conversions are important to improve the performance of many applications. In this paper, we present our new technique to accelerate decoding of variable-length formats, such as conversion from UTF-8 to UTF-16, by using SIMD instructions. The new technique can achieve higher performance by reducing overhead of branch mispredictions in addition to exploiting data parallelism of SIMD instructions. We implemented the technique using VMX instructions of the PowerPC architecture and evaluated its performance to decode various UTF-8 sequences on a PowerPC 970MP processor. As a result, we showed that our technique significantly accelerated the UTF-8 decoding compared to the existing method.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AA11464814
書誌情報 情報処理学会論文誌プログラミング(PRO)

巻 1, 号 2, p. 1-8, 発行日 2008-09-26
ISSN
収録物識別子タイプ ISSN
収録物識別子 1882-7802
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-22 23:51:49.298253
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3