WEKO3
アイテム
機械学習のための時系列データの特徴点数の制御によるデータ圧縮方式の提案
https://ipsj.ixsq.nii.ac.jp/records/231513
https://ipsj.ixsq.nii.ac.jp/records/23151318781676-bd2a-4105-bc14-d97ceac1c65b
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2025年12月14日からダウンロード可能です。
|
Copyright (c) 2023 by the Information Processing Society of Japan
|
|
非会員:¥660, IPSJ:学会員:¥330, DPS:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2023-12-14 | |||||||
タイトル | ||||||||
タイトル | 機械学習のための時系列データの特徴点数の制御によるデータ圧縮方式の提案 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Data Compression Method for Machine Learning by Controlling the Number of Feature Points of Time Series Data | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | AIと機械学習 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
三菱電機株式会社 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Information Technology R&D Center, Mitsubishi Electric Corporation | ||||||||
著者名 |
森, 郁海
× 森, 郁海
|
|||||||
著者名(英) |
Ikumi, Mori
× Ikumi, Mori
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 時系列データ(生データ)の特徴を保持しつつ,保存するデータ点を削減するために,生データに対する平滑化の度合いを変化させることで,特徴点となる極値の数を制御するデータ圧縮方式を提案する.差分符号化のような従来のデータ圧縮方式は,生データを完全に復元可能だが,同一値の連続が少ない場合に圧縮率が低下する.提案方式は,極値が抽出しやすいよう生データを 3 次スプライン補間した後,特徴をより残すためにデータ点の確率分布を基に重みづけした加重移動平均で平滑化する.さらに,平滑化後のデータから極値などの特徴点を抽出する際に,一定値以下の微小な変動点を除外し,保存するデータ点を削減する.回帰分析タスクを想定した評価の結果,差分符号化時の圧縮率(生データ比)と予測誤差(RMSE)がそれぞれ 0.62,4.27 に対し,提案方式ではそれぞれ 0.13~0.21,3.14~6.09 となり,機械学習に必要な生データの特徴を保持しながら圧縮率を高められることを確認した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | We proposed the data compression method that controls the number of extrema as feature points by adjusting the smoothing parameter for time series data (raw data). Our method maintains the characteristics of the raw data and reduces data points should be stored. Conventional data compression methods, such as Delta encoding, can decode to completely original raw data, however, the compressed data size decreases in case of encoding data includes few consecutive same values. First step of the proposed method is to apply cubic spline interpolation on the raw data so that extrema can be easily extracted. Then the interpolated data smooths using our proposed new moving average weighted based on the probability distribution of the data points in order to retain more features. Furthermore, when extracting feature points such as extrema from the smoothed data, the proposed method excludes minute fluctuation points below a threshold in order to reduce data points should be stored. As a result of evaluation assuming a regression analysis task, the data compression ratio against raw data and prediction error (RMSE) of Delta encoding are 0.62 and 4.27 respectively. On the other hand, results of the proposed method are 0.13 to 0.21 and 3.14 to 6.09 respectively. These results shows that the proposed method can more reduce the compressed data size than the conventional one while preserving the features of the raw data need for machine learning. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10116224 | |||||||
書誌情報 |
研究報告マルチメディア通信と分散処理(DPS) 巻 2023-DPS-197, 号 14, p. 1-8, 発行日 2023-12-14 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 2188-8906 | |||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |