Item type |
Journal(1) |
公開日 |
2023-01-15 |
タイトル |
|
|
タイトル |
クラス間の距離を考慮した多変量2値分布における代表点分析法に関する研究 |
タイトル |
|
|
言語 |
en |
|
タイトル |
A Study on Principal Points for a Multivariate Binary Distribution Considering the Distance between Clusters |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
[一般論文] 代表点分析法,劣モジュラ関数最適化,近似アルゴリズム,クラスタリング |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_6501 |
|
資源タイプ |
journal article |
ID登録 |
|
|
ID登録 |
10.20729/00223422 |
|
ID登録タイプ |
JaLC |
著者所属 |
|
|
|
上智大学理工学部 |
著者所属 |
|
|
|
上智大学理工学部 |
著者所属(英) |
|
|
|
en |
|
|
Faculty of Science and Technology, Sophia University |
著者所属(英) |
|
|
|
en |
|
|
Faculty of Science and Technology, Sophia University |
著者名 |
竹本, 真悟
山下, 遥
|
著者名(英) |
Shingo, Takemoto
Haruka, Yamashita
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
多変量2値分布をよく表すようなk個の点として定義された2値型代表点分析法は,様々なデータ分析へと活用されている.ここで,2値型代表点分析法には,値が同じような代表点が多数出てしまうと,代表点の解釈が困難となるという問題が存在する.このような場合,代表点どうしの距離が大きくなるような距離関数を定義することで,代表点間の違いに着目した分析が可能となり,有効なアプローチであると考えられる.本研究では,求める基礎としてデータと代表点との適合度の最大化,および代表点どうしの距離の最大化の双方を考慮した新たな2値型代表点分析を提案する.ただし,2値型代表点を求めるための計算量が膨大となってしまうため,効率良く解を求める必要がある.また,近似アルゴリズムを適用する場合,得られる解の精度が保証されていることが実用上望ましい.そこで,提案する2値型代表点分析法の目的関数は,劣モジュラ性を持っていることを示し,貪欲法を用いたアルゴリズムにより,精度の下限を保証した近似アルゴリズムを提案する.さらに,本研究ではシミュレーション実験により本研究における提案手法の性質を検証しながら妥当性を示したうえで2種類の実際のデータに提案手法をあてはめて,分析の具体例を示すとともに実世界における適用の有効性を確認する. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Principal points for a binary distribution, defined as k points that well represent a multivariate binary distribution, has been used for various data analysis. The problem with the Principal points method is difficult to interpret representative points when there are many representative points with similar values. In such cases, defining a distance function that increases the distance between representative points can be an effective approach because it allows analysis that focuses on differences among principal points. This study proposes a method of principal points for a multivariate binary distribution that considers both the maximization of the goodness of fit between data and representative points and the maximization of the distance between representative points as the bias for the search. Here, the computational complexity of obtaining a binary representative point is enormous, so it is necessary to find a solution efficiently. In addition, when applying an approximation algorithm, it is desirable from a practical standpoint that the accuracy of the obtained solution is guaranteed. Therefore, in this study, we show that the objective function of the proposed an analysis method using principal points for a multivariate binary distribution is submodular and propose an approximation algorithm that guarantees a lower bound of accuracy by using a greedy algorithm. We then apply the proposed method to two types of real-world data to demonstrate the effectiveness of the method in real-world applications and to provide examples of analysis. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN00116647 |
書誌情報 |
情報処理学会論文誌
巻 64,
号 1,
p. 179-188,
発行日 2023-01-15
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
1882-7764 |
公開者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |