2024-03-28T20:26:41Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:001825692023-04-27T10:00:04Z01164:03925:09071:09205
テクストの相互情報量により非文字オントロジー間を接続する概念の提案とそのケーススダディ-潜在的テクストを確率変数として見る場合-Proposal of the concept of connectingHIMOJl-ontologies by mutual information of texts, and its case study -In the case to see latent texts as random variables-jpnhttp://id.nii.ac.jp/1001/00182481/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=182569&item_no=1&attribute_id=1&file_no=1Copyright (c) 2017 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.神奈川大学工学部神奈川大学工学部神奈川大学工学部宋, 先波森住, 哲也木下, 宏揚本研究は,神奈川大学で研究されている 「非文字資料」 をデータベース化するテーマに連関する. しかし本論文では 「非文字」 とはテクストに陽に書かれていない潜在的なテクストであると見倣す.一般にデータは,共有 ・ 再利用のためデータを指し示す概念を分類整理する工学的オントロジー : ~ として示される.しかしながらこの操作によって非文字特有の (或いはもっと一般的なテクストに於いても) 潜在的なテクストが削ぎ落される.即ち,次の問題が明示される : 他者と非文字テクストを共有し,かつ非文字の潜在性を残しておきたい.本論文では次に示す 4 つの仮説に基づいてこの問題を考える : < 『意味』 は 『作用』 とともに変動する>, <思考と言語的振舞いには情報理論的な相関がある>, <実在を指示するテクストの,「語」 を命題の変項と見倣し,「語」 と言う変項を 『確率変数として見る』 !>, <テクストを構成する語は事前的な語と事後的な語の相互情報量が最大になる様に生成される>,この仮説にしたがい,テクストはコーパス分解されワードベクトルとして捉えられる.ここに C.E..SHANNON の N-gram モデルと機械学習を組み合わせたプログラム (word 2 vec) の概念が使用される.即ち,語と語の内積的類似が語と語の相互情報量に近似できると言う性質を利用し,オントロジー間に情報理論的チャネルを生成する.更に,オントロジー間の情報量的チャネルを情報理論 : ~ として評価する一つの試みを示す.This paper is linked to the theme of database creation of "HIMOJI data" which has been studied at Kanagawa University. However, we regard "HIMOJI" as a latent text that is not explicitly written in texts. In general, data handled on the Internet is shown as an engineering ontology : that organizes the concepts that points to data for sharing and reusing the resources, However, this ontological operation will trim down the latent texts of "HIMOJI" (or even in more general). That is, the following problem is stated : we would like to share the "HIMOJI" text with others and keep the latent strength. In this paper, we consider this problem based on the following four hypotheses : <"Meaning" fluctuates with "behavior">, <There is an Information theoretic correlation between thought and linguistic behavior>, <The text that instructs real existence is regarded as a prepositional variable, and the variable called "word" is viewed as a random variable ! >, <The words that make up the text are generated such that the mutual information capacity among the prior word and the posterior word is maximized>. According to this hypotheses, text is decomposed corpus and caught as a word vector. Here, the concept of a program (word 2 vec) combining C. E. SHANNON'S N-gram model and machine learning is used. In other words, we utilize the property that the inner product similarity among the words can be approximated to the mutual information capacity among the words, and an informative channel between ontologies can be generated. Furthermore, we present an attempt to evaluate the information channel between ontologies as an information theory.AA11235941研究報告コンピュータセキュリティ(CSEC)2017-CSEC-7824162017-07-072188-86552017-07-06