長岡技術科学大学
   
 

--

高野凱, 中平勝子, & 北島宗雄 (2016)

高野凱, 中平勝子, & 北島宗雄. (2016). 固定長バイト列一次元スペクトルを利用した高速言語判別法. FIT2016(第15回情報科学技術フォーラム)講演論文集, 第3分冊, 283-284.

 

固定長バイト列一次元スペクトルを利用した高速言語判別法

A method for fast language identification using one-dimensional spectrum of fixed length byte sequences

高度情報化社会における情報取得の可否は,知る権利の観点で重要である.現存する6000超の言 語のコンピュータ表現は,音写,代替表示,言語固有の文字コード等の形式で段階的に表現され るが,その実現度は全言語の10%程度に過ぎない.ユーザが日常的に使用している言語での情報 取得の可否の実態を知ることは重要である.本稿では,インターネット空間における言語間格差 の実態調査のための,分光法を応用した高速な言語判定エンジンの開発を行う.テキストの固定 長バイト系列を物理的観測量,頻度を強度に対応させ,言語毎の教師データとの相関を求めるこ とで言語判定を行う.主要特徴点から順次照合を行うことで,判別速度の向上を図る.

 

Download