長岡技術科学大学
   
 

--

武田大河, 中平勝子, & 北島宗雄 (2018)

武田大河, 中平勝子, & 北島宗雄. (2018). Web からの知識獲得格差実態把握のための言語分布調査モジュール開発に向けた基礎調査. FIT2018(第17回情報科学技術フォーラム)講演論文集, 第2分冊, 153-154.

 

Web からの知識獲得格差実態把握のための言語分布調査モジュール開発に向けた基礎調査

Basic research for development of language distribution survey module for grasping actual knowledge acquisition gap from the Web

世界に現存している言語は6000超であるが,コンピュータ表現可能な言語は,その10%程度に過ぎない.この状況は,情報獲得におけるデジタルデバイドと捉えることができ,その状況把握には,多くの言語を判別可能な言語判定エンジンが必要である.本稿では,Web空間における情報表示手段の一つである文書データに着目し,文書がもつ言語情報をバイナリnグラムパタンによって解析し,次世代の言語判定エンジン設計に向けた課題抽出を行う.文書のバイナリパタンのnグラム分析を行い固有パタンを持つ/特定のバイナリパタンセットが固有である言語を特定し,本手法で判別可能な言語数を算出した.さらに,この判別方法における課題を抽出した.

 

Download