N-gramとは





N-gram関連ニュース

N-gram大全集
N-gram大全集
 グーグルは1日、Webから抽出した約200億文(約2,550億単語)の日本語データにより作成した、単語単位のN-gramデータを公開した。データの配布は特定非営利活動法人言語資源協会を通じて行なわれ、学術目的限定でデータを記録したDVD-Rを有償で入手できる。

 グーグルが公開したN-gramデータは、直前の単語の並びから次に来る単語の出現頻度を記録したもの。
今回のお得情報は・・・
例えば、「グーグルで」という言葉の後ろには、「検索」という単語が最も多く出現するといったことがわかる。直前の言葉から次に来る単語の頻度がわかることで、かな漢字変換、機械翻訳、OCRのエラー訂正、音声認識といった分野に応用できる。

 公開されたデータは、日本語データを形態素解析エンジンの「MeCab」を使用して分割し、1〜7個の単語の並びについて出現頻度20回以上のものが収録されている
(引用 yahooニュース)


N-gram他のニュース
 グーグルは11月1日、大規模日本語コーパスのN-gramデータを公開した。N-gramは自然言語処理の領域で、単語同士の結びつきを統計的に処理する計算モデル。「グーグルで検索」「グーグルで調べる」「グーグルで探す」のように特定の単語(例では“グーグル”)と、他の単語の結びつきを予測できる。
今回のお得情報は・・・


 N-gramは特定の位置にある単語が何であるかを、その直前の単語、さらに前の単語……、とN個分さかのぼって推測できるという仮説に基づいている。かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに使われている。

 公開したのはグーグルがWebサイトから抽出した約200億文(約2550億単語)の日本語データから作成したN-gramデータ(1〜7gram)
(引用 yahooニュース)

N-gram関連動画