N-gramとは
N-gram関連ニュース
N-gram大全集
N-gram大全集
グーグルは1日、Webから抽出した約200億文(約2,550億単語)の日本語データにより作成した、単語単位のN-gramデータを公開した。データの配布は特定非営利活動法人言語資源協会を通じて行なわれ、学術目的限定でデータを記録したDVD-Rを有償で入手できる。
グーグルが公開したN-gramデータは、直前の単語の並びから次に来る単語の出現頻度を記録したもの。
今回のお得情報は・・・
例えば、「グーグルで」という言葉の後ろには、「検索」という単語が最も多く出現するといったことがわかる。直前の言葉から次に来る単語の頻度がわかることで、かな漢字変換、機械翻訳、OCRのエラー訂正、音声認識といった分野に応用できる。
公開されたデータは、日本語データを形態素解析エンジンの「MeCab」を使用して分割し、1〜7個の単語の並びについて出現頻度20回以上のものが収録されている
(引用 yahooニュース)
グーグルが公開したN-gramデータは、直前の単語の並びから次に来る単語の出現頻度を記録したもの。
今回のお得情報は・・・
例えば、「グーグルで」という言葉の後ろには、「検索」という単語が最も多く出現するといったことがわかる。直前の言葉から次に来る単語の頻度がわかることで、かな漢字変換、機械翻訳、OCRのエラー訂正、音声認識といった分野に応用できる。
公開されたデータは、日本語データを形態素解析エンジンの「MeCab」を使用して分割し、1〜7個の単語の並びについて出現頻度20回以上のものが収録されている
(引用 yahooニュース)
N-gram他のニュース
グーグルは11月1日、大規模日本語コーパスのN-gramデータを公開した。N-gramは自然言語処理の領域で、単語同士の結びつきを統計的に処理する計算モデル。「グーグルで検索」「グーグルで調べる」「グーグルで探す」のように特定の単語(例では“グーグル”)と、他の単語の結びつきを予測できる。
今回のお得情報は・・・
N-gramは特定の位置にある単語が何であるかを、その直前の単語、さらに前の単語……、とN個分さかのぼって推測できるという仮説に基づいている。かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに使われている。
公開したのはグーグルがWebサイトから抽出した約200億文(約2550億単語)の日本語データから作成したN-gramデータ(1〜7gram)
(引用 yahooニュース)
N-gram関連動画
今回のお得情報は・・・
N-gramは特定の位置にある単語が何であるかを、その直前の単語、さらに前の単語……、とN個分さかのぼって推測できるという仮説に基づいている。かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに使われている。
公開したのはグーグルがWebサイトから抽出した約200億文(約2550億単語)の日本語データから作成したN-gramデータ(1〜7gram)
(引用 yahooニュース)
メニュー
厳選リンク
・アクセス解析の達人
・知恵蔵
・ニュースのトルネコ
・ニュース ばくだんいわ
・ニュース スライム
・ラダトームの城
・ザッピング!旬な芸能ニュース
・タレントの部屋
・整形 ニュース!
・ラーの鏡
・ニュースの杜
・バリバリニュース
・情報通の爆速トピックス
・
・ライブノート
・情報の杜
・迷宮ラビリンス
・ニュースの魂
・競馬データ室
・ジャニーズ大辞典
・今日の裏ネタ
・わんこのはな
・介護ニュース
・よろずのニュース
・ニュース!古今東西
・レシピ!れしぴ!
・綺麗になりたい!
・ふぇちのフェチ
・芸能ニュース ザッピング!
・人気テレビ番組ニュース速報!
・ニュース! ニュース! ニュース!