ホーム > サービス(体験する) > NDL Ngram Viewer

NDL Ngram Viewer

サービスURL

概要

OCRによって作成されたテキストデータから、出版年代ごとの出現頻度を可視化・列挙することができるサービスです。

可視化グラフの縦軸は、年代ごとに何回出現したかを表す出現頻度と、出現頻度を出版年代ごとの総ngram数で割った値を表す出現比率の2種類を切り替えることができます。

2022年5月現在の対象は、国立国会図書館デジタルコレクションでインターネット公開されている資料のうち、著作権保護期間が満了した図書資料約28万点(次世代デジタルライブラリーの全文検索と同じ資料群)のOCRテキストデータから集計した、約8.3億種類の単語及びフレーズ(以下「キーワード」といいます。)です。

国立国会図書館が提供するデジタル化資料のOCRテキスト化事業の成果物である全文テキストを活用した実験サービスとして、次世代システム開発研究室が新たに開発しました。

クエリについて

次の2種類のクエリをサポートしています。

複数キーワードクエリと正規表現クエリを同時に利用することはできません。

1. 複数キーワードクエリ

複数のキーワードをスラッシュ(/)区切りでクエリに指定することで、任意のキーワードの出現頻度を重ねて表示・比較することができます。

2. 正規表現クエリ

正規表現を利用したクエリが可能です。正規表現に合致するキーワードを、総頻度の多い順に列挙して表示します。

「平重盛」や「平清盛」といった、「平」と「盛」の間に任意の1文字の入ったキーワードを列挙します。

「登別温泉」や「有馬温泉」といった、「温泉」の手前に、ひらがな及びカタカナを除く任意の2文字の入ったキーワードを列挙します。

「春の海ひねもす」や「春の海ひねもすのたり」や「春の海ひねもすのたりのたり」や「春の海ひねもすのたりのたりのたり……(以降「のたり」が任意の回数続く)」といったキーワードを列挙します。

可視化グラフの機能

可視化グラフの画像

1. 出現頻度と出現比率の表示の切り替え

グラフ上部に表示されているスイッチを切り替えると、 可視化グラフの縦軸を、年代ごとに何回出現したかを表す「出現頻度」と、出現頻度を出版年代ごとの総ngram数で割った値を表す「出現比率」に切り替えることができます。

2. グラフ表示件数の調整

グラフ上部に表示されている「可視化対象の件数」のバーを左右に動かすことで、クエリに合致するキーワードについて総出現頻度の上位1件から10件までグラフの表示件数を調整することができます。(デフォルトは上位5件)

3. 個別のグラフの削除

凡例をクリックすると、クリックした凡例のグラフを取り除いて表示できます。この時、残りの凡例に合わせてグラフの表示範囲が変形します。

以下は「花巻温泉」の凡例をクリックしたときのグラフです。 花巻温泉を除外したときのグラフ

4. データ点の検索

グラフ上のデータ点をクリックすると、クリックした点のキーワード及び出版年代で次世代デジタルライブラリーを絞り込み検索します。

以下は「登別温泉」のグラフの1935年をクリックする様子と、遷移先の次世代デジタルライブラリーでの検索結果を表しています。 「登別温泉」の1935年で絞り込み検索 「登別温泉」の1935年で絞り込み検索した結果(次世代デジタルライブラリー)

検索結果一覧の機能

ヒットしたキーワードを総頻度順に上位10,000件までページ下部に表示します。 「[^あ-んア-ン]{2,2}温泉」と合致するキーワードの一覧

1. 次世代デジタルライブラリーへのリンク

ヒットしたキーワードの右側に当該キーワードで次世代デジタルライブラリーを検索した場合の検索結果のリンクを表示しています。

2. 検索結果ダウンロード機能

「結果をダウンロード」ボタンをクリックすると、検索結果をまとめてダウンロードできます。 形式はタブ区切りテキストで、左から「ヒットしたキーワード(Keyword)」「総出現頻度(Total_Frequency)」「出版年代を列名とした頻度のテーブル」となっています。

ご利用に当たって

NDL Ngram Viewerは、クリエイティブ・コモンズ・ライセンス表示4.0 国際ライセンス(CC BY)に規定される著作物利用許諾条件が適用されます。 利用の詳細は、「国立国会図書館ウェブサイト利用規約」を参照のこと。