NDL Ngram Viewer
サービスURL
概要
OCRによって作成されたテキストデータから、出版年代ごとの出現頻度を可視化・列挙することができるサービスです。
可視化グラフの縦軸は、年代ごとに何回出現したかを表す出現頻度と、出現頻度を出版年代ごとの総ngram数で割った値を表す出現比率の2種類を切り替えることができます。
2022年5月現在の対象は、国立国会図書館デジタルコレクションでインターネット公開されている資料のうち、著作権保護期間が満了した図書資料約28万点(次世代デジタルライブラリーの全文検索と同じ資料群)のOCRテキストデータから集計した、約8.3億種類の単語及びフレーズ(以下「キーワード」といいます。)です。
国立国会図書館が提供するデジタル化資料のOCRテキスト化事業の成果物である全文テキストを活用した実験サービスとして、次世代システム開発研究室が新たに開発しました。
クエリについて
次の2種類のクエリをサポートしています。
複数キーワードクエリと正規表現クエリを同時に利用することはできません。
1. 複数キーワードクエリ
複数のキーワードをスラッシュ(/)区切りでクエリに指定することで、任意のキーワードの出現頻度を重ねて表示・比較することができます。
例2:見れる/見られる
2. 正規表現クエリ
正規表現を利用したクエリが可能です。正規表現に合致するキーワードを、総頻度の多い順に列挙して表示します。
- 例1: 平.盛
「平重盛」や「平清盛」といった、「平」と「盛」の間に任意の1文字の入ったキーワードを列挙します。
「登別温泉」や「有馬温泉」といった、「温泉」の手前に、ひらがな及びカタカナを除く任意の2文字の入ったキーワードを列挙します。
- 例3: 春の海ひねもす(のたり)*
「春の海ひねもす」や「春の海ひねもすのたり」や「春の海ひねもすのたりのたり」や「春の海ひねもすのたりのたりのたり……(以降「のたり」が任意の回数続く)」といったキーワードを列挙します。
可視化グラフの機能
1. 出現頻度と出現比率の表示の切り替え
グラフ上部に表示されているスイッチを切り替えると、 可視化グラフの縦軸を、年代ごとに何回出現したかを表す「出現頻度」と、出現頻度を出版年代ごとの総ngram数で割った値を表す「出現比率」に切り替えることができます。
2. グラフ表示件数の調整
グラフ上部に表示されている「可視化対象の件数」のバーを左右に動かすことで、クエリに合致するキーワードについて総出現頻度の上位1件から10件までグラフの表示件数を調整することができます。(デフォルトは上位5件)
3. 個別のグラフの削除
凡例をクリックすると、クリックした凡例のグラフを取り除いて表示できます。この時、残りの凡例に合わせてグラフの表示範囲が変形します。
以下は「花巻温泉」の凡例をクリックしたときのグラフです。
4. データ点の検索
グラフ上のデータ点をクリックすると、クリックした点のキーワード及び出版年代で次世代デジタルライブラリーを絞り込み検索します。
以下は「登別温泉」のグラフの1935年をクリックする様子と、遷移先の次世代デジタルライブラリーでの検索結果を表しています。
検索結果一覧の機能
ヒットしたキーワードを総頻度順に上位10,000件までページ下部に表示します。
1. 次世代デジタルライブラリーへのリンク
ヒットしたキーワードの右側に当該キーワードで次世代デジタルライブラリーを検索した場合の検索結果のリンクを表示しています。
2. 検索結果ダウンロード機能
「結果をダウンロード」ボタンをクリックすると、検索結果をまとめてダウンロードできます。 形式はタブ区切りテキストで、左から「ヒットしたキーワード(Keyword)」「総出現頻度(Total_Frequency)」「出版年代を列名とした頻度のテーブル」となっています。
ご利用に当たって
NDL Ngram Viewerは、クリエイティブ・コモンズ・ライセンス表示4.0 国際ライセンス(CC BY)に規定される著作物利用許諾条件が適用されます。 利用の詳細は、「国立国会図書館ウェブサイト利用規約」を参照のこと。