NDL Ngram Viewer
サービスURL
概要
OCRによって作成されたテキストデータから、出版年代ごとの単語及びフレーズ(以下「キーワード」といいます。)の出現頻度を可視化・列挙することができるサービスです。
可視化グラフの縦軸は、年代ごとにキーワードが何回出現したかを表す出現頻度と、出現頻度を出版年代ごとの総ngram数で割った値を表す出現比率の2種類を切り替えることができます。
2023年1月現在の対象は、国立国会図書館デジタルコレクションで提供されているデジタル化済み資料のうち、図書約97万点及び雑誌約132万点のOCRテキストデータから集計した、約17億種類のキーワードです。
具体的な内訳は次の通りです
図書及び雑誌約230万点(約17億種類のキーワード)
図書約97万点(約8.5億種類のキーワード)
雑誌約132万点(約8.9億種類のキーワード)
著作権保護期間満了の図書約28万点(約8.3億種類のキーワード)
国立国会図書館が提供するデジタル化資料のOCRテキスト化事業(令和3年度デジタル化資料のOCRテキスト化参照)の成果物である全文テキストデータを活用した実験サービスとして、次世代システム開発研究室が新たに開発しました。
本サービスが利用しているデータセットは、次のリンクから公開しています。
- NDL Ngram Data https://github.com/ndl-lab/ndlngramdata
(参考情報)
青池亨. E2533 - NDL Ngram Viewerの公開:全文テキストデータ可視化サービス カレントアウェアネス-E, No.442, 国立国会図書館, 2022-09-01.
国立国会図書館電子情報部電子情報企画課次世代システム開発研究室. 蔵書の新たな探索方法を創る ―NDLのOCRテキスト化―. 国立国会図書館月報. 2022, (739), pp.15-19.)
図書及び雑誌約230万点の出版年ごとの資料点数内訳
出版年を10年ごとに区切ったときの図書と雑誌の資料点数は次のグラフに示す通りです。なお、グラフ上では出版年不明の資料(約1.4万点)を除いています。
出版年代ごとのより詳細な資料点数の内訳については「令和3年度デジタル化資料のOCRテキスト化」のページで紹介しているテキスト化対象資料の内訳(Excelファイル 13KB)中の図書及び雑誌の列を参照してください。
クエリについて
次の2種類のクエリをサポートしています。
複数キーワードクエリと正規表現クエリを同時に利用することはできません。
1. 複数キーワードクエリ
複数のキーワードをスラッシュ(/)区切りでクエリに指定することで、任意のキーワードの出現頻度を重ねて表示・比較することができます。
例2:見れる/見られる
2. 正規表現クエリ
正規表現を利用したクエリが可能です。正規表現に合致するキーワードを、総頻度の多い順に列挙して表示します。
- 例1: 平.盛
「平重盛」や「平清盛」といった、「平」と「盛」の間に任意の1文字の入ったキーワードを列挙します。
「登別温泉」や「有馬温泉」といった、「温泉」の手前に、ひらがな及びカタカナを除く任意の2文字の入ったキーワードを列挙します。
- 例3: 春の海ひねもす(のたり)*
「春の海ひねもす」や「春の海ひねもすのたり」や「春の海ひねもすのたりのたり」や「春の海ひねもすのたりのたりのたり……(以降「のたり」が任意の回数続く)」といったキーワードを列挙します。
可視化グラフの機能
1. 出現頻度と出現比率の表示の切り替え
グラフ上部に表示されているスイッチを切り替えると、 可視化グラフの縦軸を、年代ごとに何回出現したかを表す「出現頻度」と、出現頻度を出版年代ごとの総ngram数で割った値を表す「出現比率」に切り替えることができます。
2. グラフ表示件数の調整
グラフ上部に表示されている「可視化対象の件数」のバーを左右に動かすことで、クエリに合致するキーワードについて総出現頻度の上位1件から10件までグラフの表示件数を調整することができます。(デフォルトは上位5件)
3. 個別のグラフの削除
凡例をクリックすると、クリックした凡例のグラフを取り除いて表示できます。この時、残りの凡例に合わせてグラフの表示範囲が変形します。
以下は「草津温泉」の凡例をクリックしたときのグラフです。
4. データ点の検索
グラフ上のデータ点をクリックすると、クリックした点のキーワード及び出版年代で当館の全文検索サービスを絞り込み検索します。
「図書・雑誌」「図書のみ」「雑誌のみ」を選択して検索すると、著作権保護期間が満了していない資料も含め、国立国会図書館デジタルコレクションにおける検索結果のリンクを表示します。
「著作権保護期間満了図書のみ」を選択して検索すると、次世代デジタルライブラリーにおける検索結果のリンクを表示します。
以下は「登別温泉」のグラフの1935年をクリックする様子と、遷移先の国立国会図書館デジタルコレクションでの検索結果を表しています。
検索結果一覧の機能
ヒットしたキーワードを総頻度順に上位10,000件までページ下部に表示します。
1. 国立国会図書館デジタルコレクション及び次世代デジタルライブラリーへのリンク
ヒットしたキーワードの右側に当該キーワードで検索した場合の当館の全文検索サービスの検索結果のリンクを表示しています。
「図書・雑誌」「図書のみ」「雑誌のみ」を選択して検索すると、著作権保護期間が満了していない資料も含め、国立国会図書館デジタルコレクションにおける検索結果のリンクを表示します。
「著作権保護期間満了図書のみ」を選択して検索すると、次世代デジタルライブラリーにおける検索結果のリンクを表示します。
2. 検索結果ダウンロード機能
「結果をダウンロード」ボタンをクリックすると、検索結果をまとめてダウンロードできます。 形式はタブ区切りテキストで、左から「ヒットしたキーワード(Keyword)」「総出現頻度(Total_Frequency)」「出版年代を列名とした頻度のテーブル」となっています。
ご利用に当たって
NDL Ngram Viewerは、クリエイティブ・コモンズ・ライセンス表示4.0 国際ライセンス(CC BY)に規定される著作物利用許諾条件が適用されます。 利用の詳細は、「国立国会図書館ウェブサイト利用規約」を参照のこと。