ホーム > イベント(参加する) > Japan Open Science Summit 2022 国立国会図書館主催セッション「国立国会図書館デジタル化資料データ(画像・テキスト)の使い道:90分アイデアソン」

Japan Open Science Summit 2022 国立国会図書館主催セッション「国立国会図書館デジタル化資料データ(画像・テキスト)の使い道:90分アイデアソン」

目次

イベント概要

国立国会図書館は、オープンサイエンスをテーマとした日本最大のカンファレンス「Japan Open Science Summit 2022(JOSS2022)」(6月6日(月)から10日(金)まで)に参加し、次世代システム開発研究室は6月10日(金)にセッション「国立国会図書館デジタル化資料データ(画像・テキスト)の使い道:90分アイデアソン(外部サイトへリンク)」を開催しました。

当館は、所蔵するほぼ全てのデジタル化資料のOCR処理によるテキスト化を進めており、令和3年度は明治期以降の図書・雑誌等約247万点(2億2,300万画像)のテキストデータを作成しました。作成したテキストデータのうち、著作権保護期間が満了した資料のテキストは、次世代デジタルライブラリー(https://lab.ndl.go.jp/dl/)に搭載して本文検索が可能になっています。また、全てのテキストは、令和4年12月リリース予定の次期「国立国会図書館デジタルコレクション」の全文検索にも利用される予定です。

この膨大なテキストデータは、本文検索利用以外にも、新たな情報探索のためのサービス開発、テキストマイニングを用いた研究などに利用できると考えられます。また、当館のデジタル化資料を使ったデータとしては、本文テキスト以外にも、資料画像から自動抽出した、図表・挿絵・写真等の図版のデータもあります。これらの膨大なデータセットの活用可能性について、参加者皆で討論して考えるためのアイデアソンを開催しました。

イベント資料

開催概要

日時

2022年6月10日(金)16時00分から17時30分まで

開催形態

オンライン開催(Web会議システム(Zoom)を使用)

登壇者

モデレータ

大向一輝氏(東京大学大学院 人文社会系研究科 准教授)

モデレータアシスタント

青池亨(国立国会図書館電子情報部電子情報企画課次世代システム開発研究室)

アイデアソンチューター

中村覚氏(国立国会図書館非常勤調査員、東京大学史料編纂所 助教)ほか

募集人数

  • アイデアソン参加者:20名程度
  • 一般視聴者:制限なし

参加費

無料

申込方法

申込受付は終了しました。
多数のご応募ありがとうございます。

イベントのアーカイブ

当日の録画を国立国会図書館のYouTube公式チャンネルから公開しています。

当日の成果の概要

アイデアソン当日の各班が発表した内容をまとめたものです。

アイデアソンで使用したホワイトボードの様子 [PDF: 546KB]

1班

莫大なデータに対する利用方法について検討し、利用者が扱いやすいようにデータをまとめる、という方向性を考えた。

提案としては、書誌によるグルーピングや、書籍以外の媒体も横断した引用関係による関連付けなどがある。 グルーピングの具体例として、海外からの利用を見込んだ明治近代化資料群や、時系列的な変化を表現した年表などが思いついた。 また、グルーピングのツールとして、機械学習による分類の自動生成や、それを利用者が編集できるような仕組みが有効なのではないか。

1班のホワイトボード

2班

大きく分けて二つの提案があった。研究などの分析基盤としての利用と、実世界におけるアイデア出しツールとしての利用についての提案である。

分析基盤についての提案を、歴史社会学研究と近現代文学研究の観点から述べる。 歴史社会学研究の観点からは、「概念や事物の歴史社会学的分析」を提案する。具体的には、時代ごとに区切った word2vec のモデルを作成し、単語同士の関係や社会的なイメージを共時的・通時的に分析できるのではないか。 近現代文学の観点からは、「サブジャンルを分類する単語に対しての量的な概念の歴史分析」や、「引用関係などによる受容の歴史分析」ができるのではないか。また、もし今後物語的な関係性まで抽出できれば、物語類型の歴史分析も可能になるかもしれない。

実世界のアイデア出しツールとしては、関係がない本を推薦することで利用者が新しい知識を得る機会を提供したり、AIによる自動生成を使って新しいアイデアにである機会を提供できるのではないか。

2班のホワイトボード

3班

人と機械によるキュレーションと、教育への活用という二つの提案があった。

キュレーションに関しては、データ量が莫大なため、どのような資料があるかがわかりにくいという問題意識が前提にある。この問題に対して、人による解決策と機械による解決策を提案する。 人による解決策としては、専門家によるキュレーションやソーシャルタギングを利用した一般の方からの情報提供などが可能だろう。また、機械による解決策としては、トピック分析、感情分析などによる分類・推薦が考えられる。

学校教育への活用に関しても、使い方に関するノウハウのシェアが課題になる。前述したキュレーションや S×UKILAM との連携が解決になるのではないか。

3班のホワイトボード

参考情報

お問い合わせ先

国立国会図書館 電子情報部 電子情報企画課 次世代システム開発研究室
メールアドレス:lab(at)ndl.go.jp ※(at)は半角記号の@に置き換えてください。
電話:03-3581-2331(内線:40411)