2021年度「NDLデジタルライブラリーカフェ」
2021年12月3日(金) に、デジタルライブラリーにかかわる研究や最新動向をもっと身近に、もっと楽しくする講演会を開催します。講演会では、「サイエンスカフェ」の手法を取り入れ、研究者や各分野で活躍されている人をゲストにお迎えし、ゲストが紹介する最新の話題について、参加者を交えて語り合います。
イベントは終了しました。アーカイブ動画を公開しておりますので、リンクからご覧ください。
目次
イベント概要
当館は、2021年度、国立国会図書館デジタルコレクションに登録されたデジタル化資料のほぼ全て(古典籍資料等を除く)を対象に、OCRテキスト化を行っています。2022年3月末には2億コマを越える画像から大量のテキストデータを入手できる見通しです。
一方で、デジタル化資料をテキスト化することは、デジタル化資料から必要な情報を抽出することと必ずしもイコールではありません。例えば、戦前の統計資料の画像に含まれる表の集計や、古い地図資料の画像を利用した計量分析などは、単なるOCRテキスト化だけでは実現できません。こうしたギャップを埋めるアプローチを知ることは、デジタル化資料やテキストデータをより効果的に扱う方法を身に着けることにつながるでしょう。
そこで本イベントでは、デジタル化資料からの情報抽出を研究テーマとしている社会科学分野の研究者をお招きして、自身の研究においてどのようなアプローチを取っているかを紹介してもらい、会場を交えてディスカッションします。
2020年度のデジタルライブラリーカフェで取り上げたデジタル人文学(Digital Humanities)と近接しつつも対象を広げる試みとして、明治以降の近代のデジタル化資料を活用した、社会科学分野の研究のいまを紹介する「Digital Social Sciences(デジタル社会科学)」をテーマに据えて、社会科学×情報学×図書館の事例を共有する場にします。
テーマ
「社会科学×情報学×図書館:デジタル化資料からの情報抽出 OCRと関連領域」
日時
2021年12月3日(金)15時から17時まで(14時45分受付開始)
開催形態
オンライン開催(Web会議システム(Cisco Webex Events)を使用)
定員
100名程度
参加費
無料
講師及び発表タイトル(敬称略)
※当館が今年度実施しているOCR関係の事業の概要を15分程度で説明したあと、各先生からそれぞれ20分程度で発表いただき、残りの時間で質疑・ディスカッションを行う予定です。
国立国会図書館次世代システム開発研究室
- 「国立国会図書館におけるデジタル化資料テキスト化事業について」
- 資料(PDF:2.0MB)
- 講演映像(国立国会図書館公式YouTubeチャンネルへのリンク)
有本 寛(一橋大学経済研究所 准教授)
- 「紙の統計表をテキストデータ化する:ネ申Excelのルーツ・芸術・情報抽出」
- 資料(PDF:8.4MB)
- 講演映像(国立国会図書館公式YouTubeチャンネルへのリンク)
山﨑 潤一(神戸大学大学院経済学研究科 講師)
- 「経済学者によるデータ発掘とその研究利用、非統計資料に着目して」
- 資料(PDF:4.9MB)
- 講演映像(国立国会図書館公式YouTubeチャンネルへのリンク)
美馬 秀樹(京都大学学術情報メディアセンター 特定教授)
- 「デジタル化の課題とデジタル化資料の活用について―情報学の観点から―」
- 資料(PDF:9.4MB)
- 講演映像(国立国会図書館公式YouTubeチャンネルへのリンク)
当日の質問、ディスカッション内容など
- 高精度なテキストデータ作成を効果的に行うためにOCR結果をクラウドソーシングにより校正していく可能性
- 異なる分野の研究者が協力し合ってデータを共有することの重要性
- 全国の自治体の持つ多様な資料や統計情報を国全体で集約して提供することへのニーズ
過去のイベント
お問い合わせ先
国立国会図書館 電子情報部 電子情報流通課標準化推進係
メールアドレス:opendata(at)ndl.go.jp ※(at)は半角記号の@に置き換えてください。
電話:03-3581-2331(内線:40230)