2022年度「NDLデジタルライブラリーカフェ」
2023年1月18日(水) に、デジタルライブラリーにかかわる研究や最新動向をもっと身近に、もっと楽しくするオンラインイベント「NDLデジタルライブラリーカフェ」を開催します。本イベントでは、「サイエンスカフェ」の手法を取り入れ、研究者や各分野で活躍されている人をゲストにお迎えし、ゲストが紹介する最新の話題について、参加者を交えて語り合います。
目次
イベント概要
国立国会図書館は、「ビジョン2021-2025 -国立国会図書館のデジタルシフト-」を掲げて、2021年から2025年までの5年間に100万冊以上の所蔵資料のデジタル化を進めるとともに、OCR(光学的文字認識)による全文テキスト化も行い、検索や機械学習に活かせる基盤データとすることを目指しています。
デジタル化資料の全文テキストデータの作成のために、令和3年度OCR処理プログラム研究開発において、当館は機械学習技術を用いたOCR処理プログラム「NDLOCR」(GitHubへの外部リンク)を開発しました。NDLOCRはオープンソースソフトウェアとしてCC BY 4.0で公開されており、自由な利用が可能になっています。
本イベントでは、実際の研究の場においてNDLOCRが活用されている事例について話題提供を受け、更なる活用の可能性について参加者とディスカッションを行います。
テーマ
NDLOCRを使ってみた―全文テキスト活用のススメ―
プログラム概要・発表者(敬称略)
第1部 話題提供(提供順)
青池亨(電子情報企画課次世代システム開発研究室開発研究係員)
- NDLOCRと公開中のオープンデータセットの紹介
- 資料(PDF:1.64MB)
- 話題提供映像(国立国会図書館公式YouTubeチャンネルへのリンク)
- NDLOCRと公開中のオープンデータセットの紹介
中村覚(東京大学史料編纂所助教、当館非常勤調査員)
- 東京大学史料編纂所出版物を用いたNDLOCRの応用事例紹介
- 資料(PDF:3.23MB)
- 話題提供映像(国立国会図書館公式YouTubeチャンネルへのリンク)
箱石大(東京大学史料編纂所教授)
- OCRテキスト横断検索システムへの期待と今後の幕末維新史研究
- 資料(PDF:423KB)
- 話題提供映像(国立国会図書館公式YouTubeチャンネルへのリンク)
第2部 カフェタイム
国内の多様なデジタル化資料のテキスト化の推進に向けて、NDLOCR活用の可能性や、テキストデータ活用の意義など、NDLOCRとテキストデータの活用をテーマに、第1部の登壇者と参加者とで気軽にディスカッションできる時間としました。
主として、次のような話題が出ました。
- 研究における高精度のテキストデータの必要性と、現状のOCR精度の課題(系統図等の読み取りができない。)及び機械学習による精度向上への期待。
- OCRテキストデータの校正について、クラウドソーシングの活用など。
- 美術などのコンテンツ制作分野におけるデータサイエンス教育に、デジタル人文学の実務的な方法論を応用する可能性。
- 利用可能な情報の規模や、情報へのアクセス・操作性が飛躍的に向上した研究環境における、関係する文献を総めくりするような地道な研究活動の意義(こうした作業はなくならないだろうという意見。)。
- 今後の研究活動において、膨大な情報を処理・分析する能力や、機械的に抽出された情報の文脈を読み取る能力を育成する重要性。
このほか、当日ディスカッションの中で取り上げることができなかったご質問について、登壇者からの回答・コメントを紹介します(当日チャットで回答・コメントした内容を含みます。)。
- ディスカッションで取り上げることができなかった質問(PDF:297KB)
日時
2023年1月18日(水)15時から16時45分まで(14時45分受付開始)
開催形態
オンライン開催(Web会議システム(Zoom Webinar)を使用)
定員
なし。ただし、ディスカッション参加者は20名(先着順)。
参加費
無料
参加方法
事前にイベントのページ(外部サイト)からお申し込みください。(遷移先の画面に必要事項を入力してください)
過去のイベント
- 2021年「NDLデジタルライブラリーカフェ」
- 2020年「NDLデジタルライブラリーカフェ」
- 2019年「NDLデジタルライブラリーカフェ」
- 2018年「NDLデジタルライブラリーカフェ」
- 2017年「NDLデジタルライブラリーカフェ」
お問い合わせ先
国立国会図書館 電子情報部 電子情報流通課標準化推進係
メールアドレス:opendata(at)ndl.go.jp ※(at)は半角記号の@に置き換えてください。
電話:03-3581-2331(内線:40230)