本サイトは現在改修中です。過去の翻刻テキストはこちらからご覧ください。 2022年3月24日
2014年3月24日
一般財団法人人文情報学研究所主席研究員・東京大学大学院情報学環特任准教授・国立国会図書館研究員 永崎研宣
以下の説明の簡単な要約:
現状では、近代デジタルライブラリー(以下、近デジ)をテキストデータ化して色々便利に使えるようにするためのプラットフォームとなっております。関係者それぞれに多忙ななかでの片手間の運営となっておりますのでおおらかな気持ちで接していただけますと幸いです。徐々に色々と改良・発展していく予定です。それから、Mediawiki APIを使える方には少し面白いかもしれません。使い方はこのページの下の方にあります。
このシステムは日本デジタル・ヒューマニティーズ学会(JADH)の分科会であるSIG-Transcribe JPが提供しています。
このシステムは国立国会図書館次世代システム開発研究室が運営するサーバ上で動作しています。
このシステムはジョージ・メイソン大学で開発されたOmeka(Omekaの説明の日本語訳)というGLAM向けコンテンツマネジメントシステム(CMS)を核として構築されています。データの蓄積はMediawikiに行なわれるようになっています。
このシステムでは、各資料のページ毎にデジタル翻刻を行っていただきますと、デジタル翻刻テクストの各頁から近デジの当該頁に自動的にリンクが張られるようになっており、翻刻テクストの頁から容易に実際の本文を画像で確認できるようになっています。したがって、翻刻テクストとしての正確性がそれほど高くなくとも検索用途等としてある程度利用可能なものを作成することができるということになっております。
このシステムは以下のことを目標としています。
近代デジタルライブラリー等の画像でしか提供されていない日本語資料の本文を多少なりともグーグルやBaidu、Bing等の全文検索エンジンから検索できるようにする。(検索性を高める)
Web上に比較的利用しやすい日本語のテクストデータを増やす。
テクストデータを複数人で入力する仕組み(クラウドソーシングによるデジタル翻刻)を提供する。
日本語資料のためのクラウドソーシングによるデジタル翻刻の運用に関わる経験を蓄積・公開し、同種のプロジェクトを立ち上げやすい状況を作る。
上記のことから、このシステムの運用にあたっては以下のことを目的としません。
誰もが正確と認めるデジタル翻刻
正確なデジタル翻刻は何かという議論(この点については、ご希望があれば日本デジタル・ヒューマニティーズ学会における研究テーマとして議論の場を設定いたします。)
統一的なフォーマットに基づくデジタルテクストの作成
OCRを導入し、読み取ったテクストを人の手で修正していくシステムも導入予定です。これについてはしばしお待ちください。
上記の目的により、利用者は以下のことに留意してください。
このシステムの運営はこれまでのところ完全なボランティアによるものです。極めて少ない休みの時間を使ってなんとか運営しております。運営作業に携わる人をお願いするためのアルバイト代を確保するための予算申請は行なっておりますがどうなるかわからない状況です。ご要望があれば基本的にはご対応する方向で考えたいと思っておりますが、時間的に対応が難しい場合があることをご承知おきください。
ルールはなるべく少なくしておきたいですが、運用が進むにつれて徐々に増えていく可能性があります。
使い方の細部が急に変わることがあるかもしれませんが、お許しください。
以上を踏まえた上で、ご要望がございましたらhondigi2014 _at_ jadh.org (_at_を@に変えてください)にメールでお知らせください。
デジタル翻刻したデータを別のプロジェクト等で使うためにこのシステムを利用することは歓迎です。ただし、その際には、これを利用したことを成果物等にて明記してください。
入力されたデータを利用する方へ
入力されたデータは「http://lab.kn.ndl.go.jp/dhii/mw/index.php/Info:近デジの永続識別子/画像番号」という形でアクセスできます。Mediawiki上に載る形になりますので、apiにアクセスしてデータをまとめて取得することが可能であり国立国会図書館API経由での書誌情報の取得も容易にできるようにしております。
入力されたデータはパブリックドメインとなりますが、入力に関わった人の貢献については明記するようにお願いいたします。表記にあたっては、ページ毎に貢献者の利用者名が記録されますので、そちらをご利用ください。また、利用者の本名をシステム上で取得できる場合には本名をご記載いただけますと幸いです。また、さらに再利用する際にもその表記を継承されるよう、お願いいたします。(この表記については法的拘束力はございません)
翻デジ2014において入力されたデータを用いていることも再利用の際には明記してください。また、さらにそれを再利用する際にもその表記を継承されるよう、お願いいたします。(この表記については法的拘束力はございません)
一度確定されたデータをさらに修正する場合もあり得ます。版管理に対応できるような仕組みをご用意いただくことも一つの手かと思います。
データはMediawikiに格納されておりますのでAPIによってアクセスしていただくこともやぶさかではありません。ただ、当方のサーバに負荷がかかりすぎるようなアクセス方法はご遠慮ください。
デジタル翻刻を行なう方へ
上記の通り、入力したデータはパブリックドメインとなります。それでも良いという方のみ、ご参加ください。
入力の形式についての統一ルールは特に設けません。当面はTEI形式か青空文庫形式を推奨しますが、特にこれに限るものではありません。近デジは見開き2ページ分で画像一枚のことも多く、その点で、マークアップがやや難しいことにもご留意ください。
複数人のグループでデジタル翻刻に取り組みたい方へ
必要に応じて、デジタル翻刻対象図書を追加する権限を発行します。必要と思われる場合は、グループの活動目的、大体の対象図書の範囲、大まかな人数等をお知らせください。代表者の方にその権限を発行いたします。
使い方 VER. 0.20140331

(最初の手続きが少々ややこしいのでよく読んでご対応ください。)
まず、国立国会図書館近代デジタルライブラリーにおけるデジタル翻刻したい資料のURLをhondigi2014 _at_ jadh.org (_at_を@に変えてください)にメールで送ってください。数日中に、デジタル翻刻したい本が登録されます。登録されたらお知らせが届きます。
登録の知らせが来たら、Mediawikiにユーザ登録をしてください。
Mediawikiでのユーザ登録ができたら、次にOmekaのトップページにアクセスしてください。
画面上部に「Scripto」というリンク(タブ)がありますので、これをクリックしてログイン状態になっているかどうか確認してみてください。もし、ログイン画面が表示された場合、MediawikiのID/パスワードを使ってログインしてください。
登録された資料の資料名をクリックしてください。そうしますと各頁画像のファイル番号がリストされます。
デジタル翻刻したいファイル番号を選択してください。そうしますと翻刻画面となります。
翻刻画面では、近デジの画面が埋め込まれています。これを見やすいように調整してください。
画面の下の方に、「仮名遣い」「新字旧字の使い方」「タグの付け方」に関して選択をするメニューが用意されています。この3点につき、どうするかご検討ください。
次に、「電子翻刻をする」というリンクをクリックするとデジタル翻刻用のウインドウが開きます。ドラッグ&ドロップで動かせますので、適当な場所に移動してから入力していってください。最初に色々なタグが入力フォームの中に入っていますが、それはそのままにしておいて、それらのタグの上にテクストを入力してください。
他の人に入力・変更をされたくない場合には「Protect Page」というボタンがありますのでクリックしてください(現在のところ、Wikiの当該頁からしかProtectができません)。そうすると、その際に入力している人と管理者しか変更できないようになります。
ページの入力が完了した段階では必ず「Protect Page」をクリックしてそのページを保護しておいてください。
一通り目指すところまで終わったら、「保護済みのページを統合して一つのファイルにする」というリンクをクリックしてください。(この部分はまだ改善の余地を残しております。)
そうしますと、現時点では、統合されたHTMLファイルと、それに対応するTEI形式のサブセット、Best Practice TEI for Libraries level1ファイル形式のデータが生成され(対応ファイル形式については今後増やしていく可能性があります)、このリストに掲載されます。こちらは随時追記されていきます。
ややテクニカルなご注意:デジタル翻刻中、テクストに改行を入れた場合、Mediawiki上のデータとしては改行が残されます。しかし、現在のところ、この改行を統合されたHTMLファイル上に継承表示できておりません。これについては近いうちに何らかの対応を行ないます。
まだ初期段階で大変恐縮ですが、ご関心がおありの方はぜひご参加ください。" /> 翻デジ2014

Search

このクエリータイプを使用して検索:



このレコードタイプだけを使って検索:

Item
ファイル
コレクション

アドバンスト検索 (アイテムのみ)

はじめに

2014年3月24日
一般財団法人人文情報学研究所主席研究員・東京大学大学院情報学環特任准教授(当時)・国立国会図書館研究員 永崎研宣
以下の説明の簡単な要約:
現状では、近代デジタルライブラリー(以下、近デジ)をテキストデータ化して色々便利に使えるようにするためのプラットフォームとなっております。関係者それぞれに多忙ななかでの片手間の運営となっておりますのでおおらかな気持ちで接していただけますと幸いです。徐々に色々と改良・発展していく予定です。それから、Mediawiki APIを使える方には少し面白いかもしれません。使い方はこのページの下の方にあります。


このシステムは日本デジタル・ヒューマニティーズ学会(JADH)の分科会であるSIG-Transcribe JPが提供しています。
このシステムは国立国会図書館次世代システム開発研究室が運営するサーバ上で動作しています。
このシステムはジョージ・メイソン大学で開発されたOmeka(Omekaの説明の日本語訳)というGLAM向けコンテンツマネジメントシステム(CMS)を核として構築されています。データの蓄積はMediawikiに行なわれるようになっています。
このシステムでは、各資料のページ毎にデジタル翻刻を行っていただきますと、デジタル翻刻テクストの各頁から近デジの当該頁に自動的にリンクが張られるようになっており、翻刻テクストの頁から容易に実際の本文を画像で確認できるようになっています。したがって、翻刻テクストとしての正確性がそれほど高くなくとも検索用途等としてある程度利用可能なものを作成することができるということになっております。
このシステムは以下のことを目標としています。

上記のことから、このシステムの運用にあたっては以下のことを目的としません。

OCRを導入し、読み取ったテクストを人の手で修正していくシステムも導入予定です。これについてはしばしお待ちください。

なお、上記の目的により、利用者は以下のことに留意してください。

以上を踏まえた上で、ご要望がございましたらhondigi2014 _at_ jadh.org (_at_を@に変えてください)にメールでお知らせください。
デジタル翻刻したデータを別のプロジェクト等で使うためにこのシステムを利用することは歓迎です。ただし、その際には、これを利用したことを成果物等にて明記してください。

入力されたデータを利用する方へ
入力されたデータは「http://lab.kn.ndl.go.jp/dhii/mw/index.php/Info:近デジの永続識別子/画像番号」という形でアクセスできます。Mediawiki上に載る形になりますので、apiにアクセスしてデータをまとめて取得することが可能であり国立国会図書館API経由での書誌情報の取得も容易にできるようにしております。
入力されたデータはパブリックドメインとなりますが、入力に関わった人の貢献については明記するようにお願いいたします。表記にあたっては、ページ毎に貢献者の利用者名が記録されますので、そちらをご利用ください。また、利用者の本名をシステム上で取得できる場合には本名をご記載いただけますと幸いです。また、さらに再利用する際にもその表記を継承されるよう、お願いいたします。(この表記については法的拘束力はございません)
翻デジ2014において入力されたデータを用いていることも再利用の際には明記してください。また、さらにそれを再利用する際にもその表記を継承されるよう、お願いいたします。(この表記については法的拘束力はございません)
一度確定されたデータをさらに修正する場合もあり得ます。版管理に対応できるような仕組みをご用意いただくことも一つの手かと思います。
データはMediawikiに格納されておりますのでAPIによってアクセスしていただくこともやぶさかではありません。ただ、当方のサーバに負荷がかかりすぎるようなアクセス方法はご遠慮ください。

デジタル翻刻を行なう方へ
上記の通り、入力したデータはパブリックドメインとなります。それでも良いという方のみ、ご参加ください。
入力の形式についての統一ルールは特に設けません。当面はTEI形式か青空文庫形式を推奨しますが、特にこれに限るものではありません。近デジは見開き2ページ分で画像一枚のことも多く、その点で、マークアップがやや難しいことにもご留意ください。

複数人のグループでデジタル翻刻に取り組みたい方へ
必要に応じて、デジタル翻刻対象図書を追加する権限を発行します。必要と思われる場合は、グループの活動目的、大体の対象図書の範囲、大まかな人数等をお知らせください。代表者の方にその権限を発行いたします。

使い方 VER. 0.20140331

(最初の手続きが少々ややこしいのでよく読んでご対応ください。)
まず、国立国会図書館近代デジタルライブラリーにおけるデジタル翻刻したい資料のURLをhondigi2014 _at_ jadh.org (_at_を@に変えてください)にメールで送ってください。数日中に、デジタル翻刻したい本が登録されます。登録されたらお知らせが届きます。
登録の知らせが来たら、Mediawikiにユーザ登録をしてください。
Mediawikiでのユーザ登録ができたら、次にOmekaのトップページにアクセスしてください。
画面上部に「Scripto」というリンク(タブ)がありますので、これをクリックしてログイン状態になっているかどうか確認してみてください。もし、ログイン画面が表示された場合、MediawikiのID/パスワードを使ってログインしてください。
登録された資料の資料名をクリックしてください。そうしますと各頁画像のファイル番号がリストされます。
デジタル翻刻したいファイル番号を選択してください。そうしますと翻刻画面となります。
翻刻画面では、近デジの画面が埋め込まれています。これを見やすいように調整してください。
画面の下の方に、「仮名遣い」「新字旧字の使い方」「タグの付け方」に関して選択をするメニューが用意されています。この3点につき、どうするかご検討ください。
次に、「電子翻刻をする」というリンクをクリックするとデジタル翻刻用のウインドウが開きます。ドラッグ&ドロップで動かせますので、適当な場所に移動してから入力していってください。最初に色々なタグが入力フォームの中に入っていますが、それはそのままにしておいて、それらのタグの上にテクストを入力してください。
他の人に入力・変更をされたくない場合には「Protect Page」というボタンがありますのでクリックしてください(現在のところ、Wikiの当該頁からしかProtectができません)。そうすると、その際に入力している人と管理者しか変更できないようになります。
ページの入力が完了した段階では必ず「Protect Page」をクリックしてそのページを保護しておいてください。
一通り目指すところまで終わったら、「保護済みのページを統合して一つのファイルにする」というリンクをクリックしてください。(この部分はまだ改善の余地を残しております。)
そうしますと、現時点では、統合されたHTMLファイルと、それに対応するTEI形式のサブセット、Best Practice TEI for Libraries level1ファイル形式のデータが生成され(対応ファイル形式については今後増やしていく可能性があります)、このリストに掲載されます。こちらは随時追記されていきます。
ややテクニカルなご注意:デジタル翻刻中、テクストに改行を入れた場合、Mediawiki上のデータとしては改行が残されます。しかし、現在のところ、この改行を統合されたHTMLファイル上に継承表示できておりません。これについては近いうちに何らかの対応を行ないます。
まだ初期段階で大変恐縮ですが、ご関心がおありの方はぜひご参加ください。