丘山新(東京大学 東洋文化研究所 教授)
この四年間ちかく、恐らくは日本でも世界でも初めての本格的な漢籍目録データベースの構築に携わりつつ感じたことは「データベースは生きていて、そして成長していく」ということです。
四年前といえば、自然科学・理工系の分野だけでなく、人文社会系の分野でもさまざまなデータベースがすでに構築されていました。そして、和書や洋書に関する図書目録のデータベースに関しては、国立情報学研究所(旧・学術情報センター)が中心となり、非常に便利なものがすでに構築されて公開されていました。けれども漢籍に関しては以下にふれるような三つの問題があり、そのいずれの問題に関しても国内外のさまざまな学会や協議会で長年にわたって議論はされていましたが、みなさんが合意できるような良い智慧はありませんでした。
ところで、私が所属する東洋文化研究所には六万点におよぶ漢籍が収蔵されており、国内外の多数の研究者がその漢籍を利用しています。そして昭和四十八年には『東京大学東洋文化研究所漢籍分類目録』が刊行されました。また東洋文化研究所では、元教官の岡本さえ教授が中心になって現代中国書の目録データベースを、四年前当時すでに全国に先駆けて構築し公開していました。そこで現代中国書に続けて、なんとか工夫して漢籍目録をデータベース化したいと考えていました。けれども、私は仏教学を専門としており、漢籍、特に書誌学の専門家でもなく、また勿論コンピュータの知識もほとんどありませんでした。しかし、データベースは一人の力で作るものではありませんし、さまざまな分野の人たちのアイディアや智慧そして技術とで作っていくものですから、とにかくいろいろな人たちと相談しました。幸か不幸か、私は上記の漢籍データベース化に関する各種の会議には一切関係をしていませんでしたので、「データベースは生き物のようなもので、固定化された冊子体の書物とは違い、内容的にも修正できるし、そして技術の発展に伴って改良していける。従って、現在考え得る最善の方法と最新の技術を用いて取りあえず作ることが肝要だ」という独自の判断をして、平成一〇年度より文部省(現・文部科学省)、平成十一年度より日本学術振興会から研究成果公開促進費を交付していただき、実際の作業を開始しました。
問題点は以下の三点でした。第一にフィールド問題、つまりどのような項目・情報を入力するかです。この点に関しては、原則としてはできるだけ詳しい情報を採用するということです。基本的には冊子体『東洋文化研究所漢籍分類目録』作成のために作ったデータシートを利用することにしました。このデータシートには冊子体には掲載されていないより詳しい情報が採取されているからです。それは研究に有益であるというだけではなく、将来的に国内外の研究機関・図書館と漢籍連携目録を構築することを視野に入れると、できるだけ多くの項目を入れておいた方が便利だと判断したからです。項目を削ることは簡単ですけれど、増やすにはかなりの手間がかかりますから。
第二には、どの漢字コードを採用するかの問題です。私たちは、国内的な利用だけでなく、国際的にも利用して頂くことを原則にして考えていましたから、繁体字として国際的にもっともよく利用されている台湾版繁体字コード、つまりBig-5を採用することにしました。次の問題にも同じことが言えるのですが、肝心なことはいずれユニ・コードが普及した段階でも、それにあわせてデータベース自体をユニ・コードに変換しやすい設計にしておけばよい、ということだと思います。
第三には、所謂「外字」(「僻字」「罕見字」)をコンピュータ上でどのように処理するかという問題です。Big-5漢字コード表にない文字は、データベース本体の基本データとしては、まずユニ・コード番号を入力、ユニ・コード表にもない場合は諸橋大漢和辞典の通し番号を、そこにもない場合は「今昔文字鏡」の番号を入力することにしました。(ただし、諸橋大漢和の通し番号は「今昔文字鏡」番号にも共通です)。この方式が、将来の技術的進展にもっとも合理的に対応していけると判断したためです。
さらに、端末機上での表示に関しては、京都大学・人文科学研究所の「e-漢字」などの漢字画像表示法もありましたが、表示文字の美しさ(今のところ完璧ではありませんが)、利用しうる漢字数、データベースを作成し、また利用するときの便利さなどを勘案し、『今昔文字鏡』がもっとも有用であると判断しました。そこで早速、文字鏡研究会の谷田貝、古家両氏に相談したところ、とても有用な助言を頂けただけでなく、全面的に協力していただけることになりました。技術の進歩は本当に早く、現在、今昔文字鏡にはユニ・コードの文字鏡対応フォントが揃い、全面的にユニ・コードに移行した段階でも完全にリカバリーできることになっています。
このような基本方針のもと、今春までの三年間で冊子体目録分の入力が完了し、漢籍目録データベースは東洋文化研究所のホームページで正式に公開されています。そして今年度からは冊子体目録刊行後に研究所に収蔵された漢籍のデータの逐次入力をすすめているところです。また、その作業と併せて、漢籍の研究にとって非常に大切な版本問題にも役立たせるために各漢籍の巻首(第一頁)を画像入力することも始めています。それは、漢籍目録のデータベースは単に漢籍の所在を確認するためにだけではなく、画像を含めてさまざまな情報を付加価値として加えることによって、漢籍に関する研究と教育とにも役立つようなデータベースにしたいと願っているからです。データベースはこのような意味でも、創意工夫によっていくらでも成長していく面白さがあるのです。
さて、私たちの作っている漢籍目録データベースがきっかけになり、国立情報学研究所と人文科学研究所(漢字情報研究センター)、それに東洋文化研究所(東洋学研究情報センター)が呼びかけて、今春に全国の漢籍連合目録のデータベースを構築していく協議会ができました。今年度中には人文科学研究所の漢籍データベースも完成する予定ですし、来年度以降、かなり短時間に全国版漢籍目録データベースの基礎が構築されるものと期待されます。また、台湾では国家図書館・台湾大学・中央研究院・故宮博物院など漢籍の主要な所蔵機関が東洋文化研究所の漢籍目録データベースの方式に則って、すでに台湾地区漢籍連合目録データベースを構築しつつあります。さらに中国や台湾、それに日本・韓国などを含めた東アジア漢籍連携目録データベース構築のための会議も行われており、さほど遠くない将来には実現することと期待されます。技術的な困難や意見の相違はあるものの、ひとつの目標に向かって、国内外の研究機関や図書館が恒常的で具体的な作業をとおして協力しあえる。これも四年前にこのプロジェクトを始めた頃には想像できなかったデータベース構築の楽しい副産物でした。
この会報の紙面をお借りして、今春までの三年間で一応の正式公開にこぎつけるまで本当にお世話になった文字鏡研究会の方々は勿論のこと、台湾・漢珍公司の技術者のみなさんや、東洋文化研究所でデータの整理・修正などの根気のいる仕事に情熱を持って携わってきてくれている若いアルバイトのみなさんに、心よりのお礼を申し上げます。冒頭にも書きましたが、データベースは生きていて、そして成長していくものですし、完成はありません。どうか今後とも漢籍データベースの成長のためにご協力をお願いいたします。
東洋文化研究所のホームページは、http://www.ioc.u-tokyo.ac.jp です。