荔园在线

荔园之美,在春之萌芽,在夏之绽放,在秋之收获,在冬之沉淀

[回到开始] [上一篇][下一篇]


发信人: true (Merry Christmas), 信区: Literature
标  题: ZZ  台湾的文献的数字化
发信站: 荔园晨风BBS站 (Thu Dec 20 22:54:53 2001), 转信

台湾地区中国古籍文献资料数字化
的过程与未来的发展方向


元智大学?罗凤珠
2000年11月,学生书局出版



一、前言


因特网的发明,无疑的是近代文明发展的一件大事,信息科技的影响力,也在这几
年之内涵盖全人类的每一个层面,每一个角落。各学门、各行业引用信息科技作为
辅助工具,也几乎到了无所不及的地步。文史学门引用信息科技作为辅助工具,应
该是各学门之中起步较晚的一个领域。

中文信息技术有计划的应用在中文文献数据的处理上,当属中研院于1984年7月开
始的「史籍自动化计划」为最早,该计划为开发《廿五史》全文数据库而成立,其
基本目的是选择对中国传统人文研究具有重要价值的古代文献,建立计算机全文数
据库,作为学术研究的辅助工具。在输入文献的选择上,以中研院研究人员的专长
与兴趣为主要考量,第一年先将部份的《食货志》建立全文机读档案,第二年持续
将《廿五史》全部的《食货志》建文件,在功能上也往前推进一大步,其后《廿五
史》全部数据亦陆续建立。

因特网的技术引进国内之后,笔者首先于1993年将《红楼梦》、《全唐诗》正式上
网,随后中研院《廿五史》、《诸子百家》数据库,台湾大学佛学数据库上网。网
络能传输多媒体信息之后,笔者再将《红楼梦》以多媒体形式上网。经过短短的五
年,现在全球因特网上由台湾地区研发的中国典籍文献资料,已有数亿字,也具备
各种检索功能,各种媒体数据,呈现一片欣欣向荣的景象。1998年起,由国科会主
导的「数字博物馆项目先导计划」〔1〕,邀请中研院等单位进行数字博物馆相关
计划,将文献数据数字化的研发工作,从文字数据扩充到多媒体文献数据,使用者
定位于中小学生,企图达到往下扎根的目的;1999年进行第二年度的「数字博物馆
计划」〔2〕将范围再次扩充,2000年国科会再次委托中央研究院全面规画「国家
数字典藏计划」〔3〕,目前正在规画中,预料可以将文献数字化的工作进行全方
位的研发,中研院并且于2000年举办的第三届国际汉学会议特别增加「汉籍数字典
藏研讨」议题,专门就「数字化的语文工具」邀请学者发表论文,中国古籍文献资
料数字化的工作,可说是全面有计划的展开了。

中国古籍文献数量庞大,在数字化的过程中,输入方法与中文字码不足是两个大问
题。中文的输入、输出、编辑、排版、全文检索、编码等技术,中研院张仲陶教授
、谢清俊教授从1980年开始便已指导学生进行中文信息有关文字问题的研究,奠立
了基础。经过近二十年的努力,文字输入已有多种不同的工具供使用者选择,键盘
输入之外也发展OCR(optical character recognitio)技术,以满足庞大的输入
需求。大五码字种数不足的问题,从早期中研院于开发《廿五史》数据库时,遇到
缺字,逐一造字,以扩大字集的方式解决,到现今中央研究院文献处理实验室的「
汉字字形数据库」改用「以部件构字」的观念,从缺字的输入、检索及呈现三方面
解决,为解决中文缺字问题,又往前迈进一大步,对于中国古籍文献数字化的工作
贡献极大。

中国古籍文献数字化工作的主要目的有典藏、流通、研究、教学四方面,典藏与流
通以保存与传扬文献为目的,研究与教学期使古文献为现代人所用;典藏与流通重
在管理,研究与教学重在应用,因此,如何设计出符合文史学界使用,使古籍数字
化数据成为文史学界教学与研究的辅助工具,以提升其使用效能,成为古籍数字化
方向的重要指标。

本文首先尝试就文史学界与计算机学界对古籍数字化方向的交集与期待,为古籍数
字化勾勒出一幅符合使用者需求的蓝图,其次再分述古籍数字化的几个阶段,最后
提出未来的展望,以为将来发展的方向与目标。

二、文史学界与计算机学界对古籍数字化方向的交集与期待


笔者于1987年应《国文天地》编辑的邀请,以〈探一探文史数据自动化的路〉〔4
〕为题,访问计算机界张仲陶教授,文史界周何教授(经部)、毛汉光教授(史部
)、王邦雄教授(子部)、王熙元教授(集部)等五位学者,从计算机界、文史界
的角度,提出他们对古籍数字化的看法,并从中寻找一条文史数据数字化的路。张
仲陶教授首先提出「不要问计算机能做什么?而是问你要计算机做什么?」的看法
。张教授认为:「平面的数据输入计算机,出来后还是平面的数据,顶多省去带书
的麻烦而已,我们要让他具备其它的功能,也就是如何从中摘取需要的数据,这部
份由计算机界负责设计程序,但文史界必须告诉我们「需要什么?」文史界负责提
出「需要什么?」计算机界负责「怎么满足需要?」二方面配合起来,就可以做。
……我们不希望文史界的人再花时间去学计算机,我们也没有余力从头精研文史。
计算机运用的技巧我们知道,但要用在什么地方,由各行各业,各学门的专家来决
定,所以不要问『计算机能做什么?』而是问『你要计算机做什么?』这才是关键
所在。」〔同4〕

文史学界的周师一田教授从经学的角度提出经学数字化首重训诂资料的整理:「经
学比较偏重思想方面,需要去体认、去领悟,以计算机目前的功能而言,并不能十
分有效的处理思想层次的问题。所以,希望文史字义等训诂方面的数据,能按时代
分类,输入计算机,才能很方便查到每一个字在各个时代的正确意义。……假使我
们能透过计算机分析每一个字在各个时代的习惯用法及赋予的意义,便能更正确掌
握经学文字的意义,进而了解经学内涵。……如果能由计算机来做字义的时代分类
,很多问题都能解决。这么做也许把计算机的使用功能缩得很小,但这是一个基础
,把文字字义都整理好,搜集在数据库,对研究所有中国文献都是很重要的基础工
作。」周师还进一步提到以训诂数据为基础,再进而做考据辨伪与辑佚的工作,等
到「计算机的功能越来越大,能处理较形而上的问题时,希望在经学意识观念方面
能提供一些消息(分析、判断的能力)。……计算机是很呆板的东西,但怎样使他
具有高层次的功能,帮助人脑体会,这是我所期望的。」〔同4〕周师所提出的,
其实就是现在所说的人工智能的一部份。

从史部提出观点的毛汉光教授,参与第一期的史籍自动化计划,负责《食货志》数
据的分析、规画、系统分析,比其它几位教授,多了实际参与文史资料数字化的实
务经验,毛教授说:「就个人经验言,在文史自动化的过程中,成败的关键在文史
界,不在计算机界,计算机本身很刻板,输入什么,便印出什么。……计算机虽然
替我们解决很多问题,他毕竟不是人,不能代替人脑,不能替人思考,一个是技术
层面,一个是思想层面。」毛教授以参与《食货志》数字化的经验,进一步说:「
我相信以眼前已有的基础,文史界若肯通力合作,由文史界负责九分,一分交给计
算机,文史自动化的工作,很快便可以完成。……(计算机)功能方面,依我的经
验,个人想到的,只要分析出来,计算机都可以做到。分析很重要,计算机不是万
能,还是得靠人脑控制。……所以文史自动化成败的关键在文史界,不在计算机界
。」〔同4〕

从子部提出观点的王邦雄教授则语重心长的强调「文史自动化不能失去人的主导地
位」,王教授说:「科学是『新的发现』,人文是『新的洞见』,是从内在生命里
发出的智慧之光,这要经年累月的孕育才能产生。……计算机毕竟不是人,无法做
创发性的工作。……所以我很担心,假使我们的学生很容易从计算机中得到数据,
他们还会不会下工夫把原典一本一本的读进心灵中、生命中,并且不断去感受、去
实践,透过自己的体验去发现新的东西。站在人文的立场,进行计算机化之前,必
须先有这层顾虑与共识。」〔同4〕虽然有这一层顾虑,王教授认为可以「将记忆
性的数据由计算机取代人力,学子们利用省下来的时间去思考、去发展学术。」王
教授还进一步说:「文史数据计算机化之后,尽管有危机在,仍然可以事先防范,
只要回归到生活,除了思考力、洞察力的培养外,还要有生命的体验,智慧的透显
。然后要认清任何数据都有其局限性,有了数据,并不等于有学问……无论计算机
如何进步,人都居于主导地位,人若失去主导地位,生命便没有意义……所以我认
为必须回归到生活,由人去运用计算机,人去发现意义,掌握相生的机会,这样无
论计算机如何进步,人才不会恐慌,要不然计算机越进步,人越后退,人文越萎缩
,到最后由计算机来统治世界,那就断了做学问的根本了,因此必须先做心理建设
,认清人永远是处于主导地位来运用计算机。」〔同4〕

从集部提出观点的王师熙元教授则认为:「计算机发展至今,不仅可以处理一些机
械性和数理方面的数据,人文学科中许多资料经过分析、归纳以后,也可以由计算
机来处理。」王老师以为「研究工作最重要的是资料的运用,假如工具书不完整,
数据又太庞杂,人力上浪费太多时间找数据,学术的进步必定很缓慢。」王老师并
以文学批评为例,提出有系统的整理历代诗话、词话、曲话、文话、赋话等文学批
评数据,建立有系统的文学批评数据库,有助于文学的研究。其次为古典文学里典
故的用法繁复多样,增加后人研究的困难,如能参考《艺文类聚》、《太平御览》
、《太平广记》、《古今图书集成》等类书,分门别类建立数据,以供研究时检索
参考。此外古典文学里象征和比喻技巧的应用,如能经过分析、整理、归纳,建立
数据库,才能符合文史研究的需要。计算机一旦介入文学界,我们如何善用计算机
的长处,并避免可能带来的隐忧,以及预防其中的弊端?王老师进一步提出:「用
计算机处理数据,是为了处理及应用方便,并节省后人搜集资料的时间,从这个角
度看,非常值得发展,但并不是有了计算机,一切人为的工夫便可以省下来,事先
周密的考量以及设计非常重要,毕竟用计算机处理的最大目的还是在将来运用的方
便。」〔同4〕

由上述可知,计算机学界与文史学界具有三个共同的观点,其一为:计算机不能取
代人脑;其二为:引用计算机节省处理数据的时间,人可以做更多思考性、创发性
的工作;其三为:古籍数字化成败的关键在文史学界,不在计算机学界,需要由文
史学界提出需要,计算机学界满足需要,二者的通力合作才是古籍数字化成功的关
键。

从1987年到现在已有十二年的时间,这十二年当中,文史数据数字化的范围从《食
货志》、《四史》扩充到包含经、史、子、集范围的中国典籍数据,数据的形式也
从平行的原文输入数据进步到经过整理、分析、归纳的资料,如「中研院平衡语料
库」。数据的内容与媒体,也从原典增加到原典与周边研究数据结合,文字与影像
、声音等多媒体数据并存,如【红楼梦多媒体网络数据中心】、【汉代的墓葬与文
化】。从文字的形、音、义,结合文字学、语言学、文学等方面的知识,从中建立
语文知识网络的观念也有初步的成果,如【国科会数字博物馆先导计划----搜文解
字语文知识网络】。数量上累积到数亿字,参与的单位从中研院到其它学术单位以
及学者个人,使用者更是遍及全球。回顾十二年前这五位学者所提出的观点,确实
都属于先知卓见。这十二年来,计算机学界的进步,何止是一日千里,但反观文史
学界,由于参与的人显然是比计算机界少,还有很多成长的空间,亟待文史学界更
多人投入。

三、中国古籍文献资料数字化的过程


张仲陶教授在同一篇访问提出「计算机是为了处理数据而设计,数据是一种事实的
记录,除了文字之外,还可以用符号、图片、录音、录像等方式记录,用中文记录
的是中文数据,用英文记录的是英文数据,计算机只是处理这些数据的工具。对他
而言,没有中英文之别,所以并没有一个计算机是为中文而设计。……但中文计算
机发展的过程中,却有几个问题,一个是中文打字机的问题(即输入与输出)……
一个是中文编码的问题。」〔同4〕张教授这一段访问,已是「史籍数据自动化」
开始的第三年,在此之前,计算机学界为中文信息技术已经做了几年的努力,奠定
了相当的基础。

中文信息方面比较有系统的研究始于1972年,由国科会所倡导,随后国内几所大学
与研究单位陆续进行相关的研究工作,厂商亦参与相关设备的开发,使中文信息从
学术研究阶段进展到实务应用阶段。

1991年以来,计算机环境的变化非常大,中国典籍数据库也不断的建立。尚未有计
算机网络时,这些数据库都以单机版制作,计算机网络发展之后,在网络上传输的
数据库也陆续建立。数据库的内容也从原典数据扩充到研究数据、教学数据、多媒
体数据。数据库的内容方面也逐渐发展为跨领域的整合型数据库,多元媒体的综合
数据库,以及具有人工智能的语文知识网络。在功能方面,有纯粹提供研究查询使
用的原典数据库,有纯粹提供教学与自学使用的教学数据库,有教学与研究并用的
综合数据库。在类别方面,从数据内容、建置形式、涵盖媒体、使用功能等方面观
之,可以划分为含有全文检索功能,包含原著典籍及注疏数据的数据库,有包含音
乐、影像等多媒体数据的多媒体数据库,以工具书为主的工具书数据库,以研究论
着数据为主的图书期刊数据库,以教学为主的教学数据库,以文物书画为主的数据
库、以创作为主的文学创作网站。各式各样的文献数据,或以网络版、或以光盘版
传承着中国的数字文献数据。汉代发明纸张,为中国文献的保存与传扬,提供重大
的贡献;从汉以前、汉代到当代,从竹简、纸张到无纸的数字讯息,二千年之后,
信息科技的发展,为文献的保存与传扬,提供了更便捷的保存方式、更快速的传递
媒介,其中的影响力,不容小觑。综观十多年来的发展,可以约略分为五个时期,
分述如下:
(一)第一期:处理中文文字数据时期


1982年,有前中研院计算中心主任张仲陶教授指导,张永铭撰着的《中文书籍自动
拼版系统之设计》、张仲陶教授指导,郑一雄撰着的《中文字形输出系统的设计》
、张仲陶教授、谢清俊教授共同指导,曾士熊撰着的《中国文字特性数据库的设计
》等三篇硕士论文发表。这三篇论文从三个不同的角度研究,互相支持,试图共同
解决中文信息的输出、排版、信息交换的问题。中文输入的问题,则有1983年张仲
陶教授、谢清俊教授共同指导,王义科撰着的《中文文书编辑系统之研制》、高天
助撰着的《国字数据库之维护》等硕士论文;1984年有张仲陶教授、谢清俊教授共
同指导,潘敏政撰着的《在时间域作中文语音合成的研究》、郭明仁撰着的《办公
室用的中文印制系统之设计》等硕士论文。〔5〕

除了学术研究之外,研究单位与产业单位也共同进行中文字的检字法与编码的研发
工作,大致上可以归纳为五种检字法:「一、部首及笔划检字法,二、笔顺检字法
,三、形码检字法,四、字根检字法,五、字音检字法」〔6〕在中文文字的输入
方面,也有「字音、字根、形码、笔顺、混合(将两种输入法合并使用)」〔同6
〕等五种字码输入法被研发出来。

这一段时间,可以说是一个文史数据数字化的萌芽阶段,中文信息的处理与应用都
已逐渐迈向成熟的阶段,而后张仲陶教授、谢清俊教授在中央研究院开始研发古籍
数据库。
(二)单机版古籍全文数据库的研发


中央研究院中国古籍全文数据库发展的过程,谢清俊、林晰于〈中央研究院古籍全
文数据库的发展概要〉文中有详细说明,兹择其要略述如下,以明其发展梗概。

该文首先说明了中研院推动史籍自动化计划的初衷:「为了中华文化的延续,务必
要使古籍能活出现代风貌,不可任其在科技的洪流中式微没顶,而解决的方法,则
是将古籍以电子媒体表达。这就是中央研究院(以下简称本院)在1984年7月1日开
始推动史籍自动化计划的初衷。」〔7〕其发展方向为「本院处理古籍的计划并不
限于只使用全文数据库技术,有许多数据是用关系型数据库处理的。诸如,1985年
10月开始试做的【汉代墓葬综合研究数据库】,1986年2月的【台湾土著语言数据
库】,1986年4月的【台湾日据时代户籍数据库】,1987年1月的【清代竹堑地区土
地申告书数据库】,以及1989年计算中心所做的【说文解字和玉篇数据库】等等。
也有利用影像处理技术所做的古籍数据库,如傅斯年图书馆发展的【善本书影像数
据库】,目前已完成该馆近半数善本书的典藏,并已开放使用。这些数据库虽非本
文报告的重点,然而在语文处理技术上和全文数据库是相辅相成的。」〔同7〕中
研院于1988年推出《史记》、《汉书》、《后汉书》、《三国志》等前四史,
1990年完成【二十五史数据库】,内容上也经过分析、标志、加工,使其学术研究
上的用途更丰富。

除此之外,还有陈郁夫教授也陆续推出单机版的【《十三经》全文检索数据库】、
【《宋儒学案》全文检索数据库】、【《明儒学案》全文检索数据库】等,以及笔
者所研发的【《全唐诗》全文检索系统】、【《红楼梦》多媒体全文检索系统】。
〔8〕
(三)网络版古籍全文数据库的研发


因特网引进国内之后,笔者首先将单机版的【《红楼梦》多媒体全文检索系统】改
为网络版【《红楼梦》网络教学研究数据中心】,于1994年上网,并陆续完成《全
唐诗》、《全宋词》、《宋代名家诗》(网址:http://cls.admin.yzu.edu.tw)
等网络系统;其后中央研究院于1997年将《廿五史》及诸子百家数据库改为网络版
,订名为【中央研究院汉籍电子文献】数据库(网址:http://www.sinica.edu.
tw/ftms-bin/ftmsw3)如今累计的资料有「整部二十五史、整部阮刻十三经、超过
两千万字的台湾史料、一千万字的大正藏以及其它典籍,合计字数一亿三千四百万
字,并以每年至少一千万字的速率,持续成长。」〔同7〕,另有台湾大学的【佛
学数据库】(网址:http://ccbs.ntu.edu.tw/CBS-bin/userfrom/CHINESE)陆续
上网,成为1997年以前网络上最主要的中国典籍数据库。尔后,陈郁夫教授亦将其
单机版数据改为网络版【故宫「寒泉」古典文献全文检索数据库】(网址:http:
//210.69.170.100/s25/index.htm),置于故宫博物院的网站。
(四)多功能、多媒体、多元化的文献数据库


古籍全文数据库陆续上网之后,数据的形式从文字数据扩充到多媒体数据,文字数
据也从文献原典数据扩充为研究论着数据,其中有以搜集研究数据为主的图书、期
刊系统,如国家图书馆【全国图书书目信息网】、【中文期刊联合目录】(网址:
http://www.ncl.edu.tw/)、中研院【宋元明清数据库】(网址:http://www.
ihp.sinica.edu.tw/database/index.htm)等;以工具书为主的数据库,如教育部
【国语辞典】(网址:http://www.edu.tw/mandr/clc/dict/);有将原典数据与
研究数据结合,以提供研究与教学功能的数据库,如台湾大学的【佛学研究中心】
与笔者于元智大学主持的【《红楼梦》网络教学研究数据中心】、【唐宋文史数据
库】。有提供网络教学、自学功能的,如中央研究院【搜文解字----语文知识网络
】、元智大学【倚声填词格律自动检测索引教学系统】、【依韵入诗格律自动检测
索引教学系统】、侨委会的【全球华文网络教育中心】(网址:http://edu.
ocac.gov.tw/index.htm)等。文物书画等文献数据,在这个时期因为网络频宽不
足,传输速度缓慢,大多数以光盘形式制作,如故宫博物院的【龙在故宫】、【清
明上河图】、【境揽故宫】等。
(五)以三D(dimension)动画技术呈现立体文献资料


网络频宽改善后,中研院于国家数字博物馆项目先导计划项下,研发网络版的【不
朽的殿堂-汉代的墓葬与文化】,结合文字、影像、原典与研究资料的综合文献,
引用三D动画技术虚拟汉代墓葬文化,使用着随着鼠标的移动,进入虚拟的立体墓
穴里,观赏汉代陵墓的摆设、壁画、雕饰,为中国文献数字化开辟另一个更逼近文
献原貌的数字博物馆,展现多样的文献资料风貌。台湾大学也以三D动画技术制作
【士昏礼】光盘,把《礼记》里繁复的士昏礼礼俗以三D动画呈现,使用者透过动
画,对于古代的昏礼习俗便可以一目了然,清清楚楚呈现眼前。

由上述可知,文史数字化的发展已有十多年,然相关的研究大抵以发展中文信息技
术及中文字形问题为主,应用方面的研究以计算语言学占的数量最多,应用于文学
上的研究比较少,参与的研究人员也以信息学门居多,文史学门较少。十多年来,
信息技术的进步,相关产品的配合,已经足够于「满足文史数字化的需求」,信息
学界的努力,已经为文献数字化做好准备的工作,今后文史学界要努力的方向是「
提出需求」,并进而拉近计算机「能」与「不能」之间的距离,让计算机做得比人
好的部份,交给计算机来做,人去做计算机还不能做的工作,并且透过语文知识的
标示、建构,建立语文知识的人工智能,使计算机更接近人脑,学习去做人能做的
事。〔9〕

四、未来的发展方向


信息科技的发展,对各行各业造成前所未有的冲击,对文史学门的研究与教学,也
带来全新的方向。利用计算机作为记录与传承典籍的工具,目的在于取其方便性〔
同7〕;利用计算机作为研究工具,取其强大记忆、储存、分析、检索能力的优点
;利用计算机作为教学工具,取其不受时空限制的特性。以计算机作为文献储存的
工具,只涉及储存媒介的改变,但是作为研究与教学的工具,涉及情境的部份,计
算机仍然难以取代人的地位。中国典籍数量庞大,全面改建成数字系统,提供传承
、研究、教学使用,非三年五载可以完成,那么,在古籍数字化的过程中,其优先
级如何?如何兼顾文献储存、研究、教学等功能,在计算机「能」与「不能」之间
,如何拉近两者的距离,使计算机处理信息时具备人工智能?这是古籍数字化工作
进行十多年之后,必须思考的问题。

古籍数字化工作的信息技术已可满足需要,中文字形的问题也有比较好的解决方法
,十多年来累积的文献也有数亿字,若再加上中国大陆方面的【四库全书】计划以
及国内即将进行的【善本书】、【古今图书集成】计划,古籍数字化的数量正快速
而稳定的成长之中。然而,相较之下,在教学及研究上的使用,进度比较缓慢,内
容的分析及语文知识库的建构,仍在起步阶段。未来的发展应朝数据库的有效整合
,以扩充使用功能,提供更多元化的使用需求,以及内容的标注与分析,建立语文
知识网络、引用计算机作为新的研究工具以开拓新的研究方法而努力。
(一)数据库的建立方向与功能的扩充


以计算机作为文献储存的工具,只涉及储存媒介的改变,但是作为研究与教学的工
具,涉及情境的部份,计算机仍然难以取代人的地位。中国典籍数量庞大,全面改
建成数字系统,提供传承、研究、教学使用,非三年五载可以完成,那么,在古籍
数字化的过程中,其优先级如何?如何兼顾文献储存、研究、教学等功能,在计算
机「能」与「不能」之间,如何拉近两者的距离,使计算机处理信息时具备人工智
能?如何建立中国语文的类神经网络系统?这是古籍数字化工作进行十多年之后,
必须思考的问题。

古籍数字数据库的建置,计算机技术已经足以满足需要,各种不同文体的系统架构
模式也已成熟,数据库的数量,也有数亿字,因此,循同样模式建置新的数据库,
已经是轻而易举的工作。未来的发展,若仍以此为唯一目标,只是在数量的宽广度
方面增加,并不能在质的深度上提升。

如何在质的深度上提升,依笔者近几年来观察所得,提出几点浅见:
1. 广泛建立工具性书籍数据

在研究的过程中,研究者对于研究范围的原典数据需要仔细研读,反复咀嚼、推敲
,以计算机检索所得之数据,只是片段的、零星的,所以需要熟悉原典数据,才不
至于见树忘林。工具书一般作为查询使用,属于参考性质,因此工具书改制成计算
机系统,使用效率高于其它原典数据。计算机超强的搜寻、检索数据能力,其效率
千万倍于人脑,也不至于遗漏。工具书的开发对使用者的用处最大,例如字典、辞
典等,以人工翻检的纸本字辞典,只能从前缀查询,以计算机作为查询工具,可以
从任何一个关键词查询;又如《宋人传记数据索引》之类的工具书,如能改以计算
机检索,使用效率当可大大提高。
2. 工具书数据库与原典数据库结合查询


研究唐宋诗词的学者,大概都有过这样的体验,唐宋诗人喜以诗词交往,诗人于诗
题、词题中提及某人时,常以官衔、字号、别名、排行等为题,后之研究者要查明
该人物之确实身份,往往大费周章仍不一定可得。以宋代为例,虽有《宋人传记数
据索引》可供参考,但该书只能从数据之前缀查询,使用不便。

唐诗亦如是,江苏吴汝煜、胡可先二位学者有鉴于此,集数年时间心力,完成《全
唐诗人名考》,该书「共搜辑别人考订成果约3440余人次,自己考出的人名约
3860余人次。合起来总数约有7300余人次。」(《全唐诗人名考》,前言)本书作
者吴汝煜与胡可先二位先生,在其《唐五代人交往诗索引》(上海古籍出版社)的
基础上,进一步做《全唐诗人名考》。主要考证:「《全唐诗》题目、序、注中以
官职、封爵、谥辈号、科第、行、地望、职业及字号等相呼称的人物的姓名,并扼
要介绍其生平资料,某些唐诗作者姓名有误者,亦加以辨正,旨在为唐诗研究者和
欣赏者提供参考。」〔10〕(《全唐诗人名考》,凡例一)

《全唐诗人名考》以人力搜辑资料,以《全唐诗》题目、序、注为基本数据,参校
其它考证数据,逐一以人力核对,耗费大量的人力与时间。吴先生也因积劳成疾,
英年早逝,殊为可惜。如果能以计算机为工具,广泛建立相关数据,藉助计算机强
大的搜集、整理能力,当可达到更好的研究效率。唐德刚先生在使用中央研究院【
廿五史系统】后,忆及胡适先生当年埋首于考据工作,上穷碧落下黄泉的寻找数据
,耗费很多时间,唐先生因而有「人才浪费不起」的感叹。将工具书与原典资料结
合查询,可以解决类似的问题。
3. 纵向与横向数据的结合检索


不同年代的纵向资料,设计可以跨越时间检索纵向检索的功能,在研究上提供了清
晰的纵向演进轨迹,有其重要的意义,如中央研究院【廿五史系统】,便可以选择
单独检索断代史,也可以选择以全部《廿五史》为检索范围。

横向跨领域资料的检索,目前较少,是未来发展的重要方向。以文史而言,文史自
来相通,文学作品引用大量史料,或撷取史料化为典故以丰富文学作品内涵,唐宋
诗词的典故便有很多来自史书以及其它神话、小说典籍,后人读诗读词,若不了解
典故出处、意义,便无法完整掌握文意。笔者于进行《晁补之及其文学研究》之研
究过程中,因晁补之诗没有任何批注本,诗作中引用典故的句子,在现有工具书查
询不到典出何处时,尝试以该句字词为关键词,到中研院【瀚籍数据库】查询,往
往有意想不到的收获,解决了很多典故出处的难题,横向跨越不同数据库的交叉查
询功能,有其重要意义。

前项所言,诗词题中人名数据的查询,跨领域数据库的交叉查询,亦有助于文学数
据的澄清。文学资料也常常可以校正史料的错误,这些工作透过计算机检索比对,
可以省却许多人力,又可得到更好的成效,因此横向、纵向跨领域数据的综合交叉
检索,可以拓展出新的研究领域,也可以进行一些单凭人力很难完成的研究工作。


笔者有鉴于此,自1998年起,进行唐宋代文史综合数据库的实验计划,数据库包含
《新唐书》、《宋史》、《全唐诗》、《全宋词》、《北宋名家诗》、《宋人传记
数据索引》、唐宋地名等数据,进行跨领域结合检索的实验。未来再增加《全唐文
》、《全宋文》、《旧唐书》、诗话、词话等资料,以作为唐宋文史研究的数据库

4. 原典数据与后人研究数据的结合


原典资料固然是研究过程中最重要的依据,后人研究资料也不可或缺。建立一个可
以结合二者查询的数据库,能提供给使用者更大的便利性。后人研究数据包含专书
著作数据、期刊论文数据、会议论文数据、以及其它相关的周边研究数据。并且将
这二种数据建立关键词词、建立参见档,使用者在查询某一范围的原典数据时,如
果已经有后人研究数据,系统能主动出示,如此便可以清楚掌握研究的动态,避免
重复。
5. 系统架构朝向开放式的系统架构


封闭式的系统架构会影响资源的交换、共享,也会影响系统的扩充、发展;对系统
与程序设计者而言,增加开发的成本,对使用者而言,增加学习的困扰。因此,采
用国际标准的通讯协议、共享平台、开放式的系统架构,取得资源比较容易,这将
是必要的趋势。系统架构虽然会因为数据内容的不同而有些微的差异,但只要作小
幅度的修正即可。笔者所主持的【网络展书读----中华典籍网络数据中心】(网址
:http://cls.admin.yzu.edu.tw)便是采用开放式的系统架构。以【全唐诗系统
】为例,该系统完成后,如果要再建立【宋诗系统】,因为唐宋诗的数据结构一样
,同样可以从「作者」、「诗题」、「诗句」三个检索点检索,所以只要抽掉《全
唐诗》文字数据,换上《宋诗》数据,便成为另一套【宋诗系统】,系统与程序不
必重新设计,对管理者而言,节省开发与维护的成本,对使用者而言,只要学会了
使用【全唐诗系统】,便同时能够使用【宋诗系统】,不必重新学习。《宋词》同
样属于韵文,但是与诗比起来,句子的长短有更多的变化,形式上比诗多了词牌、
宫调,在检索点的设计上,多出「词牌」与「宫调」二个检索点。小说、散文也可
以循同样的模式,所以古籍数字化的发展,必须注意到架构的开放、资源的共享、
系统的扩充等因素。
6. 从单向的查询扩展为双向互动的系统


早期传统的自动化系统,以「管理的自动化」为主要的目标,系统的设计以「单向
被动」的等待使用者前来查询。「双向互动」的观念,以「服务的自动化」为导向
,其内涵精神包括「主动性的信息服务」,意即从「单向被动」的等待使用者提出
需求,进步到主动的提供服务。及「互动性的信息交换」,使用者可以回馈数据到
数据库,让数据的搜集从管理者单向搜集,扩大到所有使用者多向回馈。这种作法
可以保持数据的完整性与新颖性。〔11〕
7.自助式的功能设计


任何一个开放性的数据库,都是同时提供给多人使用,每个人的需求不同,再完整
的系统设计,都难以满足所有使用者的需要,因此,引用自助式(Do it by
yourself)的观念,制作一个简单便捷、易学易用、人性化、个别化的个人工作平
台,提供可以整理个人数据与网络资源的工具,让使用者在使用数据库的数据时,
可以将数据库的数据、个人外加数据、其它网络资源等,以复制黏贴(Copy
paste)或连结(Linker)的方式建立个人的数据库或个人专属网页,提供个人搜
集、整理研究资料,或编纂教材,或与他人交换资料之用,可以满足不同使用者的
个别化需求。〔12〕
(二)语文知识的分析、标示与建构方向


中国文献数字化的研究工作,在字形的表述与语言学方面的研究取得最多的成果,
应用于文学方面的研究较少。中文字形的演变有一定的脉络可循,语言学也可以归
纳出一定的规则,而文学则复杂得多。文学的形式,经过许多的演变,文学的内容
,因为作者的不同、时代的不同、环境的不同、甚至于君王好恶态度的不同,而呈
现多样的风貌。文学的内容又包含了人的思维与感情,艺术表现手法等。以计算机
作为文学研究的工具,全文检索的功能已不能满足文史学门的需求。

文史数字化的发展,经过信息学门十多年的努力,在技术上已经完全可以满足文史
学门的需求,全文检索的功能,经过十多年的发展,技术已经完全成熟,以之应用
于数据的全文检索,其正确率与效率都令人满意。然而,中国学术研究如果要引用
信息科技作为研究工具,除了全文输入之后提供全文检索功能之外,还需要做很多
标示的工作,这些标示可以建构一个计算机的语文知识网络,使计算机具备人工智
能,提高数据检索的完整性,可以大大提升中国学术研究的应用范围。然而在计算
机不具备思维能力、感发能力之前,计算机对于文史研究的帮助,只限于数据的储
存、搜寻、分析、整理,而且其正确率与速度都比人工快上千万倍,但是对于内容
的研析与判断,距离人的判断仍有相当大的距离。

各种不同的文学形式中,又以诗学最为精致凝练,所以,引用计算机科技作为文学
的研究工具,有一定的困难度,作为诗学的研究工具,困难度更高。因此,计算机
要作为文史研究的辅助工具,如果只使用计算机强大的记忆、搜寻、分析、检索能
力,当然已经足足有余,如果要进一步涉及文史内容等语文知识的范畴,需要朝人
工智能发展,还需要一段时间的努力,需要更多文史学者的参与。

以计算机作为汉学研究的辅助工具,目前最大的局限是缺字问题以及字词的形音义
表述问题,前已述及。对计算机而言,每一个不同的字形都是一个独立的符号,不
代表任何意义。但是对人而言,每一个字形含有字音、字义。每一个字形映入脑中
,都能立即将形音义三者串连,产生一个适当的意象,那怕是一字多形、多音、多
义的字,都能有不同的联想反应,甚至于由字进一步组成词、组成句子,组成一篇
文章,都能给予读者不同的感发,感发的情境还会因人、因时等各种因素的不同而
有差异,但是对计算机而言,除非给予每一个字必要的定义,否则都只是符号。每
一个字进入计算机变成单一的符号,作为保存文献的工具,足足有余,但是,作为
文史研究的工具,仍有落差。

中国文字属于方块字,每一个字具有形音义三个要素,而且大多数的字一字多形、
一字多音、一字多义,组成词之后的变化更大。对于计算机而言,计算机只认得字
形,不同的字形对计算机而言都属于不同的符号,也就是计算机会将不同字形的异
体字定义为不同的字,除非以人工标示二者为同一个字。计算机无法辨认异体字之
间的关系,更遑论辨识通同用字之间的关系,如果再加上字音、字义、词汇的变化
,就成为复杂的语文知识网。而这些语文知识网络的建立,需要靠人工去标示,也
可以藉助计算机为工具,使标示的效率提高。

数据的加工标示,解决了异体字的对应关系之后,再标示字音与字义。文字、声韵
、训诂之学为基础之学。在中国文字具有一字多形、一字多音、一字多义的特色下
,计算机只能辨识字形,无法辨识同义字词时,正确的数据(字形完全符合)往往
不等于完整的数据(含同义字词)。

提升中国学术研究的应用范围与应用效率,首先要将文字之形、音、义关系标示清
楚,其次标示词语、语法、词性,再其次标示专有名词,再其次标示典故,其标示
方法如下:
1. 文字形音义的标示
(1) 字形标示:


中国文字经过千百年的演变,字形有甲骨文、金文、大篆、小篆、隶书、楷书等差
别,字形上有变化,加上后世使用之后,产生所谓的通俗体字、古今字、通用字、
简繁体字等异体字并存,而有一字多形的现象。

对于人而言,大多数的异体字,人之肉眼所及,立即能辨认是相同的字,但对于计
算机而言,每一个字形都是符号,不同的字形,有不同的符号,不同的内码。在计
算机的辨识上,「不同的符号」便代表「不同的字」。而在诗词里,常使用通用字
或通用词,例如「游」与「游」、「由」与「犹」、「强」与「强」、「秾」与「
浓」、「间」与「闲」、「仔细」与「子细」、「蝴蝶」与「胡蜨」在诗词里常通
用,因此我们必须要先建立一个「通同异体字词」数据库,教会计算机辨识异体字
与通同用字之间的关系,甚至于加上词汇数据库辅佐,更正确辨识异体字之间用在
何种情况下相等(相通),用在何种情况下不相等(相通)。这些通用字通常以单
字词的姿态出现,所以更需要标示,如果以二字以上的词出现,还可以借着词语的
标示区别。
(2)字音标示:


常用的中国字读音约有一千四百种,因此有极多的同音异义字,而大多数的中国字
又具有一字多音的特性、音随义转的特性。因此读音的标示,会影响到字义与词义
的标示,也就是说音与义存在密切的关系,因此正确的标示读音,有助于提升字义
与词义标示的正确性。
(3)字义与词义标示:


中国文字大多一字多义,因此同义字的标示,可以提高数据检索的完整性。诗词为
求修辞之美,同义字词的变化较之其它文体更为丰富多样。多义字往往有其特定的
用法,亦即某一种字义的字,必定与另一个字组成一个特定的词,这个词使用这个
字义。因此字音、字义、词义是相关的。

根据徐超着《中国传统语言文字学》〈第五章语源学〉曰:「所谓『语源』,实际
上就是『词源』。但不是『词语在文献里最早出处』的词源,而是指词语的音义来
源。既然讲『来源』,就不是一个词语的问题,至少他要讨论到此词与彼词的关系
,及涉及到两个或两个以上的词。……因此,语源学所要研究的,实际上主要还是
同源词(又叫同族词)的问题,及研究一个或多个词语的历史的渊源关系,属历史
语言学的范畴。他的任务是上推语源,下求流变,藉此联系同源词,进而探求词语
的孳生规律,建立科学的语言学理论等。传统语言文字学里的『声训』和『推源』
等训诂方式大致可以看成是语源探究的性质。」〔13〕徐超还进一步指出:「传统
语言文字学里的语源学研究,是以『声训』的名目和形式出现的。什么是『声训』
呢?声训是指就字(词)音来探求语源和贯通词义的训诂方法。……这就从研究内
容(语源、同源词)和研究手段(借助于语音分析)上跟语源学差不多取得了完全
的一致。他们都是以研究词汇的同源系统为主要目的的。」〔同13,页282-283〕
由徐超这段文字可知,语源与流变之探求以语音分析为主要手段(方法),也可以
在探求了语源与流变的轨迹中,分析语义的流变与关系。因此,字音与字义、词义
的标示息息相关。把语源与流变标示出来,建立语源流变数据库,有助于更正确的
标示字音与字义、词义数据库,这个数据库除了提供语义学、词汇学的研究之外,
还可以分析出同义字词,提升检索的完整性。
(4)同义字词的标示


同义字包含前面所讲的通同异体字,是普遍通用的字,而同义字词是指为了修辞上
的变化而使用不同的字词,但其字词义相通者,如诗人写酒,以「杜康」代替。同
义字词还包含引用同一典故,但是使用的字词不同,因典故来源一样,其引用的意
义一样,而成为同义字词,例如:以秦代东陵侯种瓜事入典的东陵瓜典故,出现在
诗词里的用法就有很多种,东陵侯指秦代召平,《史记》卷五十三〈萧相国世家〉
第二十三载曰:「召平者,故秦东陵侯。秦破,为布衣,贫,种瓜于长安城东,瓜
美,故世俗谓之『东陵瓜』,从召平以为名也。」(页2017)召平又作邵平。这个
典故,在唐宋诗词里变化成「邵平瓜」、「邵平」、「邵平园」、「邵平田」、「
东陵侯」、「东门瓜」、「东陵瓜」、「东陵」、「东园瓜」、「东陵圃」等不同
的词,但其意义都用作为歌咏遗民或隐士。这一类的同义字词如能经过标示,一者
可以明修辞之变化,再者在检索相关数据时能够更完整。
2. 词语、词性、语法的标示
(1)词语标示:


词语标示即建立词汇数据库。诗词是比较特殊的语言,诗词词汇数据库的建立,在
古籍数字化的庞大工作中可以提供极大的助益,例如提高扫瞄软件的辨识率、提高
自然输入法(联想输入法)的选字正确率、可以提供文章的除错功能等等。笔者现
在正以唐宋诗为实验对象,建立词语自动标示的功能,标示的方法另有专文论述。

(2)词性的标示:


在多义字词的中国文字里,字义、词义往往与词性相关,词性的不同往往又牵涉到
读音的不同,例如很多字当作动词使用时改念为第四声便是。词性的标示还可以提
供语法的研究与律诗对仗的研究。
(3)语法的标示:


文言文及诗词常用倒装句,语法的标示有助于了解诗文含意。
3. 专有名词的标示


人名、地名、帝王年号、官职称谓、山川草木、鸟兽虫鱼、风云雪雨等专有名词的
标示,除了有助于提升词语与词性标注的正确性之外,还可以提供研究的需要。人
名的标示可以提供文人交游考的研究、地名的标示可以窥见城市文化的荣衰、帝王
年号及官职称谓的标示,可以查考作者及作品的时代背景、山川草木及鸟兽虫鱼的
标示可以探讨文人的文化活动,人与外物的互动、风云雪雨的标示可以提供人与自
然的互动研究,以及修辞的技巧等等。除此之外,这些专有名词先标示出来以后,
对于以计算机自动标示词语的工作有极大的帮助。
4.典故的标示


典故的应用在文学中应用比较多,韵文尤其普遍以典故修辞,丰富诗意,典故的解
释又与单纯的字词义不同,因此典故的标示也是不可或缺的。除此之外,典故的标
示,对于以计算机自动标示词语的工作有极大的帮助。

五、结论----对未来文史研究的意义


前已言及,古籍数字化工作发展迄今,相关的研究以发展技术及文字问题为主;应
用方面的研究,成果最丰硕的是计算语言学方面的研究,中央研究院语言研究所及
北京大学计算语言学研究所,在这方面取得很好的成绩;应用于文学方面的研究,
最早见于《红楼梦》的研究,不过也是偏于《红楼梦》的语言风格研究,其次有应
用于词学方面的研究,以词律方面的问题为主,笔者于〈在因特网建立汉学研究环
境的重要性及可行性----就中国文学而论〉一文有详细的论述〔14〕。

同文也论及多位学者对于以计算机作为文史研究辅助工具的看法。然而事隔二、三
年,计算机的技术再往前跃进一大步,语文知识网络的观念建立了,相关的研究也
有「国科会数字博物馆先导计划----搜文解字语文知识网络计划」〔15〕正在进行
,类神经网络的观念与实际应用的研究也都如火如荼的展开,与当年不可同日而语
,在这样的环境下,我们再来检视以计算机科技作为文史研究的辅助工具,其意义
何在?

如同文结语所言:「计算机是不是能成为带领中文研究工作突破传统窠臼的万灵丹
?在计算机还不具备思考功能之前,这个答案显然是否定的。计算机的某些特性优
于人脑,可以协助从事以人力无法做到的统计工作,但是无法完全取代人在研究中
扮演的角色。」〔同14〕笔者于〈中国古典诗词教学与习作的新尝试----网络作诗
填词系统----兼及其可行性与局限性〉一文之结语述及计算机的「能」与「不能」
时,以作诗填词这种纯粹文学创作的计算机辅助工具为例,提出以下看法:「诗词
创作是纯粹的心灵思维活动,计算机诚然难以取代人类心灵的思维活动,以及情意
的感发、美感的审查、经验的共鸣。但是对于规则性的数据,计算机的处理能力千
万倍于人,藉助计算机工具,可以为人类节省很多时间。这方面的功能,对于中国
古籍研究的帮助不容小觑。但文史研究的自动化,若以此为终极目标,却也辜负了
信息学界在计算机科技方面所做的努力。文史学界从文史专业的角度,引导文史数
字化的方向,让计算机科技为文史研究作更好的服务,将平面的文史数据加上必要
的标注,借着知识结构的改变,研究工具的改变,产生新的研究方法,拓展新的研
究领域,必能产生新的研究成果。处理单一规则的讯息,检索平面的数据,对计算
机而言,只是雕虫小技。如何在计算机『能』作的与『不能』作的中间,寻找一条
突破的管道,使计算机更接近人工智能,让计算机科技与人文研究作最好的结合,
对于信息界与人文界,这条从『不能』到『能』」的过程,对双方而言,无疑的,
都是一个很大的挑战。」〔16〕

纯粹心灵活动、意念感发的创作,都有可以缩短从「不能」到「能」的空间,文史
的研究当然也有一些方法可以尝试。

在因特网上建构一个可以「多元整合、交互参照」的网络综合数据中心,每一种资
料可以单独成为一个主题数据库,不同数据库可以透过适当的系统设计,提供跨数
据库多元组合的方式交互检索,成为一个综合型资料中心,如此当可以提供给使用
者更多元化的研究与教学使用需求。多种数据库结合的系统设计,对学术研究的效
益,数倍于单一数据库。

在使用功能上,提供具备人工智能的语文知识结构功能,使计算机的分析判断能更
接近人的品质。

在系统开发与管理上,以使用者的需求作为系统设计的导向。研究论着数据需随着
新增数据的增加不断更新,原著典籍数据也可能因漏收或因文物出土而增加。传统
数据库的作法往往无法提供随时更新数据的空间,功能的设计也只能提供使用者从
数据库中单向取得所需数据,系统制作人与系统管理员都很难在「数据搜集的完整
性」与「资料更新的时效性」两方面做到立即而面面俱全的地步。从人性化的角度
来看,并不能完全符合不同使用者的需求。因此,这两项工作假若由系统管理者单
方面承担,转而由所有使用者全面分摊,可以得到改善的机会。由系统提供简单、
便捷、人性化的接口与工具,引用DIY(Do It by Yourself)的观念,从使用者需
求的角度,以「使用方便」为导向,兼顾「管理方便」的原则,设计一个多向、灵
活、人性化的网络数据系统,并建立一个可供个人搜集、储存、整理、编纂资料的
个人工作平台,使用者可以从数据库取得符合个人研究需要的数据,或者数据库漏
收、未收的数据。系统亦允许使用者自行建立具有个人风格的工作平台,在其个人
工作平台上进行研究工作,让系统功能对个别使用者的局限降到最低。除此之外,
提供一个资源共享的空间,使用者有新增数据时可以回馈到数据库,数据库的更新
可以从管理者扩充到每一个使用者,如此一来,数据的更新便由管理者单向增补扩
充到由使用者全向增补,数据搜集的完整性与更新的时效性必能提高很多。

在使用功能上,提供具备人工智能的语文知识结构功能,进而建立中国语文的类神
经网络系统,是未来发展的方向。全文检索的功能,经过十多年的发展,技术已经
完全成熟,以之应用于数据的全文检索,其正确率与效率都令人满意。然而,文史
研究如果要引用信息科技作为研究工具,除了全文输入之后提供全文检索功能之外
,还需要做很多标示的工作(已如前言),这些标示可以建构一个计算机语文知识
网络,使计算机具备人工智能,使数据的检索从正确性提升到完整性,可以大大提
升文史研究的使用效率与应用范围。全文检索技术的发展,在数据检索的正确性与
效率性方面已经毫无问题,但是在中国文字具有一字多形、一字多音、一字多义的
特色下,计算机只能辨识字形,无法辨识同义字词时,正确的数据(字形完全符合
)往往不等于完整的数据(含通同义字词)。透过各种语文知识的标示,使计算机
具备人工智能,和自动学习的能力,提高数据检索的完整性与正确性,更能为文史
研究注入一股新的生命力。

跨数据库的联合检索,可以使封闭式的研究迈向跨领域的开放研究;自助式的使用
功能设计,可以使系统提供更人性化的功能;文字形音义的标示,更是促使计算机
具备人工智能的必然条件,这些标示工作的累积、相关知识的连结,有朝一日,一
定能形成一个中国学术研究的类神经网络系统。

在计算机不具备思考能力之前,在计算机无法涉及文学研究中的感情活动与美学欣
赏之前,计算机诚然无法完全取代人脑,人文学界的研究如此,在其它领域的研究
上,计算机也只是一个「工具」,研究工作的主导者是「人」。

值得期待的是在数字化网络上建构汉学的研究环境,计算机学界的努力,使技术上
已能符合文史学界的需求,文史学界如何与计算机学界结合,使计算机技术能充分
为人文研究服务,以消弥科技与人文的疏离隔阂,有赖于二个领域的合作。

十年前文史界与计算机界已有这样的共识:张仲陶先生强调「不要问计算机能做什
么?而是问你要计算机为你做什么?」;文史界的学者也强调「文史数据自动化的
过程中,不能失去人的主导地位,以及学门的主导地位。」、「如何善用计算机的
长处,并避免可能带来的隐忧及弊端。」是文史界的期许。「由文史界负责提出『
需要什么』?由信息界负责『如何满足需要?』」是文史与信息两个学门的交集与
共同努力的方向。

新的科技,新的方法,可以开拓新的研究领域,研究方向,这是毋庸置疑的。然而
如何使用工具?并且进一步建构新的研究环境,产生新的研究主题,创造新的研究
成果,在在都值得文史研究工作者深思,也需要文史学门参与,开创一个有别于传
统的研究方法、研究领域。使用新的工具时如何调整研究方法,让工具能为从事研
究之「人」所用,而不是「人」被工具所限制,甚至于过度依赖、膨胀了新工具的
功能,是过程中必须留意的。

走过十多个年头,典籍资料的数字化,累积的数量已经相当可观,全文检索的技术
也完全成熟,透过知识结构的建立,使计算机在提供人文研究时,能够更接近人力
判断的品质,对研究的帮助将有突破性的进展,让计算机做得比人好的部份交给计
算机做,让人做得比计算机好的部份,想办法让计算机也能做,在计算机还不能做
之前,人去做计算机还无法做的工作,这将会是文史研究引用信息科技作为辅助工
具时,最有意义的一个方向。

附注:

〔1〕「数字博物馆项目先导计划」是国科会1998年委托执行的计划,第一年度的
执行期间为1998年12月1日至1999年10月31日,共有【不朽的殿堂-汉代的墓葬与
文化】、【搜文解字-语文知识网络】、【台湾原住民-平埔族群】、【淡水河溯
源】、【蝴蝶生态面面观】、【台湾的本土植物和鱼类】、【火器与明清战争】、
【资源组织与检索之规范】、【人文与自然资源地图】、【数字典藏系统技术研发
】、【系统评估-以「淡水河溯源」为例】等十一个计划。

〔2〕「数字博物馆计划」是国科会继「数字博物馆项目先导计划」的第二年计划
,执行期间为1999年12月1日至2000年10月31日,共有【故宫文物之美系列】、【
玄奘西域行】、【淡水河溯源(Ⅱ)】、【台湾民间艺术家之建置-以杨英风为例
】、【台湾建筑史】、【生命科学-人体奥秘展览馆】、【台湾本土鱼类(Ⅱ)-
寻回台湾本土的淡水鱼类】、【语文知识网络(Ⅱ)-生活语文、唐宋流行歌】、
【平埔文化网络之维护与管理】、【中医药、针灸数字博物馆】、【兰屿生物/生
物多样性数字博物馆】等十一个计划。

〔3〕「国家数字典藏计划」依据1999年7月行政院『电子、通讯、信息策略会议』
通过,会后行政院将此案交由国科会协调执行,预计2000年1月1日正式开工。内定
参与此计划机构有:故宫博物院、国家图书馆、省立历史博物馆、台湾省文献委员
会、台中自然科学博物馆、台湾大学、中央研究院七个单位。

〔4〕本段引文均引自拙著,〈探一探文史数据自动化的路〉,《国文天地》第3卷
第3期(1987年8月),页33-43。

〔5〕


O张永铭着,张仲陶教授指导,《中文书籍自动拼版系统之设计》,国立台湾工业
技术学院工程技术研究所电子工程技术组硕士学位论文,民国七十一年。

O郑一雄着,张仲陶教授指导,《中文字形输出系统的设计》,国立台湾工业技术
学院工程技术研究所电子工程技术组硕士学位论文,民国七十一年。

O曾士熊着,张仲陶教授、谢清俊教授共同指导,《中国文字特性数据库的设计》
,国立台湾工业技术学院工程技术研究所电子工程技术组硕士学位论文,民国七十
一年。

O王义科着,张仲陶教授、谢清俊教授共同指导,《中文文书编辑系统之研制》,
国立台湾工业技术学院工程技术研究所电子工程技术组硕士学位论文,民国七十二
年。

O高天助着,张仲陶教授、谢清俊教授共同指导,《国字数据库之维护》,国立台
湾工业技术学院工程技术研究所电子工程技术组硕士学位论文,民国七十二年。

O潘敏政着,张仲陶教授、谢清俊教授共同指导,《在时间域作中文语音合成的研
究》,国立台湾工业技术学院工程技术研究所电子工程技术组硕士学位论文,民国
七十三年。

O郭明仁撰着,张仲陶教授、谢清俊教授共同指导,《办公室用的中文印制系统之
设计》,国立台湾工业技术学院工程技术研究所电子工程技术组硕士学位论文,民
国七十三年。
〔6〕引自曾士熊着,《中国文字特性数据库的设计?第一章概论》,页3-6。

〔7〕谢清俊、林晰着,〈中央研究院古籍全文数据库的发展概要〉,收录于中央
研究院信息科学研究所文献处理研究室谢清俊论文区,网址:http://www.
sinica.edu.tw/~cdp/,发表日期:1997年3月。

〔8〕笔者所研发的单机版《全唐诗》全文检索系统完成于1992年,单机版《红楼
梦》多媒体系统完成于1992年,并于1993年10月于北京市举办的海峡两岸中国古籍
整理研究现代化技术研讨会发表〈《红楼梦》多媒体系统〉论文一篇。

〔9〕参见拙著,〈中国古典诗词教学与习作的新尝试----网络作诗填词系统兼及
其可行性与局限性〉,《教学科技与媒体》,1997年12月15日,页2-11。

〔10〕见吴汝煜、胡可先着,《全唐诗人名考》,江苏教育出版社,1990年8月出
版。

〔11〕参见拙著,〈以「互动观念」建立「红楼梦网络数据中心」对红学发展之影
响〉,《红楼梦学刊》,1997年增刊,总第75期,页532-541。

〔12〕参见拙著,〈DIY唐宋词多媒体网络系统〉,《中国古籍整理研究出版现代
化国际会议论文集》,1995年7月22-24日,页287-302。

〔13〕徐超着,山东大学文史书系----《中国传统语言文字学》,1996年6月,山
东大学出版社出版,页281-282。

〔14〕参见拙著,〈在因特网建立汉学研究环境的重要性及可行性----就中国文学
而论〉,《汉学研究通讯》,1997年2月,第16卷第1期。

〔15〕黄居仁、钟柏生、罗凤珠,1998年12月1日至1999年9月30日,《数字博物馆
项目先导计划--「搜文解字Ⅰ」--语文知识网络》,国科会(
NSC88-2745-P-001-011),网址:http://www.dmpo.sinica.edu.tw:
8000/words/main.html。

〔16〕参见拙著,〈中国古典诗词教学与习作的新尝试-网络作诗填词系统----兼
及其可行性与局限性〉,《教学媒体与科技》,1997年12月15日,页2-11。

http://cls.admin.yzu.edu.tw/present/tarcf.htm





--
※ 修改:·true 於 Dec 20 23:00:54 修改本文·[FROM: 192.168.32.155]
※ 来源:·荔园晨风BBS站 bbs.szu.edu.cn·[FROM: 192.168.32.155]


[回到开始] [上一篇][下一篇]

荔园在线首页 友情链接:深圳大学 深大招生 荔园晨风BBS S-Term软件 网络书店