七一社区        注册

国学访谈

国学大数据时代来了

2013年09月16日09:11   来源:光明日报

原标题:国学大数据时代来了

  

  主持人:尹所长,就目前你们所掌握的技术而言,对超大规模古籍数据库建设的支撑性到底如何,你们能够建成一个怎样规模的大数据库?

  尹小林:超大规模古籍数据库建设专业性很强,难度非常大,除了需要计算机硬件、软件、网络等现代信息技术外,还涉及到文字、版本、目录、训诂、音韵等多个学科。只有打通这些专业领域,才能将时间跨度上千年、不同地域的存世文献整合在一个大系统下。为什么我们今天能够提出这个问题?因为我们在建设超大规模古籍数据库的核心技术方面,已经取得重大突破。以前的一个数据库为什么大多只有几百万字、几千万字,至多一两亿字?原因就在于技术上缺少一个环节,缺少对超大规模数据进行加工整合的能力。

  具体需要哪些技术呢?首先需要一个庞大的字库,这个字库必须能够把所有数据文献中所用的不同的字在同一个平台上显示。现在的计算机字库已有很大的改观,Unicode有7万多字,再加上一些造字,汉语存世古籍的字库问题基本上解决了。

  第二个问题是数据加工。过去十年,我国处理转换的古籍大概已经有数十亿字,如《四库全书》有7亿字,《中国基本古籍库》有20亿字,这些古籍都已经完成了扫描识别转换。但文字的数据化转换,只是数据库建设的第一步。超大规模古籍数据库不仅仅是数据量大,而且数据整理和软件功能也需要达到一个标准。超大规模古籍数据库中的古籍文献必须是经过标点整理并进行正确标引的结构数据,这一环节的难度和工程量都非常大。传统的人工古籍标点的工作量十分巨大,而且只有经过训练的专业人员才能做。按一个专家一年标点50万字的工作量计算,如果建设一个10亿字的超大规模古籍数据库,需要100个专家连续工作20年。首都师范大学电子文献研究所经过多年的潜心研究,在古籍自动标点技术上取得了突破,成功开发了一套自动标点软件。去年在二十四史和唐宋诗文集上做了成功的尝试,完成了上亿字古代文献的自动标点,正确率达90%以上,具有很高的实用价值。

  主持人:你们开发这一技术大致用了多长时间?

  尹小林:研制时间很长,从2003年算起,用了将近10年时间。今年年初开始投入试用。经过测试,如果前期数据准备工作做好了,每天可以标点500万字。

  除了自动标点,我们还开发完成了自动比对、自动排版软件。这些技术的推广使用,可以大幅度提高古籍整理的质量和速度,整体上降低出版成本。自动排版软件还可应用于网络出版和个性化出版。

  需要100年才能完成的事情,我们很难规划;如果是5~8年就能完成的事,我们就可以计划立项。中国历史上有名的文化工程《四库全书》的编撰,前后历时十多年。除去收集图书、编写目录和确定版本的时间,仅正式抄写一项,最多时就用了2000人,花了5年多时间。《四库全书》收书达3400多种,都是中国文化史上的重要文献,全部标点整理后,总规模将超过10亿字。如果正式立项,标点整理可在5至8年内完成。超大规模古籍数据库不仅可在互联网平台上运行,还可广泛应用于各种移动终端。特别值得一提的是:超大规模古籍数据库投入使用,将进一步提高古籍整理出版的创新能力和水平,为现代个性化出版、网络出版提供强大支撑。

  主持人:孙教授,从技术的角度,您对首都师范大学研发的古籍自动标点、自动比对、自动排版三项技术有什么评价呢?

  孙茂松:无疑,这三项技术对建设超大规模古籍数据库都非常重要。分析起来,其技术难度是有所区别的。相比较而言,自动比对技术难度相对较小,但也很好地利用了计算机能够对海量文本进行快速查找、匹配的“天然”能力,而这一点恰恰是人类能力之所短,因而可以十分显著地提升比对效率;自动排版难度更大,需要将古籍排版知识引入到计算机算法中,可以认为是一个基于“排版知识”的古籍排版专家系统;自动标点最难,这需要在专家标点过的大规模古籍语料库的支持下,设计相应的计算机算法,才有可能实现。其工作过程大体上是:计算机算法从标点过的大规模古籍语料库中学习有关标点(句读)的知识,据之对新的古籍语料进行标点,经过专家校对后的带有标点的语料再补充到这个语料库中,由计算机算法再行学习。经过这一次“轮回”,自动标点的性能会得到提升。上述过程多次迭代,便有望使得自动标点技术渐趋完善。钱钟书先生在他修改过的一篇文章《电脑里的唐诗》中曾经讲过一句非常深刻的话:“能够帮助人的电脑,需要人的更多帮助。”自动标点技术在一定程度上“呼应”了钱先生的这个想法。应该说,自动标点技术较为充分地反映了“大数据”的特点,即:经过标点加工的数据规模越大,自动标点的性能便越好,于是乎对大数据的标点效率就越高,其结果是人工标点数据规模的进一步扩大,构成了正反馈。

  主持人:这三大核心技术,让首都师大电子文献研究所在中国古籍数字化的道路上有了独领风骚的能力与实力。这一点令人钦佩。

  赵敏俐:首都师范大学早在2002年就开始了古籍数字化的建设过程,2003年成立了电子文献研究所,2007年又成立了国学传播中心。为了适应古籍数字化建设发展的需要,2013年,我们将国学传播中心扩建为国学传播研究院。在近十余年的时间内,首都师范大学在古籍数字化方面做了一系列的工作,取得了有目共睹的成绩。第一项工作是国学网的建设。国学网建于2000年,现在已经发展成世界知名的中国文化网站,在国内外的人文社会科学研究领域里具有广泛的影响。国学网的成功建设,显示了数字化技术下的网络文化传播的巨大潜力与功效。第二项工作是数据库的建设。我们开发研制的《国学宝典》,从一开始就探索与国内相关研发机构不同的古籍数字化方式。其核心是将浩如烟海的古籍一部一部、一字一字地录入计算机系统,为今后日益先进的古籍数字化技术提供坚实的基础,走可持续发展之路。在此基础上,我们从2002年开始,联合国内四所高校开发了具有多种功能的《中国古代文学电子史料库》,汇集了将近2亿字左右的文献资料。第三项工作是学科建设。我们从2007年开始,在国内高校设立了第一个以古籍数字化为研究对象的交叉学科——数字文献学,获得了北京市教委的支持,被列为北京市重点学科。这是北京市所建设的第一个人文科学和自然科学的重点交叉学科。2013年9月,第一届数字文献学研究生入校,这在国内也开了先例。人才的培养,必将为“大数据库时代”的中国传统文化建设提供长久的、坚实的支持。

  我们的努力得到了国务院有关领导的高度肯定,教育部领导指示首都师范大学在以往取得成果的基础上,联合全国高等院校、各大图书馆,在大数据库的建设方面做出新的成绩,要在全国起引领作用。我们为此深受鼓舞,今后将进一步加快大数据库的建设,以适应世界范围“大数据时代”已经到来的形势,为全国的人文社会科学发展,繁荣社会主义文化作出应有的贡献。


使用微信“扫一扫”功能添加“学习微平台”
(责编:万鹏、谢磊)
  • 最新评论
  • 热门评论
查看全部留言

热点关键词