七一社区        注册

国学访谈

国学大数据时代来了

2013年09月16日09:11   来源:光明日报

原标题:国学大数据时代来了

  

  主持人:标点整理《四库全书》的蓝图真是令人振奋。我在想,如果把它作为我们国家应对大数据时代的挑战,一个率先建设的超大规模古籍数据库,一个文化强国的龙头工程,诸位专家认为会有怎样的文化意义和社会影响?

  张 涛:《四库全书》的整理是一个意义非凡的大型项目。如何更好地阅读和使用《四库全书》,怎样进一步挖掘其在各个方面的价值,实际上也是我们古典文献学、历史文献学,特别是新兴的数字文献学学科建设和学术发展需要面对的一个重要课题。

  根据我对古籍的认识,《四库全书》的版本,也就是库本,其文献价值不容低估。有许多重要典籍,库本是最好的。而要深度挖掘和广泛应用库本在学术研究、文化推广、社会影响等方面的价值,就需要超大规模数据库的建设。

  《易经》是群经之首。我们最近几年一直在做易学典籍的整理研究工作,其中一个重要项目就是与首都师范大学电子文献研究所合作研发《中华易学全书》。这是一次大型专题数据库建设,是古籍数字化的一个很好的示范项目,也是我们进一步深刻认识数字文献学之价值和意义的一个重要切入点。

  《四库》经部易类图书共有158种,1757卷,2400多万字,可谓集大成,都是经典中的经典。这说明四库馆臣的学术眼光、文化修养和研究水平是值得景仰和称道的,而数据库的建设又凸显了这些易学典籍的价值。尤其现在是一个读图时代,需要有高清晰度的易图。以前出书的时候,光易卦符号和易图就很难弄好,现在首都师范大学电子文献研究所把这个问题解决了。有了高清晰度的易图,对易学研究者来说是一个大大的惊喜,其中的学术价值自然也是毋庸置疑的。

  另外我认为,虽然《四库全书》的纸质版印了这么多,但翻阅、查找极其不便。尽管现在已有可以检索的电子版,但没有标点整理,存在不少问题。因此,超大规模古籍数据库建设,先选择《四库全书》作为一个切入点,以后再选择更多的文化经典,这是切实可行、简捷高效的工作思路,也符合学术研究的发展规律。

  国家要求中华文化应以更大的步伐走出去,并不断扩大在世界文明对话中的话语权,大规模古籍数据化正顺应了这一要求,将大大助力中华文化的对外传播,助力更好地搭建中外文明对话的桥梁,推动人类文明进一步向前发展。

  孙茂松:可以预期,这个古籍数据库一旦建成,将对推动我国的文化传承事业发挥重要作用,尤其是为相关研究的开展提供坚实的数据基础。我在前面讲过,国际上基于历史文献数据库开展的研究是成果众多的。如哈佛大学和麻省理工学院的学者2007年10月在著名的《自然》杂志上发表的文章《语言演化动力学的定量化》,利用一个规模近1800万词、跨度长达1200年的英语历时语料库CELEX,通过定量分析揭示了英语不规则动词向规则动词的演化规律。再如,多伦多大学的学者最近借助计算机统计技术对大约100多万份中世纪英国的契据(其中大多数契据都没有标明年代)进行断代:他们使用1万份署有年代的契据,考察所使用的语言随时间的变化情况,以此来确定其他契据的年代,取得了有价值的实验结果。此外,从2007年开始,欧洲每年都举办“文化遗产、社会科学和人类学中的语言技术论坛”(LaTeCH),研讨的话题包括:文化遗产、社会科学和人类学中的知识表示、知识发现和文本挖掘、本体、数据模型和层级体系的自动构建和标准化、语篇分析、不同来源、载体信息的链接和检索等。我国在这方面的研究实际上是落后了,需要奋起直追。依托“超大规模古籍数据库”,可做的事情有很多,如计算机自动作诗和集句、历史文献断代和作者推断、中国历史典籍和古典文学作品的词汇层语言加工、中国传统文化本体体系和知识图谱构建、中国传统文化基因在现代生活中使用状况大规模量化调查等,囿于时间关系,我在这里就不展开谈了。


使用微信“扫一扫”功能添加“学习微平台”
(责编:万鹏、谢磊)
  • 最新评论
  • 热门评论
查看全部留言

热点关键词