三
主持人:尹所長,就目前你們所掌握的技術而言,對超大規模古籍數據庫建設的支撐性到底如何,你們能夠建成一個怎樣規模的大數據庫?
尹小林:超大規模古籍數據庫建設專業性很強,難度非常大,除了需要計算機硬件、軟件、網絡等現代信息技術外,還涉及到文字、版本、目錄、訓詁、音韻等多個學科。隻有打通這些專業領域,才能將時間跨度上千年、不同地域的存世文獻整合在一個大系統下。為什麼我們今天能夠提出這個問題?因為我們在建設超大規模古籍數據庫的核心技術方面,已經取得重大突破。以前的一個數據庫為什麼大多隻有幾百萬字、幾千萬字,至多一兩億字?原因就在於技術上缺少一個環節,缺少對超大規模數據進行加工整合的能力。
具體需要哪些技術呢?首先需要一個龐大的字庫,這個字庫必須能夠把所有數據文獻中所用的不同的字在同一個平台上顯示。現在的計算機字庫已有很大的改觀,Unicode有7萬多字,再加上一些造字,漢語存世古籍的字庫問題基本上解決了。
第二個問題是數據加工。過去十年,我國處理轉換的古籍大概已經有數十億字,如《四庫全書》有7億字,《中國基本古籍庫》有20億字,這些古籍都已經完成了掃描識別轉換。但文字的數據化轉換,只是數據庫建設的第一步。超大規模古籍數據庫不僅僅是數據量大,而且數據整理和軟件功能也需要達到一個標准。超大規模古籍數據庫中的古籍文獻必須是經過標點整理並進行正確標引的結構數據,這一環節的難度和工程量都非常大。傳統的人工古籍標點的工作量十分巨大,而且隻有經過訓練的專業人員才能做。按一個專家一年標點50萬字的工作量計算,如果建設一個10億字的超大規模古籍數據庫,需要100個專家連續工作20年。首都師范大學電子文獻研究所經過多年的潛心研究,在古籍自動標點技術上取得了突破,成功開發了一套自動標點軟件。去年在二十四史和唐宋詩文集上做了成功的嘗試,完成了上億字古代文獻的自動標點,正確率達90%以上,具有很高的實用價值。
主持人:你們開發這一技術大致用了多長時間?
尹小林:研制時間很長,從2003年算起,用了將近10年時間。今年年初開始投入試用。經過測試,如果前期數據准備工作做好了,每天可以標點500萬字。
除了自動標點,我們還開發完成了自動比對、自動排版軟件。這些技術的推廣使用,可以大幅度提高古籍整理的質量和速度,整體上降低出版成本。自動排版軟件還可應用於網絡出版和個性化出版。
需要100年才能完成的事情,我們很難規劃﹔如果是5∼8年就能完成的事,我們就可以計劃立項。中國歷史上有名的文化工程《四庫全書》的編撰,前后歷時十多年。除去收集圖書、編寫目錄和確定版本的時間,僅正式抄寫一項,最多時就用了2000人,花了5年多時間。《四庫全書》收書達3400多種,都是中國文化史上的重要文獻,全部標點整理后,總規模將超過10億字。如果正式立項,標點整理可在5至8年內完成。超大規模古籍數據庫不僅可在互聯網平台上運行,還可廣泛應用於各種移動終端。特別值得一提的是:超大規模古籍數據庫投入使用,將進一步提高古籍整理出版的創新能力和水平,為現代個性化出版、網絡出版提供強大支撐。
主持人:孫教授,從技術的角度,您對首都師范大學研發的古籍自動標點、自動比對、自動排版三項技術有什麼評價呢?
孫茂鬆:無疑,這三項技術對建設超大規模古籍數據庫都非常重要。分析起來,其技術難度是有所區別的。相比較而言,自動比對技術難度相對較小,但也很好地利用了計算機能夠對海量文本進行快速查找、匹配的“天然”能力,而這一點恰恰是人類能力之所短,因而可以十分顯著地提升比對效率﹔自動排版難度更大,需要將古籍排版知識引入到計算機算法中,可以認為是一個基於“排版知識”的古籍排版專家系統﹔自動標點最難,這需要在專家標點過的大規模古籍語料庫的支持下,設計相應的計算機算法,才有可能實現。其工作過程大體上是:計算機算法從標點過的大規模古籍語料庫中學習有關標點(句讀)的知識,據之對新的古籍語料進行標點,經過專家校對后的帶有標點的語料再補充到這個語料庫中,由計算機算法再行學習。經過這一次“輪回”,自動標點的性能會得到提升。上述過程多次迭代,便有望使得自動標點技術漸趨完善。錢鐘書先生在他修改過的一篇文章《電腦裡的唐詩》中曾經講過一句非常深刻的話:“能夠幫助人的電腦,需要人的更多幫助。”自動標點技術在一定程度上“呼應”了錢先生的這個想法。應該說,自動標點技術較為充分地反映了“大數據”的特點,即:經過標點加工的數據規模越大,自動標點的性能便越好,於是乎對大數據的標點效率就越高,其結果是人工標點數據規模的進一步擴大,構成了正反饋。
主持人:這三大核心技術,讓首都師大電子文獻研究所在中國古籍數字化的道路上有了獨領風騷的能力與實力。這一點令人欽佩。
趙敏俐:首都師范大學早在2002年就開始了古籍數字化的建設過程,2003年成立了電子文獻研究所,2007年又成立了國學傳播中心。為了適應古籍數字化建設發展的需要,2013年,我們將國學傳播中心擴建為國學傳播研究院。在近十余年的時間內,首都師范大學在古籍數字化方面做了一系列的工作,取得了有目共睹的成績。第一項工作是國學網的建設。國學網建於2000年,現在已經發展成世界知名的中國文化網站,在國內外的人文社會科學研究領域裡具有廣泛的影響。國學網的成功建設,顯示了數字化技術下的網絡文化傳播的巨大潛力與功效。第二項工作是數據庫的建設。我們開發研制的《國學寶典》,從一開始就探索與國內相關研發機構不同的古籍數字化方式。其核心是將浩如煙海的古籍一部一部、一字一字地錄入計算機系統,為今后日益先進的古籍數字化技術提供堅實的基礎,走可持續發展之路。在此基礎上,我們從2002年開始,聯合國內四所高校開發了具有多種功能的《中國古代文學電子史料庫》,匯集了將近2億字左右的文獻資料。第三項工作是學科建設。我們從2007年開始,在國內高校設立了第一個以古籍數字化為研究對象的交叉學科——數字文獻學,獲得了北京市教委的支持,被列為北京市重點學科。這是北京市所建設的第一個人文科學和自然科學的重點交叉學科。2013年9月,第一屆數字文獻學研究生入校,這在國內也開了先例。人才的培養,必將為“大數據庫時代”的中國傳統文化建設提供長久的、堅實的支持。
我們的努力得到了國務院有關領導的高度肯定,教育部領導指示首都師范大學在以往取得成果的基礎上,聯合全國高等院校、各大圖書館,在大數據庫的建設方面做出新的成績,要在全國起引領作用。我們為此深受鼓舞,今后將進一步加快大數據庫的建設,以適應世界范圍“大數據時代”已經到來的形勢,為全國的人文社會科學發展,繁榮社會主義文化作出應有的貢獻。
![]() | ![]() |
