二
主持人:標點整理《四庫全書》的藍圖真是令人振奮。我在想,如果把它作為我們國家應對大數據時代的挑戰,一個率先建設的超大規模古籍數據庫,一個文化強國的龍頭工程,諸位專家認為會有怎樣的文化意義和社會影響?
張 濤:《四庫全書》的整理是一個意義非凡的大型項目。如何更好地閱讀和使用《四庫全書》,怎樣進一步挖掘其在各個方面的價值,實際上也是我們古典文獻學、歷史文獻學,特別是新興的數字文獻學學科建設和學術發展需要面對的一個重要課題。
根據我對古籍的認識,《四庫全書》的版本,也就是庫本,其文獻價值不容低估。有許多重要典籍,庫本是最好的。而要深度挖掘和廣泛應用庫本在學術研究、文化推廣、社會影響等方面的價值,就需要超大規模數據庫的建設。
《易經》是群經之首。我們最近幾年一直在做易學典籍的整理研究工作,其中一個重要項目就是與首都師范大學電子文獻研究所合作研發《中華易學全書》。這是一次大型專題數據庫建設,是古籍數字化的一個很好的示范項目,也是我們進一步深刻認識數字文獻學之價值和意義的一個重要切入點。
《四庫》經部易類圖書共有158種,1757卷,2400多萬字,可謂集大成,都是經典中的經典。這說明四庫館臣的學術眼光、文化修養和研究水平是值得景仰和稱道的,而數據庫的建設又凸顯了這些易學典籍的價值。尤其現在是一個讀圖時代,需要有高清晰度的易圖。以前出書的時候,光易卦符號和易圖就很難弄好,現在首都師范大學電子文獻研究所把這個問題解決了。有了高清晰度的易圖,對易學研究者來說是一個大大的驚喜,其中的學術價值自然也是毋庸置疑的。
另外我認為,雖然《四庫全書》的紙質版印了這麼多,但翻閱、查找極其不便。盡管現在已有可以檢索的電子版,但沒有標點整理,存在不少問題。因此,超大規模古籍數據庫建設,先選擇《四庫全書》作為一個切入點,以后再選擇更多的文化經典,這是切實可行、簡捷高效的工作思路,也符合學術研究的發展規律。
國家要求中華文化應以更大的步伐走出去,並不斷擴大在世界文明對話中的話語權,大規模古籍數據化正順應了這一要求,將大大助力中華文化的對外傳播,助力更好地搭建中外文明對話的橋梁,推動人類文明進一步向前發展。
孫茂鬆:可以預期,這個古籍數據庫一旦建成,將對推動我國的文化傳承事業發揮重要作用,尤其是為相關研究的開展提供堅實的數據基礎。我在前面講過,國際上基於歷史文獻數據庫開展的研究是成果眾多的。如哈佛大學和麻省理工學院的學者2007年10月在著名的《自然》雜志上發表的文章《語言演化動力學的定量化》,利用一個規模近1800萬詞、跨度長達1200年的英語歷時語料庫CELEX,通過定量分析揭示了英語不規則動詞向規則動詞的演化規律。再如,多倫多大學的學者最近借助計算機統計技術對大約100多萬份中世紀英國的契據(其中大多數契據都沒有標明年代)進行斷代:他們使用1萬份署有年代的契據,考察所使用的語言隨時間的變化情況,以此來確定其他契據的年代,取得了有價值的實驗結果。此外,從2007年開始,歐洲每年都舉辦“文化遺產、社會科學和人類學中的語言技術論壇”(LaTeCH),研討的話題包括:文化遺產、社會科學和人類學中的知識表示、知識發現和文本挖掘、本體、數據模型和層級體系的自動構建和標准化、語篇分析、不同來源、載體信息的鏈接和檢索等。我國在這方面的研究實際上是落后了,需要奮起直追。依托“超大規模古籍數據庫”,可做的事情有很多,如計算機自動作詩和集句、歷史文獻斷代和作者推斷、中國歷史典籍和古典文學作品的詞匯層語言加工、中國傳統文化本體體系和知識圖譜構建、中國傳統文化基因在現代生活中使用狀況大規模量化調查等,囿於時間關系,我在這裡就不展開談了。
![]() | ![]() |
