七一社區        注冊

國學訪談

國學大數據時代來了

2013年09月16日09:11   來源:光明日報

原標題:國學大數據時代來了

  訪談嘉賓:趙敏俐:首都師范大學文學院教授、中國詩歌研究中心主任

  孫茂鬆:清華大學計算機科學與技術系教授、中國中文信息學會副理事長

  張 濤:北京師范大學易學文化研究院教授、院長

  尹小林:首都師范大學電子文獻研究所所長

  特邀主持人:杜曉勤(北京大學中文系教授、中國古代詩歌研究中心副主任)

  主持人:21世紀進入第二個十年,信息技術得到突飛猛進的發展。我們正在進入一個全方位的“大數據時代”,呈現出從“雲計算”到“大數據”的發展趨勢。這個發展趨勢不是虛空的,而是正在對社會生活和學術研究產生著實實在在的重大影響。今天在座的都是中國古籍數字化事業的參與者和見証人。我們希望通過這樣一個小型的討論,與廣大讀者一起分享各位關於古籍整理與國學研究如何應對“大數據時代”問題的思考。

  

  趙敏俐:“大數據時代”已經降臨了。它表現在各個領域,不僅僅是生產領域,還包括知識領域。“大數據時代”是一場革命,它不僅會促進經濟發展、科技進步,在文化領域也會起到巨大的作用。十七屆六中全會《關於深化文化體制改革、推動社會主義文化大發展大繁榮若干重大問題的決定》明確提出:“要加強文化典籍整理和出版工作,推進文化典籍資源數字化建設。”我們應站在“大數據時代”這樣一個新的高度,來理解和認識中央推進古籍數據化事業的戰略意義。

  主持人:趙敏俐教授,您是倡導古籍數字化的重要學者,而且已經主持研制了一些古籍數據庫。請問您對“大數據時代”之“大”是如何理解的?

  趙敏俐:我想,“大”應該包括兩個方面的內容。首先是規模上的“大”。按尹小林的提法,幾百萬到一千萬字的數據庫算是小型數據庫﹔幾千萬到一億字的數據庫算是中型數據庫﹔從一億字到十億字算是大型數據庫,超過十億字以上的應該算是超大型數據庫。

  另一方面是功能上的“大”。功能的強大是超大規模古籍數據庫很重要的標志。怎樣才能算功能的強大?到目前為止,我們雖然已經做了很多古籍數字化的工作,比如把古籍做了一般的簡單掃描,入庫后也可以進行一般的查找,實現了一部分功能,但這個功能和我們想做的超大規模古籍數據庫還有差距。按照我的理解,超大規模古籍數據庫應該有這樣幾方面的特點:第一,因為它有超大規模的數據量,其中文獻種類和內容都非常豐富,有更大的包容性。和過去中小規模數據庫只是某一個類別、某一個專題的內容相比,通過這樣的數據庫進行綜合整理之后,可以把更多更豐富的信息匯集在一起,可以獲得更多、更全面、更准確的資料,為研究者提供更多的便利。第二,超大規模古籍數據庫的建設因為有更多技術層面的支持,所以能夠實現更多的功能,如對古籍的自動識別、自動標點、自動排版、智能檢索、智能分析,可實現多種數據格式的轉換和輸出,可以滿足文、史、哲、經各學科研究所提出的各種特殊需要,更能適應跨學科綜合研究的高級需要。隻有具備了這樣兩個特點,才能稱之為超大規模古籍數據庫。

  為什麼“大”就會帶來一些功能上的突破呢?比如說,關於“中國古代詩詞韻律的發展狀況”這一研究課題。一直以來,我們的理想是把先秦、兩漢、魏晉南北朝到唐宋時代每一首詩、每一首詞的每一個字的讀音、聲調、韻部等全都統計出來,由此再考察中國古代詩歌聲律的發展,弄清它們之間的變化。這在過去是不可能做到的。現在有了中國古代詩歌文本和古代漢語音韻數據庫,這樣的工作就可以做了。超大規模古籍數據庫的建設,可以使得學者們從那種非常繁重的翻檢古書的勞動當中騰出更多的時間,發現前人未能發現的課題,或者前人雖已發現但囿於精力和技術條件未能研究的課題,進行更多的創造性勞動。將人文社會科學的研究和現代科學技術手段完美結合起來,是未來的發展方向。超大規模古籍數據庫所帶來的功能是不可比擬的,對於學術的發展和人文學科的建設的推動都是巨大的。

  再比如,《二十四史》的標點。這項工作從上世紀五十年代末開始,先后參與的專家學者上百人,歷時20年才得以完成。如果用同樣的傳統人工方式,來標點總字數是《二十四史》25倍的《四庫全書》,同樣人力需要工作500年時間,這顯然是不現實的。今天就不一樣了,借助於現代技術手段來標點,效率可以提高50倍以上。也就是說,最多10年就可以完成《四庫全書》的標點整理工作。而且在這期間,技術還會不斷進步,時間因此還會縮短。我們預計,用5到8年把這個工作完成,是有相當把握的。

  孫茂鬆:利用現代信息技術,將傳統文化典籍以數字化“大數據”的形式保留下來,並且發揚光大,正在日益引起許多國家,特別是發達國家的重視。一個典型的例子是,由哈佛大學、麻省理工學院、Google和大英百科全書的專家學者組成的一個研究小組,2011年1月在著名的《科學》雜志發表了一篇題為《基於數以百萬計數字化圖書的文化定量分析》的文章。該項工作利用Google Books中數字化質量比較高的超過500萬種圖書,時間跨度從公元1500年到公元2000年,規模總計5000億詞,其中英文3610億詞、法文450億詞、西班牙文450億詞、德文370億詞、中文130億詞、俄文350億詞,以及希伯來文20億詞(據估計,佔人類有史以來出版圖書總種數的4%),借鑒基因組學(Genomics)的思路,對這些圖書組成的“大數據”進行分析,如發現單詞或人名在歷史文獻中隨時間變化的頻率,由此推導出人類文化的發展趨勢和演變規律。他們把這個全新的研究領域稱為“文化組學”(Culturomics)。這個例子表現了歷史文獻“大數據”建設與高水平研究的成功結合。值得注意的是,Google Books中的中文圖書其實已經具有相當規模了,這顯然對我們形成了一種巨大壓力。還需要指出的一點,與現實世界中源源不斷產生的科研大數據、互聯網大數據、企業大數據、感知大數據相比,歷史文獻大數據的總量規模要小得多,並且基本上已經“固化”了,原則上不會產生新的數據,數字化一點就離目標近一點,隻要我們本著“愚公移山”的精神,就一定可以完成中國古籍數字化的歷史重任。


使用微信“掃一掃”功能添加“學習微平台”
(責編:萬鵬、謝磊)
  • 最新評論
  • 熱門評論
查看全部留言

熱點關鍵詞