中國共產黨新聞網>>理論

漢字數字化是建設數字中國的基礎設施之一

中共四川省廣元市委黨史研究室 凌加杰

2018年08月16日10:11    來源:人民網-理論頻道

把我國從網絡大國建成網絡強國,實施大數據戰略加快數字中國建設,這是習近平總書記提出的偉大的戰略部署。網絡基礎設施建設是網絡強國戰略的重要組成部分。網絡基礎設施,形象地說,就是要搭建一個信息“高速公路”從而實現海量數據的運行、儲存和流通。隻有基礎設施搞上去了,在此基礎上發展通訊、互聯網、大數據、雲計算才有可能。所以網絡強國戰略的第一步是搞好網絡基礎設施。也就是說,隻有建成信息“高速公路”,海量數據的運作、存儲、流通才有可能實現。數據的實質是信息,漢字是信息的載體。在非電子時代,漢字是信息運作、存儲、流通的主要手段。現在人類已進入互聯網時代,數字是現代計算機的語言,作為信息載體的漢字,必須實現數字化才能在信息“高速公路”上運作、存儲、流通。所以漢字的數字化既是數字基礎設施之一,也是網絡基礎設施建設的組成部分。現代計算機技術是以英文為基礎設計的。漢字被長期排斥在中央處理器之外,極大的限制了我國信息技術的發展,隻有漢字實現數字化,才能改變這種局面,徹底取代英文統一天下的時代。漢字數字化可以解決漢字輸入、中文加密、電腦編程、人機界面、人工智能、語音控制等一系列關鍵信息領域裡的難題。

為什麼漢字被長期排斥在中央處理器之外呢?這既有歷史的原因,也有漢字自身的原因。現代計算機技術發源英美,自然是以英文為基礎而設計的。現在漢字沒有進入中央處理器,其自身的原因是:1、漢字的歧義性太強﹔2、漢字的文字存儲佔有太大,用點陣存儲,漢字的存儲佔的字節數太多﹔3、漢字的結構性不是很強﹔4、從編譯方式來說漢字同樣有很多不方便。由於漢字的缺陷在於它的造字原料,不具有單一性,不能構成有序性,所以導致現代應用的困難。因此,中國人不得不設計編碼,以此實現漢字數字化來解決這個問題。設計編碼的目的,是為了使漢字帶上一套有序的符號,完善漢字系統,以彌補漢字的不足之處。這是現代技術對中國人提出的挑戰,同時也是時代給予中華民族的一次機遇。現代科技激活了漢字變革,漢字編碼實現漢字數字化,促成了漢字系統的完善,這是社會發展的必然。因此,“漢字編碼是漢字的一次變革,而不是單純為了電腦輸入”。1995年的《電腦報》就曾經發出這樣的呼吁:“最好的編碼究竟是什麼?著名的科學家錢偉長教授早在1986年就曾經指出:好的編碼方案還沒有出來,好的編碼方案應該是一種文字,或者是准文字。”也就是說,好的漢字數字化方案,應該是一種准文字,它不但能適合計算機的需要,而且還能繼承漢字的文化傳統幫助學習漢字,成為漢字的助手。

什麼樣的漢字數字化方案才能適合現代計算機的需要呢?電腦的語言是數字。說白了就是“人機對話”的漢字必須數字化,並且實現數字化后,還很容易識別和還原,也就是說既有數字性也有可逆性。所謂規律性、規范性和標准性,其意義就是數字性和可逆性。英文字母為組詞元件的英文系統,正是由於它是具有數字性和可逆性的標准性的文字。因此任何英文單詞才可以用鍵盤上所標出的26個英文字母按鍵組成出來。漢字數字化后任何漢字單字也應像任何英文單詞那樣,用鍵盤上所標出的代碼字母(或數字)按鍵組成出來。這樣電腦上的所有程序,都可以把漢字“鍵盤代碼”作為橋梁,間接地用二進制數字編制出來。

怎樣的數字化編碼才能既適合現代計算機的需要又能繼承漢字文化傳統呢?漢字文化是整個民族逐漸積累起來的,漢字的演變,由象形而變為表義、表音,形聲字的大量出現就表明了這種趨勢。形聲造字法不僅造字便捷,所造的字,既易學又易記。所以,如根據形聲造字法的原理編碼就便於學習和記憶,這樣的漢字編碼沒有重碼,能夠作到“見字識碼”“見碼識字”“字碼互換”“字碼通用”,能代表漢字像英文那樣適合於計算機的需求。見到每一個漢字數字化編碼就能知道它對應是哪一個漢字,就像看到每一個繁體字就能知道它的簡體字一樣。這樣的編碼才能符合中國人的認知心理,這樣也就繼承了漢字的文化傳統。

美國哈佛大學教授德懷特•帕金斯表示,對中國真正的挑戰不是對互聯網具體的使用,而是中國能否成為信息技術的真正創造者。現在能夠繼承漢字文化傳統並能適用於現代計算機的漢字數字化方案己經問世。筆者經十多年的潛心研究,發明了電腦漢字(及其相應的數字漢字),使漢字成為音形義數相結合的、排列有序的、適用於計算機應用的文字系統,使漢字有了自己表示音形義數的字母,有人戲稱為這是中國現代的第五大發明。其特點是:

1、電腦漢字(及其相應的數字漢字)是繼承漢字形聲造字法的傳統,實現漢字數化以適應現代計算機需求的編碼,它像英文一樣具有數字性和可逆性。它是由2-4個字母組成,第一和第二個字母表示字音,第三和第四個字母表示字義或字形。它的字母和漢語拼音字母完全一樣,只是增加了三個韻母符號以便將漢語拼音簡化為兩個字母的拼音。字母的序號是十六進制的兩位數,稱為數字字母。數字字母可以按照電腦漢字的組字方式,鏈接成一個十六進制的數字,這個數很容易轉換為二進制數,用於計算機運算,並且還具有可逆性。如單字“吧”的電腦漢字是bab,數字漢字是040104;“拔”是bac,040105;“芭”是bae,040107。位於第一第二個字母ba和兩個數字字母04,01,它們與漢語拼音的發音相同;“吧”字的第三個字母的b及04,是個單義字母表“口”,拔字的第三個字母c及05表“扌手”,芭字的第三個字母e及07表“草艹廾”等。01是a的數字字母,a的序號是十進制數01,轉換為十六進制數為數字字母01,同理b,c,e的數字字母分別為04,05,07。數字漢字很方便轉換為二進制數以用於計算機運算。如吧bab的數字漢字為040104,二進制數使是0000 0100 0000 0001 0000 0100。

2、電腦漢字(及其相應的數字漢字)不但不否定漢字,反而使漢字更加容易管理、使用、學習。它是漢字的“身份証”,它能作到“見字識碼”、“見碼識字”、“字碼互換”、“字碼通用”,成為漢字的有益補充。電腦漢字(及其相應的數字漢字)是以漢字的存在而存在,它不可能脫離漢字而獨立存在(皮之不存毛將焉在),因此並不取代漢字而只是作為輔助漢字拼音表義表形的在電腦上使用的工具,正如作為英文輔助工具的國際音標不可能取代英文一樣。同樣電腦漢字(及其相應的數字漢字)作為漢語拼音的簡化也不可能取代漢語拼音為漢字普遍注音的作用。

3、電腦漢字使漢字實現數字化后,漢字的字序就更科學更完善了。漢字是“音”“形”“義”結合的文字,漢字的字母和漢字數字化誕生后,漢字就變成了“音”“形”“義”“數”相結合的文字。漢字是音義文字並不是拼音文字,所以它的字形不是由字母組成而是由筆畫形成的字件組成。字件分為三種:部首,字件字和字件筆畫。電腦漢字(及其相應的數字漢字)的字母不但代表字音也代表了漢字的筆畫及其字序。電腦漢字同筆畫字件既是漢字的輸入法,又是漢字的查字法。而且查字的速度和效率比漢語拼音更科學更快捷。因為,使用漢語拼音檢索的首要條件是要知道這個字的“音”,如果遇到了一個不認識的生字,不知道這個字的讀音,就無法查字。而使用漢字的筆畫字件字母,雖然不知道這個字的讀音,但仍然可以依據這個字的筆畫字件字母的順序,很快就能夠查出這是一個什麼字,從而使漢字的檢索更完善了。“漢字難查”是一個長期存在的問題。有了“音”“形”兩種快速檢索漢字法,檢索速度加快,准確性大大提高,“漢字難查”的問題迎刃而解,這將有助於學習漢字。使用電腦漢字(及其相應的數字漢字)的輸入法,名叫“作為電腦漢字的現漢字碼三位一體輸入法”,它既可用音形義輸入漢字,也可隻用字形輸入漢字,更可以用數字輸入漢字。

4、漢字實現數字化后,使漢字成為全世界文字和數字可以相互有規律轉換的文字,由此帶來了中國的信息科學將有一個飛躍的發展。由於計算機是美國人發明的,故計算機是以英語為基礎設計的,世界上任何國家的文字要上計算機,都必須使用英語為載體才能夠做到,如中國的五筆字型輸入法以及漢語拼音輸入法都是以英語為載體才能夠在計算機上輸入中文。中國的信息技術也是建立在英文的基礎上的。電腦漢字誕生后情況就不一樣了,由於漢字實現了數字化,漢字是使用數字為載體的,不用英文也照樣可以輸入中文。於是中文就取得了全世界第一個能夠與英文平起平坐的計算機第二語言。同時中國的信息技術也能夠完全建立在中文的基礎上,大大促進中國信息技術的發展。

5、電腦漢字(及其相應的數字漢字)有利於漢字文化的國際交流。隨著中國的和平崛起,國際交流頻繁,漢字走向世界的各個地區。世界上有很多人想掌握漢語漢字。外國人學中文,有一個普遍的體會:漢語容易漢字難。學習漢語通常幾個月便能開口說話,書面語言這一關便不容易通過,其原因何在呢?主要原因是文化差異造成的。世界上絕大多數國家的文字屬於拼音體系,它們的文化屬於拼音文字文化。也就是說要尊重國外的語言文字習慣,才能事半功倍。漢字要走向世界,要使世界上的人學會漢字,那就要尊重人家的語言文字習慣。所以漢字需要有一種既可拼音又能表示字義和字形的漢字別體(漢字的代碼)。它能與常用漢字一一對應且語音規律性強,詞性、聲調明確,不僅可以更好的給漢字注音還可以提示詞性、字義,能夠起漢字身份証的作用。它和所代表的漢字是形影相隨的,是一個硬幣的兩面。它是連接拼音文化和漢字文化的橋梁,掌握了它也就是進入了漢字的大門,對於這一點,漢語拼音是無法做到的。漢字除了有隸書、楷書、宋體、草書、行書、繁體、簡體之外,還應該有一種別體(輔助拼音的代碼)習慣於拼音體系文字的外國人,很容易在短時間內學習輔助拼音體的別體,掌握漢語的口頭語言,同時又通過輔助拼音別體漢字,進入學習規范漢字的大門,從而進一步掌握規范漢字。這個輔助漢字拼音表義的別體就是電腦漢字(及其相應的數字漢字)。

現在值得人們深思的是:進入數字立國的中國,為什麼現在還沒出現中國統一的數字化漢字?其主要原因有四方面:

一是對中國統一的數字化漢字認識的片面性。有人認為,《中華人民共和國語言文字法》已明確規定了漢字的法律地位,當前不搞文字改革,研發中國統一的數字化漢字不符合這個精神。這種理解是片面的,因為研發中國統一的數字化漢字並不等同於廢黜漢字,而是作為漢字的有益補充,從而使漢字滿足信息時代的需求,成為輔助漢字拼音表義表形的工具。注音字母、漢語拼音以及各種輸入法的問世,這些和中國統一的數字化漢字一樣,都是輔助漢字的工具,是為漢字服務的,它們能取代漢字嗎?再說不搞文字改革並不是不搞漢字現代化、信息化、數字化,以便使漢字適應網絡時代的需求。

二是錯誤的認為沒有必要實現中國統一的數字化漢字。有同志認為“美國信息交換標准代碼”(ASCII)在現代計算機中普遍應用,早已成為完全公開的國際標准。我國己經掌握漢字的輸入輸出技術,形成了漢字出版系統、漢字字庫等。目前國內己創造出近1000種漢字輸入法方案,完全可以滿足應用需求。也就是說,建立中國統一的數字化漢字沒有必要,至少不是急需。如果持有這種觀點,那就會使漢字難以實現數字化,漢字將永遠序號不統一、代碼混亂、標准不一致、輸入法五花八門、沒有切實可行的漢字信息交換標准代碼。以數字化漢字來統一漢字編碼是非常必要的。因為漢字編碼不統一的問題,實際上就是中國人在信息高速公路上出現的問題。從實踐上講,也是家庭計算機與世界聯網出現的問題。在全國統一的網絡中,漢字輸入是基礎,因此,它不應該是多種輸入法並存,否則就會影響計算機的識別。從學習上講,需要全國統一的漢字輸入教學,學習計算機應用,首先是漢字輸入。漢字輸入的基礎是編碼,全國的基礎教育教材,不應是多種並存,否則就會割裂統一使用的文字,增加識字教育的記憶負擔。因此,我們隻能允許統一的編碼,統一的教材。一個使用統一文字的統一的民族,應該有統一的文字副體(別體)。國家沒有統一的數字化漢字,絕非是一個網絡強國所作所為。這實際上也就是一種對中國統一的數字化漢字缺乏戰略性的考慮。我們常常會遇到這樣一道管理學考題:在重要而緊急、重要但不緊急、緊急但不重要、不緊急也不重要的四類事情中,應該優先處理哪一類?人們通常會毫不猶豫地選擇重要而緊急的事,但歷史經驗告訴我們,恰恰是那些重要但不緊急的事,需要最為認真地對待,因為它的名字叫戰略布局。為了建設網絡強國實現漢字數字化信息化而研發中國統一的數字化漢字這是一個事關長期的戰略性計劃。我們要看准這個大方向,及時布局,伏設奇兵,敢於投入,敢於拼搏,敢於堅持,敢於勝利,這才是戰略家的氣魄和智慧。

三是現在的輸入法編碼追求急功近利缺乏對漢字數字化的長遠全面地考量。輸入法編碼追求簡便快速易學,這樣的輸入法易於學習者掌握和使用,自然沒錯。但這樣的認識是不全面的而且也缺乏長遠的考量。所謂長遠全面的考量,就是要站在推進數字中國建設的高度來看待這個問題。小小輸入法,涉及大文章。互聯源於美國,控於美國,主權非我。現代計算機以英文為基礎設計的,漢字被長期排斥在中央處理器之外,這給數字主權帶來極大的危機。實現漢字數字化就是為了自主可控,不要坐別人的車上,跑在別人的路上。因此,可以說“漢字現代化是中國從網絡大國到網絡強國的必由之路。”所謂漢字現代化就是漢字數字化。數字化漢字也是一種中國文化,因此,漢字數字化必須是中國特色的數字化,這樣的數字化才可能取得成功。中國人一生下來就先接觸本地方言,學的是拼形文字,既可以用本地方言讀寫也可以用普通話來讀寫,習慣用字形來區分意義來實現唯一性,而用字音區分意義,卻無法實現唯一性。漢字是單音節文字,同音字、同音詞特別多,隻有通過字形才能區分清楚。正因為中國人習慣於運用字形來區別詞意,字音的區別能力就比較差。所以,認為隻要普及了普通話就可以實現拼音化,想得未免太簡單了。漢字以字組詞,本身也是詞,字是有限的,詞是無限的。中國人利用識字組詞,省出了認詞的時間。漢字的繼承性也包含了造字法的繼承,新造出來的字,也要便於學習和記憶,才能符合中國人的認知心理。漢字發展到形聲造字法后,任何時候,任何新的信息出現,人們就立即可以造出新的字來。這就說明漢字的造字系統已經完善,不會再出現新的造字法了。現代社會的應用極其需要文字有直接的有序性,這樣的漢字系統才能說是完善的。錢偉長說:“我們並不是說,漢字不能改革,因為文字永遠在變,可是你得按系統來變,我們的文字是有系統的,不能改得把系統都改掉,不能按外國人的系統改我們的漢字系統。”王蒙說:“聰明的做法不是把全球化與民族地域化對立起來,而是結合起來。”所以,中國統一漢字數字化的編碼應體現中國的文化。漢字編碼是五千年漢字用字史上的一件大事,我們決不應掉以輕心。錢偉長先生指出好的編碼應是一種准文字。這是漢字編碼的設計走向成熟的根本。現在各種輸入法紛紛問世,比如,流行碼、鄭碼、沈碼、自然碼、手寫輸入法、微軟拼音等等,不勝枚舉,真是“萬碼奔騰”。據統計,各種不同類型的漢字輸入法已數以千計,而且現在還不斷出現。其輸入的速度越來越快,並且越來越好學。盡管這些早期出現的輸入法並不適合成為中國統一的數字化漢字,但它們已完全佔領市場,人們習慣使用這些輸入法,現在開發作為中國統一數字化漢字的輸入法已無利可圖。如果國家對它的開發不加以扶持,它就不可能問世,中國統一的數字化漢字也就不可能出現。黨的十九大提出建設數字中國,發揮信息化的引領作用。實現數字中國必須完善數字基礎設施的建設,才有助於突破核心技術。習近平總書記指出,“不掌握核心技術,我們就會被卡脖子,牽鼻子,不得不看別人的臉色行事。”實現漢字數字化就是完善網絡基礎設施的一項重要內容,所以對漢字數字化必須給予足夠的重視。

(來源:《網信軍民融合》2018年6月刊)

(責編:任一林、謝磊)
相關專題
· 《網信軍民融合》
微信“掃一掃”添加“學習大國”

微信“掃一掃”添加“學習大國”

微信“掃一掃”添加“人民黨建雲”

微信“掃一掃”添加“人民黨建雲”