中国共产党新闻网>>理论

汉字数字化是建设数字中国的基础设施之一

中共四川省广元市委党史研究室 凌加杰

2018年08月16日10:11    来源:人民网-理论频道

把我国从网络大国建成网络强国,实施大数据战略加快数字中国建设,这是习近平总书记提出的伟大的战略部署。网络基础设施建设是网络强国战略的重要组成部分。网络基础设施,形象地说,就是要搭建一个信息“高速公路”从而实现海量数据的运行、储存和流通。只有基础设施搞上去了,在此基础上发展通讯、互联网、大数据、云计算才有可能。所以网络强国战略的第一步是搞好网络基础设施。也就是说,只有建成信息“高速公路”,海量数据的运作、存储、流通才有可能实现。数据的实质是信息,汉字是信息的载体。在非电子时代,汉字是信息运作、存储、流通的主要手段。现在人类已进入互联网时代,数字是现代计算机的语言,作为信息载体的汉字,必须实现数字化才能在信息“高速公路”上运作、存储、流通。所以汉字的数字化既是数字基础设施之一,也是网络基础设施建设的组成部分。现代计算机技术是以英文为基础设计的。汉字被长期排斥在中央处理器之外,极大的限制了我国信息技术的发展,只有汉字实现数字化,才能改变这种局面,彻底取代英文统一天下的时代。汉字数字化可以解决汉字输入、中文加密、电脑编程、人机界面、人工智能、语音控制等一系列关键信息领域里的难题。

为什么汉字被长期排斥在中央处理器之外呢?这既有历史的原因,也有汉字自身的原因。现代计算机技术发源英美,自然是以英文为基础而设计的。现在汉字没有进入中央处理器,其自身的原因是:1、汉字的歧义性太强;2、汉字的文字存储占有太大,用点阵存储,汉字的存储占的字节数太多;3、汉字的结构性不是很强;4、从编译方式来说汉字同样有很多不方便。由于汉字的缺陷在于它的造字原料,不具有单一性,不能构成有序性,所以导致现代应用的困难。因此,中国人不得不设计编码,以此实现汉字数字化来解决这个问题。设计编码的目的,是为了使汉字带上一套有序的符号,完善汉字系统,以弥补汉字的不足之处。这是现代技术对中国人提出的挑战,同时也是时代给予中华民族的一次机遇。现代科技激活了汉字变革,汉字编码实现汉字数字化,促成了汉字系统的完善,这是社会发展的必然。因此,“汉字编码是汉字的一次变革,而不是单纯为了电脑输入”。1995年的《电脑报》就曾经发出这样的呼吁:“最好的编码究竟是什么?著名的科学家钱伟长教授早在1986年就曾经指出:好的编码方案还没有出来,好的编码方案应该是一种文字,或者是准文字。”也就是说,好的汉字数字化方案,应该是一种准文字,它不但能适合计算机的需要,而且还能继承汉字的文化传统帮助学习汉字,成为汉字的助手。

什么样的汉字数字化方案才能适合现代计算机的需要呢?电脑的语言是数字。说白了就是“人机对话”的汉字必须数字化,并且实现数字化后,还很容易识别和还原,也就是说既有数字性也有可逆性。所谓规律性、规范性和标准性,其意义就是数字性和可逆性。英文字母为组词元件的英文系统,正是由于它是具有数字性和可逆性的标准性的文字。因此任何英文单词才可以用键盘上所标出的26个英文字母按键组成出来。汉字数字化后任何汉字单字也应像任何英文单词那样,用键盘上所标出的代码字母(或数字)按键组成出来。这样电脑上的所有程序,都可以把汉字“键盘代码”作为桥梁,间接地用二进制数字编制出来。

怎样的数字化编码才能既适合现代计算机的需要又能继承汉字文化传统呢?汉字文化是整个民族逐渐积累起来的,汉字的演变,由象形而变为表义、表音,形声字的大量出现就表明了这种趋势。形声造字法不仅造字便捷,所造的字,既易学又易记。所以,如根据形声造字法的原理编码就便于学习和记忆,这样的汉字编码没有重码,能够作到“见字识码”“见码识字”“字码互换”“字码通用”,能代表汉字像英文那样适合于计算机的需求。见到每一个汉字数字化编码就能知道它对应是哪一个汉字,就像看到每一个繁体字就能知道它的简体字一样。这样的编码才能符合中国人的认知心理,这样也就继承了汉字的文化传统。

美国哈佛大学教授德怀特?帕金斯表示,对中国真正的挑战不是对互联网具体的使用,而是中国能否成为信息技术的真正创造者。现在能够继承汉字文化传统并能适用于现代计算机的汉字数字化方案己经问世。笔者经十多年的潜心研究,发明了电脑汉字(及其相应的数字汉字),使汉字成为音形义数相结合的、排列有序的、适用于计算机应用的文字系统,使汉字有了自己表示音形义数的字母,有人戏称为这是中国现代的第五大发明。其特点是:

1、电脑汉字(及其相应的数字汉字)是继承汉字形声造字法的传统,实现汉字数化以适应现代计算机需求的编码,它像英文一样具有数字性和可逆性。它是由2-4个字母组成,第一和第二个字母表示字音,第三和第四个字母表示字义或字形。它的字母和汉语拼音字母完全一样,只是增加了三个韵母符号以便将汉语拼音简化为两个字母的拼音。字母的序号是十六进制的两位数,称为数字字母。数字字母可以按照电脑汉字的组字方式,链接成一个十六进制的数字,这个数很容易转换为二进制数,用于计算机运算,并且还具有可逆性。如单字“吧”的电脑汉字是bab,数字汉字是040104;“拔”是bac,040105;“芭”是bae,040107。位于第一第二个字母ba和两个数字字母04,01,它们与汉语拼音的发音相同;“吧”字的第三个字母的b及04,是个单义字母表“口”,拔字的第三个字母c及05表“扌手”,芭字的第三个字母e及07表“草艹廾”等。01是a的数字字母,a的序号是十进制数01,转换为十六进制数为数字字母01,同理b,c,e的数字字母分别为04,05,07。数字汉字很方便转换为二进制数以用于计算机运算。如吧bab的数字汉字为040104,二进制数使是0000 0100 0000 0001 0000 0100。

2、电脑汉字(及其相应的数字汉字)不但不否定汉字,反而使汉字更加容易管理、使用、学习。它是汉字的“身份证”,它能作到“见字识码”、“见码识字”、“字码互换”、“字码通用”,成为汉字的有益补充。电脑汉字(及其相应的数字汉字)是以汉字的存在而存在,它不可能脱离汉字而独立存在(皮之不存毛将焉在),因此并不取代汉字而只是作为辅助汉字拼音表义表形的在电脑上使用的工具,正如作为英文辅助工具的国际音标不可能取代英文一样。同样电脑汉字(及其相应的数字汉字)作为汉语拼音的简化也不可能取代汉语拼音为汉字普遍注音的作用。

3、电脑汉字使汉字实现数字化后,汉字的字序就更科学更完善了。汉字是“音”“形”“义”结合的文字,汉字的字母和汉字数字化诞生后,汉字就变成了“音”“形”“义”“数”相结合的文字。汉字是音义文字并不是拼音文字,所以它的字形不是由字母组成而是由笔画形成的字件组成。字件分为三种:部首,字件字和字件笔画。电脑汉字(及其相应的数字汉字)的字母不但代表字音也代表了汉字的笔画及其字序。电脑汉字同笔画字件既是汉字的输入法,又是汉字的查字法。而且查字的速度和效率比汉语拼音更科学更快捷。因为,使用汉语拼音检索的首要条件是要知道这个字的“音”,如果遇到了一个不认识的生字,不知道这个字的读音,就无法查字。而使用汉字的笔画字件字母,虽然不知道这个字的读音,但仍然可以依据这个字的笔画字件字母的顺序,很快就能够查出这是一个什么字,从而使汉字的检索更完善了。“汉字难查”是一个长期存在的问题。有了“音”“形”两种快速检索汉字法,检索速度加快,准确性大大提高,“汉字难查”的问题迎刃而解,这将有助于学习汉字。使用电脑汉字(及其相应的数字汉字)的输入法,名叫“作为电脑汉字的现汉字码三位一体输入法”,它既可用音形义输入汉字,也可只用字形输入汉字,更可以用数字输入汉字。

4、汉字实现数字化后,使汉字成为全世界文字和数字可以相互有规律转换的文字,由此带来了中国的信息科学将有一个飞跃的发展。由于计算机是美国人发明的,故计算机是以英语为基础设计的,世界上任何国家的文字要上计算机,都必须使用英语为载体才能够做到,如中国的五笔字型输入法以及汉语拼音输入法都是以英语为载体才能够在计算机上输入中文。中国的信息技术也是建立在英文的基础上的。电脑汉字诞生后情况就不一样了,由于汉字实现了数字化,汉字是使用数字为载体的,不用英文也照样可以输入中文。于是中文就取得了全世界第一个能够与英文平起平坐的计算机第二语言。同时中国的信息技术也能够完全建立在中文的基础上,大大促进中国信息技术的发展。

5、电脑汉字(及其相应的数字汉字)有利于汉字文化的国际交流。随着中国的和平崛起,国际交流频繁,汉字走向世界的各个地区。世界上有很多人想掌握汉语汉字。外国人学中文,有一个普遍的体会:汉语容易汉字难。学习汉语通常几个月便能开口说话,书面语言这一关便不容易通过,其原因何在呢?主要原因是文化差异造成的。世界上绝大多数国家的文字属于拼音体系,它们的文化属于拼音文字文化。也就是说要尊重国外的语言文字习惯,才能事半功倍。汉字要走向世界,要使世界上的人学会汉字,那就要尊重人家的语言文字习惯。所以汉字需要有一种既可拼音又能表示字义和字形的汉字别体(汉字的代码)。它能与常用汉字一一对应且语音规律性强,词性、声调明确,不仅可以更好的给汉字注音还可以提示词性、字义,能够起汉字身份证的作用。它和所代表的汉字是形影相随的,是一个硬币的两面。它是连接拼音文化和汉字文化的桥梁,掌握了它也就是进入了汉字的大门,对于这一点,汉语拼音是无法做到的。汉字除了有隶书、楷书、宋体、草书、行书、繁体、简体之外,还应该有一种别体(辅助拼音的代码)习惯于拼音体系文字的外国人,很容易在短时间内学习辅助拼音体的别体,掌握汉语的口头语言,同时又通过辅助拼音别体汉字,进入学习规范汉字的大门,从而进一步掌握规范汉字。这个辅助汉字拼音表义的别体就是电脑汉字(及其相应的数字汉字)。

现在值得人们深思的是:进入数字立国的中国,为什么现在还没出现中国统一的数字化汉字?其主要原因有四方面:

一是对中国统一的数字化汉字认识的片面性。有人认为,《中华人民共和国语言文字法》已明确规定了汉字的法律地位,当前不搞文字改革,研发中国统一的数字化汉字不符合这个精神。这种理解是片面的,因为研发中国统一的数字化汉字并不等同于废黜汉字,而是作为汉字的有益补充,从而使汉字满足信息时代的需求,成为辅助汉字拼音表义表形的工具。注音字母、汉语拼音以及各种输入法的问世,这些和中国统一的数字化汉字一样,都是辅助汉字的工具,是为汉字服务的,它们能取代汉字吗?再说不搞文字改革并不是不搞汉字现代化、信息化、数字化,以便使汉字适应网络时代的需求。

二是错误的认为没有必要实现中国统一的数字化汉字。有同志认为“美国信息交换标准代码”(ASCII)在现代计算机中普遍应用,早已成为完全公开的国际标准。我国己经掌握汉字的输入输出技术,形成了汉字出版系统、汉字字库等。目前国内己创造出近1000种汉字输入法方案,完全可以满足应用需求。也就是说,建立中国统一的数字化汉字没有必要,至少不是急需。如果持有这种观点,那就会使汉字难以实现数字化,汉字将永远序号不统一、代码混乱、标准不一致、输入法五花八门、没有切实可行的汉字信息交换标准代码。以数字化汉字来统一汉字编码是非常必要的。因为汉字编码不统一的问题,实际上就是中国人在信息高速公路上出现的问题。从实践上讲,也是家庭计算机与世界联网出现的问题。在全国统一的网络中,汉字输入是基础,因此,它不应该是多种输入法并存,否则就会影响计算机的识别。从学习上讲,需要全国统一的汉字输入教学,学习计算机应用,首先是汉字输入。汉字输入的基础是编码,全国的基础教育教材,不应是多种并存,否则就会割裂统一使用的文字,增加识字教育的记忆负担。因此,我们只能允许统一的编码,统一的教材。一个使用统一文字的统一的民族,应该有统一的文字副体(别体)。国家没有统一的数字化汉字,绝非是一个网络强国所作所为。这实际上也就是一种对中国统一的数字化汉字缺乏战略性的考虑。我们常常会遇到这样一道管理学考题:在重要而紧急、重要但不紧急、紧急但不重要、不紧急也不重要的四类事情中,应该优先处理哪一类?人们通常会毫不犹豫地选择重要而紧急的事,但历史经验告诉我们,恰恰是那些重要但不紧急的事,需要最为认真地对待,因为它的名字叫战略布局。为了建设网络强国实现汉字数字化信息化而研发中国统一的数字化汉字这是一个事关长期的战略性计划。我们要看准这个大方向,及时布局,伏设奇兵,敢于投入,敢于拼搏,敢于坚持,敢于胜利,这才是战略家的气魄和智慧。

三是现在的输入法编码追求急功近利缺乏对汉字数字化的长远全面地考量。输入法编码追求简便快速易学,这样的输入法易于学习者掌握和使用,自然没错。但这样的认识是不全面的而且也缺乏长远的考量。所谓长远全面的考量,就是要站在推进数字中国建设的高度来看待这个问题。小小输入法,涉及大文章。互联源于美国,控于美国,主权非我。现代计算机以英文为基础设计的,汉字被长期排斥在中央处理器之外,这给数字主权带来极大的危机。实现汉字数字化就是为了自主可控,不要坐别人的车上,跑在别人的路上。因此,可以说“汉字现代化是中国从网络大国到网络强国的必由之路。”所谓汉字现代化就是汉字数字化。数字化汉字也是一种中国文化,因此,汉字数字化必须是中国特色的数字化,这样的数字化才可能取得成功。中国人一生下来就先接触本地方言,学的是拼形文字,既可以用本地方言读写也可以用普通话来读写,习惯用字形来区分意义来实现唯一性,而用字音区分意义,却无法实现唯一性。汉字是单音节文字,同音字、同音词特别多,只有通过字形才能区分清楚。正因为中国人习惯于运用字形来区别词意,字音的区别能力就比较差。所以,认为只要普及了普通话就可以实现拼音化,想得未免太简单了。汉字以字组词,本身也是词,字是有限的,词是无限的。中国人利用识字组词,省出了认词的时间。汉字的继承性也包含了造字法的继承,新造出来的字,也要便于学习和记忆,才能符合中国人的认知心理。汉字发展到形声造字法后,任何时候,任何新的信息出现,人们就立即可以造出新的字来。这就说明汉字的造字系统已经完善,不会再出现新的造字法了。现代社会的应用极其需要文字有直接的有序性,这样的汉字系统才能说是完善的。钱伟长说:“我们并不是说,汉字不能改革,因为文字永远在变,可是你得按系统来变,我们的文字是有系统的,不能改得把系统都改掉,不能按外国人的系统改我们的汉字系统。”王蒙说:“聪明的做法不是把全球化与民族地域化对立起来,而是结合起来。”所以,中国统一汉字数字化的编码应体现中国的文化。汉字编码是五千年汉字用字史上的一件大事,我们决不应掉以轻心。钱伟长先生指出好的编码应是一种准文字。这是汉字编码的设计走向成熟的根本。现在各种输入法纷纷问世,比如,流行码、郑码、沈码、自然码、手写输入法、微软拼音等等,不胜枚举,真是“万码奔腾”。据统计,各种不同类型的汉字输入法已数以千计,而且现在还不断出现。其输入的速度越来越快,并且越来越好学。尽管这些早期出现的输入法并不适合成为中国统一的数字化汉字,但它们已完全占领市场,人们习惯使用这些输入法,现在开发作为中国统一数字化汉字的输入法已无利可图。如果国家对它的开发不加以扶持,它就不可能问世,中国统一的数字化汉字也就不可能出现。党的十九大提出建设数字中国,发挥信息化的引领作用。实现数字中国必须完善数字基础设施的建设,才有助于突破核心技术。习近平总书记指出,“不掌握核心技术,我们就会被卡脖子,牵鼻子,不得不看别人的脸色行事。”实现汉字数字化就是完善网络基础设施的一项重要内容,所以对汉字数字化必须给予足够的重视。

(来源:《网信军民融合》2018年6月刊)

(责编:任一林、谢磊)
相关专题
· 《网信军民融合》
微信“扫一扫”添加“学习大国”

微信“扫一扫”添加“学习大国”

微信“扫一扫”添加“人民党建云”

微信“扫一扫”添加“人民党建云”