版权归原作者所有,如有侵权,请联系我们

[科普中国]-汉字编码输入法

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

简介

1974年8月,我国开始了第一个大型汉字信息处理工程项目“748工程”,其主要成果之一是《汉字频度表》,首先为汉字信息处理提供了重要的基础数据。1980年前后,陈明远、盛谏等人分别公布汉语音节、声母、韵母、声调和字母频度统计。经过对《汉字频度表》和其它字表的统计分析,国家标准总局颁布了汉字信息处理领域的第一个国家标准《信息交换用汉字编码字符集·基本集》(GB2312-80)。这是一个在中国的汉字信息处理历史上划时代的、具有深远影响的标准。

1981年,武汉大学、复旦大学等公布了在《新华字典》字集范围内的字根频度统计结果。1984年,国家文字改革委员会与武汉大学公布了《辞海》字集范围内汉字笔画、部件、结构的动态统计分析结果。1985年,国家文字改革委员会与山西大学公布了人名姓氏用字的抽样统计分析结果。1986年,北京航空学院、新华社利用计算机技术分别公布了基于大型语料库的新的汉字使用频度统计和流通频度统计。1985年后,北京师范大学、上海交通大学、北京语言学院等分别使用各具特色的自动分词技术公布了基于大型语料库的现代汉语词语使用频度统计。北京大学计算语言研究所还建立了以汉语语法为中心的“现代汉语语法信息词典”。字词属性库和内容全面、翔实、使用方便的汉语语料库对推动汉字编码键盘输入技术的发展起到了重大作用。

九十年代后公布的与汉字键盘输入系统有关的国家标准有GB13000.1《信息技术多八位编码字符(UCS)》、GB18030《信息技术信息交换用汉字编码字符集基本集的扩充》、GB18031《信息技术数字键盘汉字输入通用要求》、GB15834《标点符号用法》和即将公布的有GB/T18220-2000《信息技术通用键盘汉字输入通用要求》。国家语委颁布的规范有GF3001《信息处理GB13000.1字符汉字部件规范》、GF3002《GB13000.1字符集汉字笔顺规范》、GF3003《信息处理用汉语拼音方案表示规范通用键盘》1。

分类最常见的分类法是按编码时使用的特征信息元(或称字元)将汉字编码输入法分为音码、形码、音形码和形音码。音码又可以细分为全拼码、双拼码、简拼码。形码又可以细分为部件码和笔画码。部件码需要将汉字拆分为部件或字根,再将它们通过音托、位托、形托等方式映射到键盘字符。音形码以音为主以形为辅。形音码以形为主以音为辅。另外,按处理对象大小来分,汉字编码输入法有单字型、字词型和语句型;按适用的输入者来分,汉字编码输入法可以分为普及型与专业型;按编码时使用的码元字符来分,汉字编码输入法可以分为字母码和数字码;按软件的适应性来分,汉字编码输入法可以分为通用输入法平台(又称码表输入法)和专用输入法(或称定制输入法);按使用的键盘来分,汉字编码输入法可以分为通用键盘输入法和数字键盘输入法。最后,还可以按照汉字编码输入的发展历程将其分代。目前,分代方法并没有形成共识。汉字编码输入法究竟分为几代?每一代的特征是什么?这些问题都有不同的看法。吴越将汉字编码输入法分为三代。其断代标志为:第一代,以单音节的字为单位输入;第二代,以词语(包括单音节和多音节)为单位输入;第三代,除了有固定词库可以用通用词输入外,还可以根据用户的需要自造词语,并具有人工智能,可以自动选择区分重码(同音)词。单波也将汉字编码分为三代,但是各代的特征与吴越所描述的大不一样2。

按历史发展进程把汉字编码输入法分为三代,各代的特征与单波和吴越描述的都不一样,在具体论述时会加以说明。

第一代汉字编码输入法电子工业部第六所于1983年正式公布了我国第一个中文磁盘操作系统CC-DOS,这在我国中文信息处理历史上具有划时代的意义。CC-DOS是在PC-DOS的基础上扩充、修改而成。在广泛使用的CC-DOS2.1版中,有简拼、首尾码、快速码和区位码输入法,已经涵盖了包括音码、形码、音形码和数字码这些主要类型的输入法,对我国计算机应用的普及起到了开路先锋的作用。

当时使用得最广泛的输入法是简拼和首尾码。简拼是纯音码,使用的是介于全拼和双拼之间的一种拼音方法,对三个及三个字母以上的韵母进行了压缩。首尾码是一种纯形码,包含97个部件,分为52类;部件到键盘字母的映射没有太多的规律可循,记忆量很大;编码时只取字首和字尾各一个部件,对于未列出的变形部件需要输入者自己去猜测其应归属的键位。这两种方法都不支持联想,也不支持词组,都有很多重码。因此,在输入时选择、翻页操作很频繁,眼睛需要不断地扫描提示行以便在众多的重码中找寻所需的字,输得又累又慢,更不可能实现盲打。快速码是通过压缩拼音和加码方法实现的,可以在一定的程度上离散重码。由于快速码的加码方法没有规律可循,因此没有得到真正的应用。区位码完全要靠死记6763个汉字和符号的数字编码来输入,因此除了用于输入当时还没有其它办法输入的标点符号外,基本上没有人实际使用。

另一个早期的汉字编码输入法是电报码。电报码为4位等长码方案,使用的码字从0000到9999,可以代表一万个字符(包括汉字、字母、符号)。电报码没有重码,但编码的规律性不强,十分难记。因此,它完全是为了邮电部门那些已经熟悉电报码的人的需要而移植进计算机的,对一般的汉字输入者没有什么意义。1986年,联想集团在推出联想汉卡的同时推出了联想式汉字环境,首先使用了联想方法来加快汉字的输入。那时还没有词组输入方法,联想技术让人耳目一新。汉字输入过程由原来的编码->翻页->选择->编码...变成了编码->选择->选择...,因此稍后的很多输入法都采用了这种技术。不过,按照现代汉字编码输入技术的标准来看,联想技术仍然存在两个致命的弱点。一个弱点是,如果后续要输入的字与前面已输入的字不能构成词组的话,则联想就会失败。另一个弱点是,联想选择时人机交互过于频繁,虽然平均码长缩短了,但是实际的输入速度反而会下降。

总之,第一代汉字编码输入法的特点是:在DOS环境下,以单字为单位进行输入,在屏幕底部提供专门的提示行显示数量众多的重码字,翻页、选择操作频繁;用数字键选择重码字,用ALT+数字键可重复选择出现在提示行中的重码字;连极为常用的标点符号的输入都需要使用区位码,很不方便;联想技术的采用使输入效率有所改善,但其作用是相当有限的;各种输入法间的切换(包括切换到英文)都是通过复合功能键ALT+Fn(F1-F12)来进行的;支持全角和半角方式,但不支持中文标点方式;不支持词组输入,更不支持自定义词组。

第二代汉字编码输入法1986年,四通公司与日本三井物业合作,推出了四通MS-2400中文电子打字机,宣告了中国专业电子打字时代的到来。随着四通打字机的广泛使用,首先捆绑在四通打字机上的五笔字型输入法流传开来,后来捆绑到四通打字机上的由刘卫民发明的双音输入法也在当时得到比较广泛的使用。五笔字型是最典型的纯形码部件类方案。在五笔字型中,一般将部件称为字根。

五笔字型采用了130个基本字根。基本字根按起笔分为五类,对应通用键盘上的五个区。每类又细分为五组,每组对应一个键盘字母。在一个汉字中,字根间的关系被归纳为“单、散、连、交”四种。在汉字拆分时,遵循“取大优先,兼顾直观,能连不交,能散不连”的原则。五笔字型将汉字分为键名汉字、成字字根汉字和键外汉字三种,分别服从不同的编码规则。另外,字的编码还有一、二、三级简码,其形成方法是取相应全码的前一、二、三个字母。五笔字型将词组也分为二字词、三字词和多字词三种。二字词按顺序取各字的前两个字根来编码。三字词按顺序取头两个字的第一个字根和末字的前二个字根来编码。多字词按顺序取第一、二、三、末字的第一个字根来编码。

五笔字型以非常复杂的编码规则换来了在GB2312-80字符集内较低的重码率。当采用强制简码时,还可进一步将低重码率。词组编码被放进全码字的剩余编码空间中,实现了字词混合编码。只要收录的词组量不大,发生重码的可能性是比较小的。一般的五笔字型不具备自造词的功能。五笔字型拥有的这些特点,正好适应了职业打字的需要,成为它在职业打字时代非常流行的重要原因之一。虽然五笔字型在市场上取得了巨大的成功,但它存在的问题也是不容忽视的。首先,五笔字型是非常难学的,而且容易遗忘。它除了有非常复杂的编码规则而外,还有很多例外需要记忆。五笔字型打字员在打字时对一些常见字出现“卡壳”的现象是很普遍的事情。这时就需要临时换用拼音输入法。其次,五笔字型的扩展性差。当字符集从GB2312-80到GBK和GB18030过渡时,当词组量增大时,五笔字型在码长为4的码位上会出现大量的重码,使其丧失重码率低的优势。五笔字型采用的是4码无重码自动上屏的策略,4码重码增多就迫使打字员的视线更多地离开稿件来观察提示行以确认自己的输入,从而降低录入速度。最后,五笔字型最致命的弱点是规范性差。张孝存等就此提出了言辞激烈的批评:“五笔字型违反语言文字规范。它对汉字的拆分具有相当大的随意性,对国民基础文化素质具有不可忽视的负面影响。它对规范的汉字教育的冲击同其应用范围的扩大成正比。”

双音输入法是一种比较巧妙的纯音码。双音输入法最大的特点就是“以词定字、反向联想”,以缓解纯音码方式下单字重码过多的问题。因为二字词的数量很多,所以一般情况下总可以找到某个二字词,它的第一个字就是你想要输入的字。如果该二字词处于提示行的第一候选位置,则可以省略选择键;否则需要用数字键进行选择。如果整个二字词都是你需要的,你可以加一个空格键输入第二个字。也就是说,如果采用双拼的话,利用“以词定字”技术可以使得常用字输入时的平均击键数为2.5,而且基本上避免了传统拼音+联想方式下过多地扫视提示行和翻页、选择的毛病。在双音输入法中,对于三字词和四字词,取各字的声母作为编码来输入,必要时加空格结束。对于不认识的字,可以打入“\\”调用“手写模拟”。虽然可以自定义词组,但它不支持在线造词。造词时需要用外部文本编辑器按照它定义的格式输入编码和对应的词组。

双音输入法是拼音汉字输入历史上的一大进步,在当时受到了许多非职业打字员的欢迎。但是,它也存在一些比较严重的不足,以至于现在几乎没有人再使用它了。首先,虽然在输入效率上它较传统的拼音有很大的提升,但是它与后来的语句级拼音输入法如智能ABC相比,还有相当的差距。另外,“以词定字”时很多字可以采用多个词来确定,而有的字难以找到词来确定,用户常常感到不知所措。虽然双音输入法中提供了很多其它的方法来解决单字的录入问题。例如,邓、郭、姚等姓氏用字的输入就有6条辅助规则。要记住这些方法并判断何时采用何种方法可不是一件容易的事情。由于只能离线造词,所以词组的自定义也很不方便。自然码是最具代表性的音形码。吴越在1993年对自然码作出了极高的评价。自然码在拼音部分采用了在CCDOS简拼的基础上修改而来的双拼,以方便CCDOS用户向自然码过渡。

为了解决拼音输入中普遍存在的同音字问题,自然码采用了与双音输入法完全不同的策略。它通过在双拼后附加形码,大大减少了单字的重码。其形码部分采用“近义部首分类”法,最多可有两码,用部首读音的声母作代码,取码时坚持“义部优先”的原则,以便减少记忆量和增加形码对重码字的离散能力。采用附加的形码来区分同音字还可以避免双音输入法中一个字可以利用多个词组来确定的不确定性。对于不认识的字,可以单纯使用形码部分输入,但需要以“/”键开头进行引导。自然码的简码字也很有特色,除了传统上用“声母+空格”输入的高频简码字而外,还有用“声母+;”输入的次级简码字和用“声母+’”输入的附加简码字。自然码还设置了用“声母+声母+’”输入的简码二字词,以加快高频二字词的录入。输入一般的二字词时,词组作为一个整体上屏,比双音输入法的“以词定字”每输入一个二字词就少用了一个空格键。三字词用各字的声母+“’”输入,单独享有编码空间。

自然码还设计了“中文标点状态”,使得常用标点符号的输入和半角字母、数字的输入可以不加切换地进行。自然码的外挂技术使得它可以不加改变地挂接于所有常见的中文DOS系统上。考虑到南方人普通话不准的现实,自然码还提供了南方音选项。自然码还对中文数字、日期、时间、制表符等提供了编码式的快速输入手段;对字词的叠加操作也相当方便,可以用于输入“想想”、“思考思考”、“试一试”等。智能相关处理是自然码宣传得很多的一项技术。它实际上是一种扩展的联想技术,即把联想用到了词组与词组之间。例如,输入“知名”以后再输入“rfui”(标准拼音为“renshi”)后会把“人士”作为默认选择,而输入“不久”以后再输入“rfui”则会把“人事”作为默认选择。在线造词是自然码自誉的另一特色。在汉字输入过程中,如果敲完某个词的拼音以后发现这个词不存在,立即敲空格键,系统便进入“自动加词状态”;这时,连续输入的字、词都作为新词的内容,在送到屏幕上的同时便被纪录到自造词库中;当再敲空格键或回车键时,系统结束自造词操作。如果新造词的编码正好与其他词的编码重复,这时就要按Shift+Tab复合键进行强制造词,此后的操作与前面相同。对于已自定义的词,还可以将其删除。删除的方法是,在输入词的编码且词还未上屏时,按Ctrl+回车复合键;此时,如果无重码则那个唯一的词被删除掉,如果有重码则还需要选择想删除的是哪个词。需要说明的是,系统自带的词是不能删除的。在进行了增、删词组的操作后,在关机或重新启动计算机之前,必须先将自造词库保存到磁盘中,否则关机后所作的修改就无效了。

总之,第二代汉字编码输入法都是在CCDOS2.1的原始输入法的基础上发展起来的,以提高汉字的输入速度为主要目标,增加了词组的输入,单字输入时的重码也减少了,出现了中文标点状态,多数都能自定义词组。第二代汉字编码输入法非常多,除了上面介绍的而外,在大陆影响较大的还有陈爱文先生的表形码、郑易里先生的郑码、钱玉趾先生设计的未来码、肖水清先生的肖码、萧启宏先生的启宏全息码等,在港台影响较大的还有朱邦复先生的仓颉输入法、王赞杰先生的大易输入法、廖明德先生的行列输入法、陈华伟先生的华象中文输入法、刘重次先生的呒虾米中文输入法、戚桐欣先生的中易系统、黄金富先生的唯物输入法等,另外还有美籍华人饶达先生的饶氏笔形输入法和美国王安电脑公司开发的王安三角编码法等。

第三代汉字编码输入法到了九十年代末,随着微机价格的进一步降低、存储处理能力的进一步增强、Windows图形操作系统的流行和国际互联网的兴起,用户界面变得非常友好,微机大面积地进入中国的普通百姓家庭,进入了中小学教育中,真正实现了微机在中国的大普及。微机的大普及使得打字成为每个人的基本技能,就像会写汉字一样;需要别人打字就像需要别人代笔一样,实际上是文盲的标志。这样便造就了一个庞大的非职业打字员用户群体。打字员作为一个职业正在快速消失。一般用户在打字时的操作方式是“想打”,与职业打字员的“盲打”方式完全不同。“盲打”要求操作者尽量少看屏幕,输入法提供的反馈信息只有在操作员不能“盲打”时才偶尔派上用场;而“想打”时操作者始终是看着屏幕的,输入法提供反馈的方式和反馈信息量的大小都会对操作者的输入活动产生巨大影响。Windows图形操作系统为人机界面的丰富化提供了前提条件,可以满足反馈信息多样化的需求。

现代微机强大的存储处理能力为新型的存储密集型和处理密集型输入法的诞生提供了物质基础。输入法程序不再局限于DOS时代64KB的驻留内存中。千兆级的运算速度使得复杂的智能算法得以投入运行。硬盘容量不仅从兆级扩大到千兆级,访问硬盘的速度也比DOS时代大大提高。将巨型的词库存储在硬盘上并进行快速搜索已不成问题。计算机教育日益广泛地在中小学开展后,学生们从小就开始学习打字了。汉字编码与语言文字教育的关系问题被尖锐地提了出来。起码的要求是,汉字编码不能与语言文字知识相冲突。理想的情况是,把汉字编码输入与语言文字知识的学习结合起来,起到相互促进的作用。

在上述背景下,第三代汉字编码输入法应运而生,其指导思想是:规范、易学、易用并且尽量保持输入速度。这一时期,智能化拼音输入法的研究高潮迭起,也出现了以笔画或笔对为输入单位的纯形码,还出现了以声母和笔画(或笔对)为基础的音形码。

智能化拼音输入法

智能化拼音输入法按其实现原理可以分为四种:基于理解的、基于语用统计的、基于模板匹配的和基于上下文关联的。

智能ABC是目前Windows操作系统上使用得最为广泛的准语句级拼音输入法,因为它是以词组和短语为单位而不是以全句为单位进行转换的。智能ABC最大的特色是能够非常方便地自定义词组和调整重码字词的顺序。用户只需按自己的想法进行输入,输入时可以不进行手工分词,系统会从前到后逐个进行自动分词。在没有词组时,系统自动按单字方式显示重码字供用户选择;一旦用户选定并组成新词后,系统就可以记住它。在系统分词不正确或系统提供的词不是用户需要的词时,用户也可以加以修改,系统也能记住用户所作的修改。通过较长时间的使用后,如果用户没有发生变化,系统逐步适应该用户的使用习惯,使用户的输入过程变得自如起来。

智能ABC也有很多值得改进的地方。首先,在输入时可以随意使用全拼、简拼、混拼,输入者可以在任何时候进行音字转换,过多的方式让用户不知哪种是最好的。看似非常灵活,但却实际上是把优化输入的任务交给了用户。但大多数用户不是这方面的专家,不可能很好地完成这项任务,从而导致用户走很多弯路或形成不好的、低效的输入习惯。其次,音字转换的准确率不高,句内修改很频繁,导致输入速度不理想,即使使用双拼也没有自然码的效率高。

微软拼音是真正意义上的语句级音字转换智能输入法,是微软自然语言处理技术多年科研成果的结晶。微软拼音采用拼音作为汉字的录入方式,用户不需要经过专门的学习和培训,就可以方便使用并熟练掌握这种汉字输入技术。微软拼音采用基于语句的整句转换方式,用户连续输入整句话的拼音,不必人工分词、挑选候选词语,这样既保证了用户的思维流畅,又大大提高了输入的效率。微软拼音提供的人机界面非常具有特色。组字窗口可以嵌入正在输入的文本的插入光标处,减少用户在输入时视线的移动次数,使得输入法的易用性得到了很大提高。逐键变换并提示转换结果,使得用户不必自己做何时进行转换的决策。用户可以输入的编码长度没有限制,当超过系统的长度上限或遇到句号时系统会自动进行转换,以便用户能继续不间断地输入。由于考虑的上下文较广,微软拼音能够达到很高的转换准确率。微软拼音在默认情况下拒绝用户输入简拼和混拼,可以引导用户养成良好的输入习惯。微软拼音也存在一些问题。首先,在编码输入出错或转换不正确时进行句内编辑的操作很繁琐和低效。其次,逐键变换时往往会把已经转换正确的内容又修改错了,用户不得不随时监视输入内容的正确性,当已转换的内容较多时是非常劳心的。另外,微软拼音没有提供方法加速单字的录入,也没提供方法来输入不认识的字,是不完备的输入法。

基于笔画(或笔对)和/或声母的输入法

采用笔画、声母这两个最简单的汉字特征信息来进行编码,可以极大地提高输入法的易学性。但是,汉字的笔画一般归为五种。笔画种类太少,势必增加编码的长度,从而影响输入速度。于是,如何缩短码长、提高录入效率成了这类输入法成功与否的关键问题。福建双笔码软件开发有限公司研制的双笔码是一种基于笔画的纯形码。为了克服笔画种类过少的问题,双笔码引入了一种新的笔画类型“叉”,从而将笔画种类扩大为六种,取码时按顺序每取两笔构成一个笔对,共可形成36种不同的笔对,并在键盘上相应的键位区内选择键位输入。另外,双笔码还规定病字旁、“口”、提手旁和“日”应作为一个整体取码。根据汉字不同构造的组合形状,双笔码把汉字划为三类基本字型即左右型、上下型和综合型。不论哪种类型的汉字,均按四码进行编码。双笔码词组的输入方法为:二字词输入每个字的头两码;三字词输入前两个字的头一码和末字打头两码,四字及四字以上词输入一、二、三、末字的头一码。

双笔码的优点是:

与传统的部件类输入法相比,记忆量减少了许多;

采用笔对和36键编码后平均码长也相当短;

如果不按笔对而按单笔画输入,就可以非常容易地向数字键盘移植双笔码。

但是双笔码的缺点也非常明显:

作为基于笔画的输入法,它的取码和编码规则复杂,例外也不少,学习难度仍然很大;

采用了上排数字键进行编码,击打不方便,且与常用数字的输入相冲突,影响了实际输入速度。

陈劲松先生发明的二笔输入法是目前使用得比较广泛的输入法之一。它是一种基于声母和笔画的输入法,也可以单纯基于笔画进行输入。二笔输入法的30个编码字符在通用键盘上分布于六个区,即五个双笔画区和一个单笔画区。区内再根据双笔画的第二笔或根据单笔画,按横、竖、撇、点、折的顺序定位。但10个设定偏旁部首的键位需要记忆。二笔输入法将汉字按字形结构分为独体字和合体字。输入汉字时,第一码取汉字拼音首字母,从第二码起取笔画,最多取四码,不足四码应全取,不能取双笔画时就取单笔画。独体字不必拆分;第一码取拼音首字母,第二码起按笔顺取笔画的代码,最多取四码。合体字拆分成两半,按汉字笔顺规则,先写的部分定为前半,后写部分为后半;第一码取取拼音首字母,第二码取前半的第一、二笔,第三码取后半的第一、二笔,第四码取后半的第三、四笔。二笔输入法词组的编码规则为:二字词取每个字的前二码,三字词取第一字的前二码和最后两个字的第一码,四字及四字以上词取前三字和最后一字的第一码。二笔输入法的优点是:编码规则比双笔码更加简单,使用的编码字符也仅有30个;通过使用声母和笔画两种汉字特征信息编码,区分同码字词的能力得到了增强,取得了较高的输入效率;对于不认识的字还可以按全形方式输入;如果不按笔对而按单笔画输入,也可以非常容易地向数字键盘移植。但是二笔输入法也还存在问题:由于使用了笔对和设定部首,并需区分独体字和合体字进行不同的编码,因而学习难度和使用难度仍然较大。

数字键盘编码输入法迄今为止,全国手机拥有量已超过3亿,手机短信息的产值超过50亿人民币。手机拥有量已经超过PC机用户,用手机输入汉字的人群远远超过用通用大键盘输入汉字的人群。

目前,美国特捷公司的T9拼音和T9笔画输入法、加拿大字源公司的字能笔画输入法和Motorola公司的iTap输入法垄断了中国大陆和港台的手机输入法市场。但是,国外的手机数字键盘输入法不尽如人意。以笔画输入为例,iTap用9个笔画,字能用8个笔画,T9用5个笔画。相同的一个笔画,不同的手机可以放在不同的位置上,输入速度也不理想。为了打破外国手机输入法垄断中国手机市场和手机输入法不规范的尴尬局面。由中国中文信息学会等主办,由黄金码出版社(香港)有限公司等单位承办,于2004年11月21日,在人民大会堂举行了为期三天的中国首届手机中文输入大赛暨汉字数字码输入技术应用高峰论坛。在32支参赛队伍中,有23支参加模拟手机汉字数字码输入比赛,9支参加手机中文输入比赛。除了已参赛的数字编码方案外,比较引人注意的还有王永民先生的五笔数码、郑岩松先生的左右数码等。以下仅对当前使用得最为广泛的T9拼音、T9笔画和首届手机中文输入大赛中获得冠军的黄金码、大众数字码进行介绍。

T9拼音本质上采用的是一种全拼单字加联想的早期通用键盘输入技术。其最重要的创新是可以根据手机键盘上按键的组合情况判断是否能组合成合法的普通话音节,从而避免了传统上通过多次按键来输入一个拼音字母的弊端。但是,当按键组合适合多个合法的普通话音节,而且默认选择的普通话音节又不是用户所需要的时,用户还是得进行手动选择。另外,全拼的拼式过长、需要按1键进入选择状态和联想造成的过度人机交互都使得T9拼音的输入效率很低,而且全拼对普通话不好的人难度很大。

T9笔画采用目前多数输入法对笔画的归类方法将汉字笔画归为横、竖、撇、点、折五类,分别用1、2、3、4、5表示。录汉字时,按笔顺进行输入,逐键提示,每屏数个,高频优先,最长可输入12个笔画,并支持联想。由于分别使用五个键表示五种笔画,因此不需要像T9拼音一样对组合情况进行智能判断,内部处理逻辑很简单。T9笔画充分利用了丰富的笔画信息和不等长码的短码位,并可以直接键选重码字,所以它的实际输入效率比T9拼音还高。

大众数字码用10个数字对字词进行编码。除了用1、2、3、4、5分别表示横、竖、撇、点、折五种笔画外,还用6、7、8、9、0分别表示交、插、八、小、口五类部件。单字按笔顺取第一、二、三、四、末五个代码、不足时按实际码长,词组的码长为6位。大众数字码使用了相当多的笔画组合作为部件,但由于归类清晰,记忆起来比很多同类的输入法要容易些,加上精心的编码规则降低了重码率,使得它在比赛中脱颖而出。不过,应当看到它使用的部件相当多,编码规则也并不简单,学习难度还是相当大的。

黄金码用9个数字对字词进行编码。除了用1、2、3、4、5分别表示横、竖、撇、点、折五种笔画外,还用6、7、8、9分别表示“口”、“十”、“八”、“亠”四类部件。编码时分字首和字尾,也区分独体字与合体字的不同。在提示行不为空时,0、*和#用做选择键。黄金码最大的特色是,在输入时若用于编码的数字与已输入的编码一起不能构成另外的字词编码时,该数字键就可以用于选择同码字词,这样就大大地增加了输入法的键选能力,缩短了动态平均码长;结合高频先见的不等长码的使用,在输入时基本上不用翻页,进一步提高了输入效率。不过,字首与字尾的区分没有标准可循,常常因人而异;动态地使用剩余编码键选择重码字词也造成选择键位置变化太大,加重了人机交互的负担。

通用输入法平台发明和设计汉字编码的人很多,而真正能够编写汉字输入法软件的人是很少的,因此一个功能强大的通用汉字输入法平台会对汉字编码的研究、试验和制作产生巨大的促进作用。通用输入法平台来源于对各种输入法的共性的抽象,反过来又对输入法的制作有不可忽视的限制。

早在DOS时代就有人从事通用输入法平台的研究了。但是,输入法平台的广泛使用还是在Windows操作系统普及以后的事。微软公司和北京中易电子公司合作开发的码表输入法生成器(Imegen.exe)是WINDOWS操作系统上最早的也是使用得最广泛的输入法平台。杜志民先生开发的极点中文通用输入平台是目前影响最大的输入法生成器,与Windows内置的输入法生成器相比输入功能上有了长足的进步,但是它没有考虑与应用程序的接口问题。在功能上与极点中文通用输入平台类似软件还有龙文输入平台和青月亮平台。

虽然通用输入法平台取得了不小的进展,已能适应制作常规的基于字词的输入法的需要了,但是对于语句级输入法和许多有特殊要求的字词型输入法还是必须专门编程才能取得最好的效果。毕竟,搞输入法的人是极少数,而仅仅使用输入法的人是绝大多数,因此包括编码层次和软件层次在内的汉字输入法的总体性能才是最为重要的。

通用输入法平台是在软件层面使输入法的制作自动化。但是,一个输入法的制作在编码层面也有大量的工作要做,如何利用计算机来辅助汉字编码也引起了一些研究者的兴趣,这方面的研究情况请参阅文献。

汉字编码输入评测在软件工程中,软件产品的质量是由软件的一组质量属性来定义的。汉字编码输入法也是一种软件产品,但有其特殊性,不能完全按照广义的软件产品衡量其质量,需要有更具体的质量属性要求。汉字输入法面向广泛的用户群体,用户的知识背景差异很大,用户对汉字编码输入法的各种质量属性的要求也不全完一样。

在通信系统中,编码和译码都是由软件或硬件完成的,要考虑的主要问题是通信的效率和差错率。在汉字编码输入系统中,编码过程是由人来实现的,受到人的记忆能力和操作能力的限制,不可能采用通信系统中的所谓高效编码作为输入编码,更不能采用理论上的极限编码。易学性和易用性在汉字输入编码中占有十分重要的地位。不过,极限编码和通信编码所采用的编码方法的确是高效的汉字输入编码值得借鉴的,它们所能达到的效率也为汉字编码输入的速度性能提供了比较的基准。汉字编码输入法的编码对象是汉字,而汉字是我们使用的文字,文字又和语言紧密相关。在今天的信息社会中,使用汉字编码进行汉字输入就像识字和写字一样的重要。汉字编码的这种性质使得它对人们的语文知识产生重大的影响。例如,汉字形码中错误的汉字拆分方法和错误的笔画、笔顺冲击汉字的书写规范,汉字音码中错误的拼音方法也会冲击汉字的读音规范。对于中小学生来说,使用不规范的汉字编码还会影响正常的语文教学。有鉴于此,规范性也越来越引起国家标准部门、语言文字管理部门和民间的重视。

因此,易学性、易用性、快速性和规范性是现代汉字编码输入法的主要质量属性。

易学性易学性是指学会一种输入法所需的记忆量。有的输入法只需一、两天便能掌握,有的输入法则需要一、两周才能输入文稿,有的输入法甚至需要一、两个月的专门培训才能上岗工作。同时,有的输入法在一段时间没有使用后用户不易忘记,而有的输入法则回生很快。所以,易学性还有易记的含义在里面。

人的背景知识也和易学性紧密相关。如果能够利用人的背景知识来对汉字编码,就可以使输入法的易学性增强,而且也能通过输入汉字巩固人的背景知识。当然,背景知识也是需要时间来学习的。但是,背景知识是在学习输入法以前就掌握了的,不能将学习背景知识的时间计算在学习输入法的时间里。由于每个人的知识水平和知识结构都是不同的,因此在考核易学性时应该设置一个起始标准。中小学教育是每个国民应受的基础教育,所以我国现行中小学语文教材中的内容可以作为汉字编码输入法的国民教育背景知识。这种背景知识包括:

认识3000左右汉字;

掌握汉语拼音方法拼写汉语的字词;

会使用部首检字法查字典;

按正确笔顺书写汉字。

应当看到,对上述知识的掌握程度是因人而异、因地区而异的,而且上述知识用于汉字编码时所能发挥作用的大小也是不一样的。由于方言的原因,有些人虽然能认识3000左右的汉字,但却是用方音识读的,所以要以普通话的拼音方式输入仍然会有困难。有些人虽然会讲普通话,但是其普通话不一定很标准。

易用性易用性与人们输入汉字时所承担的生理和心理负荷密切相关,而人的生理和心理负荷又与人们输入汉字时形成条件反射的容易程度密切相关。影响输入法易用性的主要因素如下:

键元集的大小和字元在键盘上的分布。重复击打同一个键比从多个键中选择一个键击打要轻松。从小的键元集中选择按键比从大的键元集中选择按键要轻松。按键序列中的按键合理地交替出现时又比不合理地交替出现时更让人易于操作一些。

字元的提取方式。不同的输入法提取的字元种类和顺序是不同的,从而在编码时使人产生了不同的心理负荷。顺序地提取字的笔画显然比从字的某些字根中提取笔画要容易;提取整字的声母比提取字根的声母要简单。

重码字词的多少。重码字词越少则越有助于增强其易用性。全拼输入法的编码虽然很简单,但是它的单字重码很多,要靠观察提示行选择所需的字。眼睛不断地扫视选择窗口所产生的视觉疲劳影响了全拼输入法的易用性,即使通过长期的训练,要记住每个字的重码序号都几乎是不可能的,也就是说全拼输入法几乎不可能实现盲打。五笔字型的编码很复杂,开始学习时易学性和易用性都很差,但是它的单字重码很少,通过强化训练记住编码后,输入时就基本上不需要观察提示行,因此后期的易用性得到提高,这也是熟练的五笔字型操作员的击键速度都很快的原因。

联想字词的多少。联想具有和重码类似的性质,它们都是将多个选择项目罗列出来供用户选择。早期基于单字的输入法靠联想来缩短动态码长,当输入者对编码和键盘操作不是很熟练时的确能够在一定程度上加快输入速度,但是当输入者对编码和键盘操作熟悉后,联想时的选择就成为瓶颈,并且即使通过长期的训练也难以提高键选速度。因此,熟练的录入员是不用联想的。

编码的稳定性。编码的稳定性越好就越容易形成条件反射,因而就越能增强其易用性。动态重码调序和动态码长调整虽然有助于缩短动态码长,但却会破坏编码的稳定性。如果用户已经记助了某个字词重码顺序或码长,当该字词的顺序或码长被改变时就会导致用户发生操作错误,从而影响输入法的易用性。

操作的简便性。当遇到输入法没有的词组时,有的输入法需要用户手动切换到造词状态,输入词组的编码和组成词组的字,然后再手动关闭造词状态;有的输入法则可以自动进入造状态,待用单字输入完词组后还能自动生成词组的编码并自动退出造词状态;显然后者比前者简单得多。当遇到生字时,有的输入法需要用户切换到其它的输入法,而有的输入法本身就提供了输入生字的手段,从而更加简便。

快速性快速性就是输入汉字的速度,一般以平均每分钟录入多少个汉字计算。自从汉字编码键盘输入法问世之日起,汉字输入速度就一直是输入法研制者和使用的共同关心的问题,从而也是输入法评测的重要指标。影响输入法快速性的因素很多,而且各因素之间关系错综复杂。机器和软件不是影响输入法的瓶颈,但是编码性质和人参与的所有输入活动都会影响输入速度,如下所述。

获取字词。汉字编码输入的第一步就是获得要输入的字词。获得字词的方式对输入速度的影响是相当大的。“看打”时,录入者需要从稿件上的连续文本中通过视觉逐个取出字词。如果稿件不清晰易读,就会影响录入者获取字词的速度。如果输入法不能够让录入者实现盲打,则他就会不断地将视线转移到屏幕去看提示信息,来回的视线转移导致他难以定位应输入字词的位置,最终导致输入速度降低。如果录入者使用的输入法是以字音为字元的,当他遇到不认识的字时就不能输入,于是不得不换用基于笔划的方法查字,从而影响输入速度。“听打”时,录入者从口授者的连续话语中通过听觉获取待输入的字词。如果口授者的语音不清楚或者环境太嘈杂,就会影响录入者接收字词,口授者不得不经常重复自己说的话。如果录入者使用的是形码,将语音在头脑中转换为字形需要一个过程,而且当他遇到不会写的字时就不能输入,不得不转换用拼音输入,从而影响输入速度。“想打”时,录入者边思考边录入,没有外界的字形和口授的语音作参考,使用的往往都是自己熟悉的字词。人在写作不同的内容时,形成腹稿的速度是不一样的,而且具有突发性。新闻稿件、事务性公文的起草速度较快,学术论文的写作进度较慢。如果构思文稿的速度太慢,输入速度也快不起来。

编码长度。字词编码的平均长度是评价输入法速度性能的一个重要参数,而且便于定量地计算。但是在使用这个参数时需要特别注意几个问题,否则会误入歧途。首先,测试文本的选择必需是随机的典型文本。如果测试文本不是随机的而是已知的,那么任何输入法都可以预先将整个文本保存,然后用一键就能输入完毕。如果测试文本不是典型文本而是偏离汉字统计特征的罕见文本,那么该文本就可能非常有利于或者非常不利于某种输入法,结果也是不具有代表性的。其次,计算码长时应当包括输入字词时的所有按键,如选择键、翻页键、状态切换键等,不能仅仅计算码本中字词编码所用的码元数。最后,字词平均码长必需同其它因素结合才能正确地评价输入法的速度性能。这些因素包括码元的种类和数量、选择操作和联想操作的频繁程度、操作员的熟练程度、输入的持续时间等等。只有在其它因素都相同的情况下,字词平均码长才具有可比性。如果两种输入法的码元数量相差悬殊,那么用平均码长来比较这两种输入法的输入速度就是不合理的。例如,一个极端的情况是将所有的汉字显示在一个平面表中让录入者选择输入,这时每个字的码长均为1,但是显然这种输入法的效率是极低的,其效率比全拼输入法都低得多。

击键操作。击键操作包括寻找键位和击打键位两种动作,其中击打键位所花的时间是固定的,而寻找键位决定了击键操作花费在不同键位上的时间的差别。输入法使用的键位越多、键位分布得越不合理,录入者花费在寻找键位上的时间就越长,击键速度就越慢。

选择操作。简码、重码、联想、翻页都有可能导致用户在输入时通过观察反馈提示来选择字词。通过一段时间的输入用户一般都能记住一、二级简码字词,有的甚至能记住三级简码字词。但是,重码字词、联想字词的页码和顺序却很少有人能够记住。因此,简码虽然会影响用户使用输入法时初期阶段的击键速度,却能在熟悉后提高击键速度;而重码选择和联想即使通过长期的使用也很难提高用户的击键速度。

词组管理。现代汉字编码输入法都很重视利用词组来提高输入速度。但是,词组的数量巨大,一方面输入法不可能收录所有的词组导致词组不够用,另一方面太多的词组又会造成大量重码。如果输入法不能提供在线造词的功能或者其在线造词过程很复杂,那么当用户用到输入法没有的词组时就会造成“白打”,当他试图造词时又会对键入速度造成很大影响。另外,错词修改和无用词的删除也是一个头疼的问题。

状态切换与非汉字符号。汉字文本中不仅有汉字、标点,还可能有非汉字字符如英文字母、拼音字母、数字符号、数学符号等。如果没有好的状态切换和输入非汉字符号的手段,在遇到混有一些非汉字符号的文本是就会极大地降低录入速度。

改正错误。输入时如果出现错误,就需要修改。修改操作一般是非交互性的,非常费时和影响速度。如果不修改错误又会影响输入的正确率,导致校对文本时花费更多的时间。

规范性规范性是以国家标准机构出台的有关输入法的标准以及国家语言文字管理部门出台的有关规范为尺度来衡量的。

国家标准:GB2312-80《信息交换用汉字编码字符集基本集》、GB13000.1-1993《信息技术通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面》、GB18030-2000《信息技术信息交换用汉字编码字符集基本集的扩充》、GB/T18031-2000《信息技术数字键盘汉字输入通用要求》、GB/T18220-2003《信息技术通用键盘汉字输入通用要求》。其中前三者规定了输入法的编码对象(即编码字符集),后两者分别就数字键盘和通用键盘上的易学性、键位设定、编码长度和键选率提出了要求。

相关语言文字规范:GF3001《信息处理GB13000.1字符汉字部件规范》、GF3002《GB13000.1字符集汉字笔顺规范》、GF2001-2001《GB13000.1字符集汉字折笔规范》、GF3006-2001《汉语拼音方案的通用键盘表示规范》。

质量属性之间的关系以上汉字编码输入法的各种质量属性之间有着复杂的关系,有交叉的、包含的,也有相互对立的、矛盾的。因此,要使各个质量属性都达最优是根本不可能的,只能分清主次并寻求一个最好的平衡点。易学性与易用性及快速性之间往往是矛盾的。如果仅仅考虑易学性指标,那么完全可以设计一种不需任何学习的输入法。例如,在屏幕开设一个窗口,逐页将汉字列出来,每页显示N个汉字;用户通过逐字查找和翻页来定位汉字,然后用键盘或鼠标选定。显然,这种输入法的易用性和快速性都很差。当N很大(如N为1000)时,虽然翻页操作会减少,但查字的过程变得缓慢而艰难,人的眼睛很快就会疲劳。当N很小(如N为5)时,虽然查字过程较快,但翻页操作又会十分频繁,手指很快就会疲劳,而且由于平均每字的操作次数很多,速度也慢。实际上,完全依靠提示的话,不可能设计出实用的输入法。往往可以通过降低易用性来增强易学性。往往又可以通过加强训练来提高易用性。易用性提高的结果是输入者的操作形成条件反射,导致击键速度加快,从而提高汉字输入速度。