汉字编码

来自计算思维百科
跳转至: 导航搜索

20世纪80年代,随着微机的推广,中文操作系统问世,中文信息处理一度成为棘手问题,而中文信息处理的根本问题是要对汉字进行编码,即为每个汉字对应一个唯一的编码。

应用范围

汉字通过输入设备输入后,就按照对于关系将其转换为计算机内部处理的通用自己代码,利用计算机对这些代码进行处理,如信息的比较,分类合并,检索,存储,传输和交换等。处理后的代码,再按照对应关系转换为汉字字形,最后通过输出设备将信息只管地显示或打印出来。

应用1(GB2312-80字符集)

GB2312-80字符集,中文名国家标准字符集(GB=GuóBiāo国标)。收入汉字6763个,符号715个,总计7478个字符,这是大陆普遍使用的简体字字符集。楷体-GB2312、仿宋-GB2312、华文行楷等市面上绝大多数字体支持显示这个字符集,亦是大多数输入法所采用的字符集。市面上绝大多数所谓的繁体字体,其实采用的是GB-2313字符集简体字的编码,用字体显示为繁体字,而不是直接用GBK字符集中繁体字的编码,错误百出。

应用2(Big-5字符集)

GBK字符集,中文名国家标准扩展字符集(GB=GuóBiāo国标;K=Kuò扩,即扩展),兼容GB2312-80标准,包含Big-5的繁体字,但是不兼容Big-5字符集编码,收入21003个汉字,882个符号,共计21885个字符,包括了中日韩(CJK)统一汉字20902个、扩展A集(CJK Ext-A) 中的汉字52个。Windows 95/98简体中文版就带有这个GBK.txt文件。宋体、隶书、黑体、幼圆、华文中宋、华文细黑、华文楷体、标楷体(DFKai-SB)、Arial Unicode MS、MingLiU、PMingLiU等字体支持显示这个字符集。微软拼音输入法2003、全拼、紫光拼音等输入法,能够录入如镕镕炁夬喆嚞姤赟赟䶮龑昳堃慜靕臹等GBK简繁体汉字。

应用3(Unicode字符集)

ISO/IEC 10646 / Unicode字符集,这是全球可以共享的编码字符集,两者相互兼融,涵盖了世界上主要语文的字符,其中包括简繁体汉字,计有:CJK统一汉字编码20992个、CJK Ext-A 编码 6582个、CJK Ext-B 编码 36862个、CJK Ext-C 编码 4160个、 CJK Ext-D 编码 222个,共计74686个汉字。SimSun-ExtB(宋体)、MingLiU-ExtB(细明体)能显示全部Ext-B汉字。目前有 UniFonts 6.0 可以显示Unicode中的全部CJK编码的字符,输入法可用海峰五笔、新概念五笔、仓颉输入法世纪版、新版的微软新注音、仓颉输入法 6.0 版(单码功能)等输入法录入。Ext-C还有2万多个汉字。详情请参阅香港中文大学网站、马来西亚仓颉之友网站、福建陈清钰个人网站。

可以运用的计算思维

汉字信息处理从棘手到得以顺利解决,是我们根据问题的特征,从新的角度分析对象,抓住问题条件与结论之间的内在联系,构造出相关的对象,如国标码,机内码,使问题在新构造的对象中更清晰地展现,从而借助新对象来解决问题。体现了计算思维的抽象特点。当我们利用人机结合这种综合集成方法来解决问题的时候。可以发现经过人机结合,充分利用人脑的特长和计算机特长,通过人机结合实现价值的提升,综合集成后所产生的新知识,新信息,甚至新思维是可构造和可行的。这种思维潜移默化地融入我们生活的方方面面。