字库的编码 < 返回
GB 2312-80编码是中华人民共和国国家标准汉字信息交换用编码,全称《信息交换用汉字编码字符集 基本集》,标准号为GB 2312-80(GB是“国标”二字的汉语拼音缩写),由中华人民共和国国家标准总局发布,1981年5月1日发布,1981年10月1日实施。 它是一个简化字汉字的编码,通行于中国大陆地区及海外使用简体中文的地区(如新加坡等)。
GB 2312-80收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母,共7445个图形字符。其中汉字以外的图形字符682个,汉字6763个。
GB 2312-80把收录的汉字分成两级。第一级汉字是常用汉字,计3755个,置于16~55区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字,计3008个,置于56~87 区,按部首/笔画顺序排列。字音以普通话审音委员会发表的《普通话异读词三次审音总表初稿》(1963年出版)为准,字形以中华人民共和国文化部、中国文字改革委员会公布的《印刷通用汉字字形表》(1964年出版)为准。
GB/T 12345-90编码全称《信息交换用汉字编码字符集 辅助集》,标准号为 GB/T 12345-90,1990年6月13日发布,1990年12月1日实施,是一个关于繁体汉字的编码标准。所谓“辅助集”,是与“基本集”(GB 2312-80)相对应而言。即:GB/T 12345“是与 GB 2312 相对应的图形字符集。原则上,本字符集是将 GB 2312 中的简化字用相应的繁体字替换而成。因此,这些替代的繁体字具有与被替代的简化字相同的编码;未曾简化的汉字以及非汉字图形字符,仍是 GB 2312 中的汉字及图形字符,并具有与之相同的编码。”
GB/T 12345-90共收录 7583 个图形字符。汉字以外的图形字符716 个,汉字 6866 个,其中一级汉字 3755 个,二级汉字 3008 个,增补汉字103 个。
关于繁体字替换简化字的原则,GB/T 12345 注明:“本标准原则上按照《简化字总表》中所列繁体字与简化字的对应关系进行替换。”《简化字总表》由中国文字改革委员会 1964 年 5 月发表,后经国家语言文字工作委员会作个别修订,国务院 1986 年 6 月 4 日批准重新发表。
GBK编码标准,全称《汉字内码扩展规范》(GBK),英文名称Chinese Internal Code Specification ,中华人民共和国全国信息技术标准化技术委员会1995年12月1日制订,国家技术监督局标准化司、电子工业部科技与质量监督司 1995年12月15日联合以技监标函 [1995]229号文件的形式,将它确定为技术规范指导性文件,发布和实施。这一版的 GBK 规范为1.0版。GB即“国标”,K是“扩展”的汉语拼音第一个字母。
GBK向下与GB 2312编码兼容,向上支持ISO 10646.1国际标准,是前者向后者过渡过程中的一个承上启下的标准。
GBK共收录21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号883 个。
BIG-5 码是通行于台湾、香港地区的一个繁体字编码方案,俗称“大五码”。
BIG-5 码收录13468个符号和汉字,符号408个,汉字13060个,分为常用字和次常用字两部分,各部分中的汉字按笔划/部首排列。其中:常用字5401个,次常用字7659个。
GB 18030有两个版本:GB 18030-2000和GB 18030-2005。GB 18030-2000是GBK的取代版本,它的主要特点是在GBK基础上增加了CJK统一汉字扩充A的汉字。GB 18030-2005的主要特点是在GB 18030-2000基础上增加了CJK统一汉字扩充B的汉字。
GB 18030-2000,全称《信息技术 信息交换用汉字编码字符集 基本集的扩充》,中华人民共和国信息产业部电子工业标准化研究所起草,由国家质量技术监督局于2000年3月17日发布。GB18030-2000收录了27533个汉字。
GB 18030,全称:国家标准GB 18030-2005《信息技术 中文编码字符集》,是中华人民共和国现时最新的内码字集,是GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》的修订版。GB18030-2000共收录汉字70244个。现行版本为国家质量监督检验总局和中国国家标准化管理委员会于2005年11月8日发布,2006年5月1日实施。此规格为在中国境内所有软件产品支持的强制规格。
方正字库目前支持GB 18030-2000标准的字体有方正书宋、方正宋一、方正仿宋、方正楷体、方正黑体;支持GB 18030-2005标准的字体有方正宋一和方正楷体。
Unicode是基于国际标准化组织(International Organization for Standardization,简称ISO)所制定的ISO/IEC 10646,即通用字符集(Universal Character Set,简称UCS)的标准来发展,在1991年首次以书本的形式(The Unicode Standard)对外发布。
Unicode的编码方式与ISO 10646的通用字符集(Universal Character Set,UCS)概念相对应,使用16位的编码空间。16位Unicode字符构成基本多文种平面(Basic Multilingual Plane,简称BMP),最多可以表示65536个字符。基本满足各种语言的使用。最新的Unicode版本定义了16个辅助平面,两者合起来达到32位的编码空间,可以涵盖一切语言所用的符号。目前辅助平面的工作主要集中在第二和第三平面的中日韩统一表意文字中。
748编码是指方正系统在长期应用过程中实施、制定的简体字库和繁体字库编码方式。简体兼容GB 2312且有所扩展,共7156字;繁体兼容GB/T 12345并扩展全部BIG-5汉字,共计14943字,去掉繁简共用字4954个,748编码的简繁体共收录汉字16144个。此外,方正748编码含有丰富的符号库。748编码仅用于方正软件和系统。