汉字编码字符集标准——GBK和BIG5

GBK

  GBK全名为汉字内码扩展规范,英文名Chinese Internal Code Specification。K 即是“扩展”所对应的汉语拼音(KuoZhan)中“扩”字的声母。
  1993年,Unicode1.1版本推出,收录了中国大陆、台湾、日本及韩国通用字符集的汉字,总共有20,902个。
  中国大陆订定了等同于Unicode 1.1版本的“GB 13000.1-93”“信息技术 通用多八位编码字符集(UCS) 第一部分:体系结构与基本多文种平面”。
  由于GB 2312-80只收录了6763个汉字,有不少汉字,如部分在GB&nbp;2312-80推出以后才简化的汉字(如“啰”),部分人名用字(如中国前总理朱镕基的“镕”字),台湾及香港使用的繁体字,日语及朝鲜语汉字等,并未有收录在内。中文电脑开发商,于是利用了GB&nbp;2312-80未有使用的编码空间,收录了所有出现在Unicode 1.1及GB 13000.1-93之中的汉字,制定了GBK编码。
  根据西方资料,GBK最初是由微软对GB2312的扩展,也就是CP936字码表 (Code Page 936),最初出现于Windows 95简体中文版中,由于Windows产品的流行在大陆广泛使用,国家有关部门将其作为技术规范。注意GBK并非国家正式标准,只是国家技术监督局标准化司、电子工业部科技与质量监督司发布的“技术规范指导性文件”。虽然GBK收录了所有Unicode 1.1及GB 13000.1-93之中的汉字,但是编码方式与Unicode 1.1及GB 13000.1-93不同。仅仅是GB 2312到GB 13000.1-93之间的过渡方案。
  中国国家标准总局于2000年推出了GB 18030-2000标准,以取代GBK。GB 18030-2000除了保留了全部GBK编码的汉字外,还增加了大约一百个汉字及四位元组编码空间。

BIG5

  又称为大五码或五大码,是使用繁体汉字社群中最常用的电脑汉字字符集标准,共收录13,053个中文字,其中有二字为重复编码。Big5常用于台湾、香港和澳门等使用繁体中文的地区。在1990年代初期,当中华人民共和国的电邮和转码软件还未普遍之时,在深圳的港商和台商公司亦曾经使用Big5系统,以方便与总部的文件交流、以及避免为中国的办公室再写一套不同内码的系统。
  “大五码”是在1984年由中华民国财团法人资讯工业策进会和五间有意愿共同推动电脑中文化的资讯公司所共同创立,故称大五码。此五间公司为:宏碁、神通、佳佳、零壹及大众。
  Big5码的产生,是因为当时台湾不同厂商各自推出不同的编码,如IBM 5550、王安码等,彼此不能兼容;另一方面,台湾当时尚未推出官方的汉字编码,而中华人民共和国所推行的 GB?2312 编码,亦未有收录繁体中文字。在这样的时空背景下,为了使台湾早日进入资源时代,所采行的一个计画;同时,这个计画对于以台湾为核心的亚洲繁体汉字圈也产生了久远的影响。
  在Big5码诞生后,大部分台湾的电脑软件都使用了Big5码,加上后来倚天中文系统的高度普及,使后来的微软 Windows3.1等亦予以采用。虽然后来台湾还有各种想要取代Big5码,像是倚天中文系统所推行的倚天码、中华民国中文电脑公会所推动的公会码等,但是由于Big5字码已沿用多年,因此在习惯不易改变的情况下,始终无法成为主流字码。而台湾以后发展的国家标准中文交换码 (CNS?11643) 由于先天所限,必须使用3字节来表示一个中文字,与现行英语软件欠缺兼容,所以普及率远远不及Big5码。
  现在,除了台湾外,其他使用繁体汉字的地区,如香港、澳门,还有海外华人,都普遍使用Big5码。这已经成为繁体中文显示的标准格式。
  自中文电脑流行后,由于很多日常用字被视为异体字而未收录。很多人,甚至电视台的字幕、报纸的用字习惯都被改变。
  例如,台湾教育部视“着”为“著”的异体字,故没有收录“着”字。康熙字典中的一些部首用字(如“亠”、“疒”、“辵”、“癶”等)、常见的人名用字(如“堃”(中华民国总统府秘书长游锡堃)、“煊”(前财政部长王建煊)、“栢”(歌手张柏芝)、“喆”(歌手陶喆)等),虽被中文社会广泛采用,也没有收录到Big5之中。
  在因特网上,实在不难看到人们把游锡堃、王建煊、陶喆等名字,写成为“游锡方方土”、“王建火宣”和“陶吉吉”等写法。电视上日本动画的中文字幕中也会看到像"木坚"木这样的字。
  由于Big5码内的一万多个字,只是根据中华民国教育部颁布的《常用国字标准字体表》、《次常用国字标准字体表》等用字汇编而成,并没有考虑社会上流通的人名、地名用字、方言用字、化学及生物科等用字,亦没有放入日语平假名及片假名字母。所以在市面上支援Big5码的软件,有不少都自行在原本的编码外,添加一些符号及用字。

汉字编码-繁体字大全 在线繁体字转换工具