感悟网 导航

什么是国标码?机内码/机外码?字型码? 11汉字的内码和外码有什么区别?

作者&投稿:广钢 (若有异议请与网页底部的电邮联系)
简答一个中文汉字的外码、国标码、机内码、字形码之间的关系?~

简答一个中文汉字的外挂蝈蝈马精马字马之间的关系,他们都是一扣一环扣一环的。

输入码:

又称汉字外码,无论是区位码或国标码都不利于输入汉字,为方便汉字的输入而制定的汉字编码,称为汉字输入码。汉字输入码属于外码。不同的输入方法,形成了不同的汉字外码。常见的输入法有以下几类:

按汉字的排列顺序形成的编码(流水码):如区位码;

按汉字的读音形成的编码(音码):如全拼、简拼、双拼等;

按汉字的字形形成的编码(形码):如五笔字型、郑码等;

按汉字的音、形结合形成的编码(音形码):如自然码、智能ABC

国标码:

计算机只识别由0、1组成的代码,ASCII码是英文信息处理的标准编码,汉字信息处理也必须有一个统一的标准编码,所以国标码应运而生。所谓“国标码”,是指国家标准汉字编码。一般是指国家标准局1981年发布的《信息交换用汉字编码字符集(基本集)》,简称GB-2312。在这个集中,收进汉字6763个,其中一级汉字3755个,二级汉字3008个。一级汉字为常用字,按拼音顺序排列,二级汉字为次常用字,按部首排列。

区位码:

简单地理解的话,区位码就是国标码,但也是有些区别的,

在GB-2312中预留了一些空位,可以进行补充、扩展,经扩展的区位码就从数量、范围上超过了GB-2312(6763)了。上面是就大陆而言的,台湾、香港、和其他汉语国家,也是用区位码,但他们的区位号与大陆用的就不一定相同了。

机内码(汉字内码):

计算机还不能将国标码作为汉字在计算机中的机内码,因为会和ASCII码发生冲突,如“保”,国标码为31H和23H,而西文字符“1”和“#”的SCII也为31H和23H,现假如内存中有两个字节为31H和23H,;这到底是一个汉字?,还是两个西文字符“1”;和“#”呢,于是就有了冲突。所以国家标准规定将汉字国标码每个字节的最高位统一规定为“1”作为识别汉字代码的标志,首位是“0”即为字符,首位是“1”即为汉字,这样就形成了机内码。汉字在计算机中是用机内码来表示的。

区位码,国标码,机内码的转换

(1)区位码先转换成十六进制数表示

(2)(区位码的十六进制表示)+2020H=国标码;

(3)国标码+8080H=机内码

字型码

汉字输出码提供输出汉字时所需要的汉字字型,用以将机内码还原为汉字进行输出。由于汉字是由笔画组成的方字,所以对汉字来讲,不论其笔画多少,都可以放在相同大小的方框里,如用M行N列的小圆点组成的方块(称为汉字的字模点阵),那么每个汉字都可以用点阵中的一些点组成。每个点用一位二进制表示,有笔形的为1,否则为0,就可得到该汉字的字形码。全部汉字字码的集合叫汉字字库。

总的来说,为方便汉字输入而形成的汉字编码为输入码,属于汉字的外码,输入码因编码方式不同而不同。为在计算机内表示汉字而统一的编码方式形成汉字编码叫国标码,计算机还不能将国标码作为汉字在计算机中的表现形式,因为会和ASCII码发生冲突,所以又产生了汉字的机内码,机内码是惟一的。为显示和打印输出汉字而形成的汉字编码为字型码,计算机通过汉字内码在字模库中找出汉字的字型码,实现其转换。

计算机中汉字的表示也是用二进制编码,同样是人为编码的。根据应用目的的不

同,汉字编码分为外码、交换码、机内码和字形码。1.外码(输入码)�

外码也叫输入码,是用来将汉字输入到计算机中的一组键盘符号。英文字母只有26个,可以把所有的字符都放到键盘上,而使用这种办法把所有的汉字都放到键盘上,是不可能的。所以汉字系统需要有自己的输入码体系,使汉字与键盘能建立对应关系。目前常用的输入码有拼音码、五笔字型码、自然码、表形码、认知码、区位码和电报码等,一种好的编码应有编码规则简单、易学好记、操作方便、重码率低、输入速度快等优点,每个人可根据自己的需要进行选择。在后面的章节中,重点介绍智能全拼输入法和五笔字型输入法。�

2.交换码�

计算机内部处理的信息,都是用二进制代码表示的,汉字也不例外。而二进制代码使用起来是不方便的,于是需要采用信息交换码。我国标准总局1981年制定了中华人民共和国国家标准GB2312--80《信息交换用汉字编码字符集--基本集》,即国标码。国标码字符集中收集了常用汉字和图形符号7445个,其中图形符号682个,汉字6763个,按照汉字的使用频度分为两级,第一级为常用汉字3755个,第二级为次常用汉字3008个。为了避开ASCII字符中的不可打印字符0100001--1111110(十六进制为21-7E),国标码表示汉字的范围为2121--7E7E(十六进制)。�

区位码是国标码的另一种表现形式,把国标GB2312--80中的汉字、图形符号组成一个94×94的方阵,分为94个“区”,每区包含94个“位”,其中“区”的序号由01至94,“位”的序号也是从01至94。94个区中位置总数=94×94=8836个,其中7445个汉字和图形字符中的每一个占一个位置后,还剩下1391个空位,这1391个位置空下来保留备用。所以给定“区”值和“位”值,用四位数字就可以确定一个汉字或图形符号,其中前两位是“区”号。后两位是“位”号,如“普”字的区位码是“3853”,“通”字的区位码是“4508”。区位码编码的最大优点是没有重码,但由于编码缺少规律,很难记忆。使用区位码的主要目的是为了输入一些中文符号或无法用其它输入法输入的汉字、制表符以及日语字母、俄语字母、希腊字母等。94个区可以分为五组:�

01--15区:是各种图形符号、制表符和一些主要国家的语言字母,其中01--09区为标准符号区,共有682个常用符号。�

10--15区:为自定义符号区,可留作用户自己定义。�

16--55区:是一级汉字区,共有3755个常用汉字,以拼音为序排列。�

56--87区:是二级汉字区,共有3008个次常用汉字,以部首为序排列。�

88--94区:自定义汉字区,可留作用户自己定义。�

3.机内码�

根据国标码的规定,每一个汉字都有了确定的二进制代码,但是这个代码在计算机内部处理时会与ASCII码发生冲突,为解决这个问题,把国标码的每一个字节的首位上加1。由于ASCII码只用7位,所以,这个首位上的“1”就可以作为识别汉字代码的标志,计算机在处理到首位是“1”的代码时把它理解为是汉字的信息,在处理到首位是“0”的代码时把它理解为是ASCII码。经过这样处理后的国标码就是机内码。�

汉字的机内码、国际码和区位码之间的关系是:�

(汉字机内码前两位)16=(国标码前两位)16+80H=(区码)16+A0H�

(汉字机内码后两位)16=(国标码后两位)16+80H=(区码)16+A0H�

把用十六进制表示的机内码的前两位和机内码的后两位连起来,就得到完整的用十六进制表示的机内码。在微机内部汉字代码都用机内码,在磁盘上记录汉字代码也使用机内码。�

4.汉字的字形码�

字形码是汉字的输出码,输出汉字时都采用图形方式,无论汉字的笔画多少,每个汉字都可以写在同样大小的方块中。为了能准确地表达汉字的字形,对于每一个汉字都有相应的字形码,目前大多数汉字系统中都是以点阵的方式来存储和输出汉字的字形。所谓点阵就是将字符(包括汉字图形)看成一个矩形框内一些横竖排列的点的集合,有笔画的位置用黑点表示,没笔画的位置用白点表示。在计算机中用一组二进制数表示点阵,用0表示白点,用1表示黑点。一般的汉字系统中汉字字形点阵有16×16、24×24、48×48几种,点阵越大对每个汉字的修饰作用就越强,打印质量也就越高。通常用16×16点阵来显示汉字,每一行上的16个点需用两个字节表示,一个16×16点阵的汉字字形码需要2×16=32个字节表示,这32个字节中的信息是汉字的数字化信息,即汉字字模。下面以“口”为例看看16×16点阵字形是怎样存放的(如图3--1)。�

如果我们把这个“口”字图形的“.”处用“0”代替,就可以很形象地得到“口”的字形码:0000H 0004H 3FFAH 2004H 2004H 2004H 2004H 2004H 2004H 2004H 2004H 2004H 3FFAH 2004H 0000H 0000H。计算机要输出“口”时,先找到显示字库的首址,根据“口”的机内码经过计算,再去找到“口”的字形码,然后根据字形码(要用二进制)通过字符发生器的控制在屏幕上进行依次扫描,其中二进制代码中是“0”的地方空扫,是“1”的地方扫出亮点,于是就可以得到“口”的字符图形。�

字模按构成字模的字体和点阵可分为宋体字模、楷体字模等等,这些是基本字模。基本字模经过放大、缩小、反向、旋转等交换可以得到美术字体,如长体、扁体、粗体、细体等等。汉字还可以分为简体和繁体两种,ASCII字符也可分为半角字符和全角字符。汉字字模按国标码的顺序排列,以二进制文件形式存放在存储器中,构成汉字字模字库,亦称为汉字字形库,称汉字库。����

0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7

0 . . . . . . . . . . . . . . . .

1 . . . . . . . . . . . . . 1 . .

2 . . 1 1 1 1 1 1 1 1 1 1 1 1 . .

3 . . 1 . . . . . . . . . . 1 . .

4 . . 1 . . . . . . . . . . 1 . .

5 . . 1 . . . . . . . . . . 1 . .

6 . . 1 . . . . . . . . . . 1 . .

7 . . 1 . . . . . . . . . . 1 . .

0 . . 1 . . . . . . . . . . 1 . .

1 . . 1 . . . . . . . . . . 1 . .

2 . . 1 . . . . . . . . . . 1 . .

3 . . 1 . . . . . . . . . . 1 . .

4 . . 1 1 1 1 1 1 1 1 1 1 1 1 . .

5 . . 1 . . . . . . . . . . 1 . .

6 . . . . . . . . . . . . . . . .

7 . . . . . . . . . . . . . . . .

图1-6 “口”字的16×16点阵字形图
参考资料: http://www.sxftc.edu.cn/course/school/pc_basic/jiaoan/1.4.htm

《国标码和机内码有什么区别。》
答:一个汉字的机内码与国标码之间的差别是前者各字节的最高位二进制值各为1,而后者为0。机内码是汉字最基本的编码,不管是什么汉字系统和汉字输入方法,输入的汉字外码到机器内部都要转换成机内码,才能被存储和进行各种处理。国家标准局颁布的《信息交换用汉字编码字符集基本集》(代号为GB2312 80)规定...

《汉字的国标码与机内码有什么区别》
答:汉字有两种编码:国标码与机内码。国标码是"中华人民共和国国家标准信息交换汉字编码",代号为"GB2312-80"。在国标码的字符集中,收集了一级汉字3755个,二级汉字3008个,图形符号682个,共7445个。一个汉字对应一个区位码,由四位数字组成,前两位数字为区码(0~94),后两位数字为位码(0~94)。

《计算机机内码,国标码,区位码的问题》
答:这样既解决了汉字机内码与西文机内码之间的二义性,又使汉字机内码与国标码具有极简单的对应关系。汉字交换码:汉字信息处理系统之间或通信系统之间传输信息时,对每一个汉字所规定的统一编码,我国已指定汉字交换码的国家标准“信息交换用汉字编码字符集——基本集”,代号为GB 2312—80,又称为“国标码...

《汉字进行传输处理和存储时用的是国标码还是机内码?》
答:在电脑内部对汉字进行传输处理和存储时使用汉字的机内码。电脑内部汉字信息的存储运算的代码有四种:输入码、国标码、内码和字型码。输入码:包括拼音编码和字型编码。微软拼音ABC就是拼音编码,五笔字型输入法就是字型编码。国标码:又称为汉字交换码,在计算机之间交换信息用。用两个字节来表示,每个...

《国标码是不是机内码》
答:其变换方法为:将国标码的每个字节都加上128,即将两个字节的最高位由0改1,其余7位不变,因此机内码前后字节最高位都为1。如:“保”字的国标码为3123H,前字节为00110001B,后字节为00100011B,高位改1为10110001B和10100011B 即为B1A3H,因此,汉字的机内码就是B1A3H。通常,在DOS下的各汉字...

《国标码、机内码、外码、ASCII码的区别是什么啊?谢谢~~》
答:外码也称为汉字输入码。ASCII码是国际上广泛使用的字符编码,用于西文字符。国标码是我国于1981年颁布的汉字编码国家标准,用于汉字编码。在计算机内部用来进行汉字存储、操作的编码称为汉字的机内码或称内码。

《汉字的机内码与国标码之间的差别是》
答:各字节的最高位二进制值不同。机内码是汉字交换码两个字节的最高位分别加1,汉字的机内码各字节的最高位二进制值各为1,而国标码为0。汉字的机内码与国标码之间的差别是各字节的最高位二进制值不同。汉字机内码,又称“汉字ASCII码”,简称“内码”,指计算机内部存储,处理加工和传输汉字时所用...

《请问汉字国际码与机内码有什么区别》
答:汉字编码用两个字节进行编码,每个字节的最高位为0,这就是国标码。但如果就这样放入电脑,就会与一个字节的ASCII冲突。为此,规定放入机器时每个字节的最高位都置为1,这就是机内码。可以将机内码看作是国标码的变形。它们的区别就是每个字节的最高位是否为1。

《国标码是什么?》
答:问题二:什么是国标码 1.汉字信息的编码知识 ⑴国标码:是指我国1981年公布的“中华人民共和国国家标准信息交换汉字编码”,代号为“GB2312-80”。由连续的两个字节组成。 2.机内码:在计算机内表耽汉字的代码是汉字机内码,汉字机内码由国标码演化而来,把表示国标码的两个字节的最高位分别加“1”,就变成汉字机...

《机内码和国标码的区别》
答:用途、编码范围、字符集等。1、用途:机内码是计算机内部用于存储和处理汉字的编码;而国标码是国家标准规定的汉字编码。2、编码范围:机内码的编码范围通常是由计算机系统决定的;而国标码的编码范围是根据国家标准确定的。3、字符集:机内码所使用的字符集通常是计算机系统所支持的字符集;而国标码所使用...

   

返回顶部
本页内容来自于网友发表,若有相关事宜请照下面的电邮联系
感悟网