茗 香 茶 楼
登录
| 实名认证,暂停注册
|
在线情况
|
搜索
|
帮助
茗香茶楼
→
百家争茗
→
技术交流
→
文本文件几种编码的区别
本地收藏
QQ书签
百度搜藏
雅虎收藏
文本文件几种编码的区别
发起人:
孙帅
回复数:
1
浏览数:
8730
最后更新:2021/9/1 14:44:43 by
chql001
简洁模式
完整模式
选择查看
搜索更多相关主题
帖子排序:
从旧到新
从新到旧
查看 孙帅 的资料
给 孙帅 发送邮件
浏览 孙帅 的主页
搜索 孙帅 的帖子
2021/8/31 11:30:02
[
只看该作者
]
#1
孙帅
中级茶艺师
角 色:茶楼经理
发 帖 数:527
经 验 值:1008
注册时间:2008/7/11
联系
编辑
删除
文本文件几种编码的区别
电脑中的txt文本文档,有ANSI、Unicode、Unicode big endian、UTF-8四种形式。
为使计算机支持更多语言,通常使用 0x80~0xFFFF 范围的 2 个 字节来表示 1 个字符。比如:汉字 '中' 在中文操作系统中,使用 [0xD6,0xD0] 这两个字节存储。
不同的国家和地区制定了不同的标准,由此产生了 GB2312、GBK、GB18030、Big5、Shift_JIS 等各自的编码标准。这些使用多个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码。在简体中文Windows操作系统中,ANSI 编码代表 GBK 编码;在繁体中文Windows操作系统中,ANSI编码代表Big5;在日文Windows操作系统中,ANSI 编码代表 Shift_JIS 编码。
不同 ANSI 编码之间互不兼容,当信息在国际间交流时,无法将属于两种语言的文字,存储在同一段 ANSI 编码的文本中。
ANSI编码表示英文字符时用一个字节,表示中文用两个或四个字节。
我们可以用下面的实验,直观比较一下不同编码的区别:
在一个文件夹里,把一个txt文本(文本里包含“今天的天气非常好”这句话)分别另存为ansi、unicode、utf-8这三种编码的txt文件。然后,在该文件夹上点击右键,选择“搜索(E)…”。
搜索“天气”二字,可以搜索出ansi和unicode这两种编码的txt文件,搜索不出utf-8编码的文件。
原因:
1.中文操作系统默认ansi编码,生成的txt文件默认为ansi编码,所以,可以搜索出来。
2.unicode是国际通用编码,所以,可以搜索出来。
3.utf-8编码是unicode编码在网络之间(主要是网页)传输时的一种“变通”和“桥梁”编码。utf-8在网络之间传输时可以节约数据量。所以,使用操作系统无法搜索出txt文本。
按照utf-8创始人的愿望:
端(unicode)——传输(utf-8)——端(unicode)
但是,后来,许多网站开发者在开发网页时直接使用utf-8编码。
端(utf-8)——传输(utf-8)——端(utf-8)
所以,在浏览器上看到的编码是:unicode(utf-8)。正因为在浏览器上这么并列地列出unicode(utf-8),造成许多网友(甚至不少程序员)误认为unicode=utf-8。其实,按照utf-8创始人的原意,在开发网页时使用utf-8编码是错误的做法,并且,早期的浏览器也不支持解析utf-8编码。但是,众人的力量是巨大的,微软不得不“趋炎附势”,在浏览器上支持解析utf-8编码。
问题是:utf-8编码影响了网站开发者,或者说,网站开发者“扩展”了utf-8编码的使用范围。但是,网站开发者仍然无法影响各类文档的开发者,所以,word文档和一些国际通用的文档仍然使用unicode编码而不使用utf-8编码。
比如:“严”的Unicode码是4E25,UTF-8编码是E4B8A5,两者是不一样的。
在中文和日文操作系统里生成的(txt和xml)文件的编码虽然都是ansi,但是,在简体中文系统下,ansi 编码代表 GB2312 编码,在日文操作系统下,ansi 编码代表 JIS 编码。不同 ansi 编码之间互不兼容,当信息在国际间交流时,无法将属于两种语言的文字,存储在同一段 ansi 编码的文本中。
结论:国际文档(txt和xml)使用unicode编码是正宗做法;操作系统和浏览器都能够“理解”unicode编码。浏览器“迫于压力”才“理解”utf-8编码。但是,操作系统有时只认unicode编码。
Unicode与Unicode big endian的区别:你吃鸡蛋时先吃小头还是先吃大头?Unicode与Unicode big endian的区别就是在编码时小头优先与大头优先的区别。“随波逐流”使用Unicode就OK了。
祝福
CCTV5在线直播
你是哪个公主
生日礼物
繁体字转换
阿拉丁神灯
免费领养QQ宠物猪
爱的烟花
我心永恒
查看 chql001 的资料
给 chql001 发送邮件
搜索 chql001 的帖子
2021/9/1 14:44:43
[
只看该作者
]
#2
chql001
有空来坐坐
角 色:注册用户
发 帖 数:9
经 验 值:10
注册时间:2021/5/26
联系
编辑
删除
666666666666666666666666666666666666666666666666666666666666666666666
祝福
CCTV5在线直播
你是哪个公主
生日礼物
繁体字转换
阿拉丁神灯
免费领养QQ宠物猪
爱的烟花
我心永恒
用户在线信息
当前查看此主题的会员:
1
人。其中注册用户
0
人,访客
1
人。
正在加载...
关于本站
版权声明
联系本站
意见建议
大事记
Powered by BBSXP 2008 MSSQL © 1998-2024 Yuzi.Net
Processed in 00.61 second(s)
Server Time 2024/10/15 16:31:48