下载此文档

Unicode和多语言信息处理.ppt


文档分类:IT计算机 | 页数:约25页 举报非法文档有奖
1/25
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/25 下载此文档
文档列表 文档介绍
Unicode Unicode 和多语言信息处理和多语言信息处理 adoal adoal 内容内容早期的本地化技术早期的本地化技术软件国际化和多语言信息处理的需求软件国际化和多语言信息处理的需求常见字符集、编码介绍常见字符集、编码介绍 Unicode Technology Unicode Technology 简介简介开发支持开发支持 Unicode Unicode 的程序的程序 时代的多语言信息处理时代的多语言信息处理相关资源相关资源不涉及文字消息(界面)本地化不涉及文字消息(界面)本地化早期的本地化技术早期的本地化技术问题的历史起因问题的历史起因––电子计算机源起于英美,较少考虑国际需求电子计算机源起于英美,较少考虑国际需求––早期不面向普通用户,无交互早期不面向普通用户,无交互早期的本地化努力早期的本地化努力––互相独立缺乏沟通合作互相独立缺乏沟通合作––逆向工程、***,支持不彻底逆向工程、***,支持不彻底––应用软件要做个例修改,缺乏复用应用软件要做个例修改,缺乏复用––早期汉化的重要成果: 早期汉化的重要成果: GB2312 GB2312 标准标准基于国际化的本地化基于国际化的本地化抽象出共同部分做成框架抽象出共同部分做成框架应用程序接口国际化核心功能本地化数据定义接口英文定义俄文定义中文定义……文字处理数据库多媒体……基于国际化的本地化-续基于国际化的本地化-续成果成果––抽象框架,功能复用,简化开发过程抽象框架,功能复用,简化开发过程––可加载的本地化模块,易于扩展可加载的本地化模块,易于扩展––宽字符机制,避开多字节编码的字节边界宽字符机制,避开多字节编码的字节边界缺陷缺陷––编码空间不兼容,导致编码空间不兼容,导致““乱码乱码””––即使使用宽字符,不同语言的文字也无法共同即使使用宽字符,不同语言的文字也无法共同处理处理乱码一例乱码一例 GBK GBK –– Byte1 : [0x81, 0xFE] Byte1 : [0x81, 0xFE] –– Byte2 : [0x40, 0xFE] Byte2 : [0x40, 0xFE] Latin-1 Latin-1 –– Single byte : [0xA0, 0xFF] Single byte : [0xA0, 0xFF] 序列序列 0xF1,0x61 0xF1,0x61 如何解释? 如何解释? ––在在 GBK GBK 里是馻里是馻––在在 Latin-1 Latin-1 里是里是? ?a a馻馻? ?a a 多语言需求的解决方法多语言需求的解决方法问题:字符集太小问题:字符集太小––解决:设计大字符集并预留扩充位解决:设计大字符集并预留扩充位问题:编码空间冲突问题:编码空间冲突––解决:设计新的编码方式解决:设计新的编码方式––有状态编码,使用转义序列有状态编码,使用转义序列局部兼容性,编程复杂局部兼容性,编程复杂––无状态编码,为每个编码点保留唯一编码值无状态编码,为每个编码点保留唯一编码值需要码表转换,编程简单需要码表转换,编程简单常见字符集和编码常见字符集和编码 ASCII ASCII –– American Standard Code for Information American Standard Code for Information Interchange Interchange ––起源于美国国会图书馆起源于美国国会图书馆––等同于等同于 ISO 646 ISO 646 ––包含英文大小写字母、阿拉伯数字、标点符号、包含英文大小写字母、阿拉伯数字、标点符号、控制符控制符––7 7位编码位编码––是后来各种字符集、编码的兼容性参考是后来各种字符集、编码的兼容性参考常见字符集和编码-续常见字符集和编码-续 ISO-8859 ISO-8859 ––扩充了扩充了 ASCII ASCII ,加入欧洲语言的字母和符号,加入欧洲语言的字母和符号––8 8位编码,扩充部分在位编码,扩充部分在 b7=1 b7=1 的区域,避开控制的区域,避开控制符,与符,与 ASCII ASCII 兼容兼容––分为多个扩展集,适应不同文字分为多个扩展集,适应不同文字 ISO-8859-1 ISO-8859-1 西欧西欧 ISO-8859-5 ISO-8859-5 西里尔语西里尔语 ISO-8859-7 ISO-8859-7 希腊语希腊语 ISO-8859-15 ISO-8859-15 增加欧元符号增加欧元符号…………常见字符集和编码-续常见字符集和编码-续亚洲语言的字符集亚洲语言的字符集––中国大陆: 中国大陆: GB GB 系列系列––中国台湾: 中国台湾: S 、、 Big5 Big5 ––日本: 日本: JIS X JIS X

Unicode和多语言信息处理 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数25
  • 收藏数0 收藏
  • 顶次数0
  • 上传人2105194781
  • 文件大小543 KB
  • 时间2017-01-16