当前位置:  编程技术>c/c++/嵌入式

C语言中的BYTE和char深入解析

    来源: 互联网  发布时间:2014-10-21

    本文导语:  例如,在下面的源程序中“""”之内的“你”、“好”、“,”、“C”、“!”、“n”就属于程序要处理的字符。 代码如下:#include int main(void){      printf("你好,C!n");         return 0;}    该源程序中的其他字符则属于书...

例如,在下面的源程序中“""”之内的“你”、“好”、“,”、“C”、“!”、“n”就属于程序要处理的字符。

代码如下:

#include
int main(void)
{
      printf("你好,C!n");  
      return 0;
}   

该源程序中的其他字符则属于书写源程序的字符,这其中也可能包含并没有明显显示出来的字符,例如空格字符(space character)、水平制表符(horizontal tab)、垂直制表符(vertical tab)和换页符(form feed)。

从某种意义上来说,编辑/编译器是一种接受字符输入,输出可执行文件的软件,由它产生可执行文件经过加载成为内存中的程序,这个程序通常也不可避免地要处理字符。

编辑/编译器与它生产出的应用程序并不一定运行在同一个环境中,这就意味着两者可能要各自处理不同的字符集合。

编辑/编译器所要处理的字符就是书写C语言源程序所用的字符,这种字符的集合叫源字符集(sourcecharacter set)。而应用程序要处理的字符所构成的集合叫执行字符集(execution character set)。

对于多数C语言学习者来说,由于编辑/编译环境与应用程序运行环境是重合的,可能意识不到源字符集与执行字符集之间的区别。

•源字符集(source character set)
源字符集中的字符就是编写C语言源程序的字符,也就是C语言要求编辑/编译器所运行的环境所提供的字符。这套字符由这几部分组成:基本字符集(basic character set)、表示换行的字符(new-line character)和扩展字符(extended characters)。

基本字符集(basic character set)包括:

A B C D E F G H I J K L M

N O P Q R S T U V W X Y Z

a b c d e f g h i j k l m

n o p q r s t u v w x y z

0 1 2 3 4 5 6 7 8 9

! " # % & ' ( ) * + , - . / :

; < = > ? [ ] ^ _ { | } ~

空格(space character)

控制符:horizontal tab, vertical tab, form feed

一共是95个。这就是C语言对编辑/编译器运行环境的最基本的要求,言外之意就是只要编辑/编译器所运行环境提供这95个字符就可以编写C语言程序了。事实上C语言源程序也“主要”地由这95个字符组成。

此外,C语言还要求在编辑/编译器运行的环境中,0~9这十个字符的编号(编码)必须是连续的。

遗憾的是,有些环境无法全部提供这95个字符。例如,据说有些国家的键盘上压根就没有“[”这个键。

由于存在这种情况,所以C语言也容许用所谓的三字符序列(trigraph)来表示那些环境不提供的字符。比如用“??”表示“}”。下面的代码尽管看起来有些怪异,然而依然是合法的C程序。

代码如下:

#include
int main(void)
 ?? 

编译器也可以对基本字符集自行进行扩展,这就是所谓的扩展字符(extended characters)。前面代码中的“你”、“好”就属于扩展字符。这些扩展字符只能出现在标识符、字符常量、字符串字面量、头名(header name)、注释以及某些预处理单词(preprocessing token that is never converted to a token)中。代码的其他其他部分出现扩展字符则是一种未定义行为。

扩展字符的值是由具体的编译器定义的。源程序可以使用的所有字符的集合叫做扩展字符集(extended character set)。

•执行字符集
应用程序运行的环境中的字符集(the execution character set)也是一种扩展字符集(extended character set)。

其中也必须包括前面提到的源字符集中的那95个基本字符集,0~9这十个字符的编码也必须是连续的。

特别需要注意的是,C语言并没有要求执行环境中的基本字符集和编辑/编译环境中的基本字符集具有相同的编码方式,尽管这两个基本字符集的“符”是相同的。

执行环境中必须提供的字符还有alert,backspace,carriage return,new line以及一个各位都为0的字符(null character)。

执行环境中程序可以处理的其他字符也被叫做扩展字符(extended characters),这些扩展字符与基本字符集以及alert,backspace,carriage return,new line和null character共同构成了执行环境中的扩展字符集(extended character set),或称之为执行字符集(the execution character set)。

对于执行环境来说,扩展字符(extended characters)同样是由编译器自行定义的。

•C语言中的Byte
C语言中的Byte,如同int等类型类似,同样不是一个确定长度的位组。C语言只是要求Byte能放得下执行环境中和编辑/编译环境中基本字符集的编码。这样在某些编译器中C语言中的Byte是9位就不难理解了,这并不违背C语言的基本定义。

同样的道理,如果在编辑/编译环境中,基本字符集的编码是8位,而在运行环境中基本字符集的编码是16位的话,那么Byte的大小显然就必须至少为16位。

由此可见,在C语境中的Byte并非是平时普遍认为的octet(8位组)。

•C语言中的char数据类型
C语言中的char数据类型是一种整数类型(integer type),它的大小被定义为1个Byte。亦即

sizeof (char)  ≡ 1

若需要知道某个具体编译器的Byte究竟是多少位,可以查看编译器提供的limits.h。其中定义的符号常量CHAR_BIT就是char类型的位数,也就是Byte的位数。

补充:

C标准的矛盾?

"addressable unit of data large enough to hold any member of the basic character set of the execution environment" (clause 3.6 of the C standard)

可是在5.2.1-3中

The representation of each member of the source and execution basic character sets shall fit in a byte.


    
 
 

您可能感兴趣的文章:

  • C语言二维条形码解析库 libqrencode
  • C语言的XML解析器 iksemel
  • 用C语言如何组装和解析XML报文???
  • C 语言的 JSON 解析器 BeneJSON
  • 表达式语言解析器 Commons EL
  • C语言的异步DNS解析库 c-ares
  • C语言DNS解析器 dns.c
  • C语言的HTML解析库 libhtml
  • 请问脚本语言 解析器的工作原理?
  • 在做FTP服务端,请问哪位有解析LIST命令的C语言代码?
  • 纯C语言实现的HTML5解析库 Gumbo
  • C语言解析XML报文的问题
  • 深入解析C语言中常数的数据类型
  • 解析c语言中"函数调用中缺少哨兵"的情况分析
  • C语言static修饰函数详细解析
  • C语言的指针类型详细解析
  • c语言中static和extern的用法详细解析
  • 解析c语言switch中break语句的具体作用
  • 解析C语言中位字段内存分配的问题
  • C语言typedef与复杂函数声明问题的深入解析
  • 深入理解:Java是类型安全的语言,而C++是非类型安全的语言
  • 深入c语言continue和break的区别详解
  • 深入C语言把文件读入字符串以及将字符串写入文件的解决方法
  • 利用C语言实践OOP,以及new,delete的深入分析
  • 深入理解C语言的逻辑控制
  • 基于C语言中野指针的深入解析
  • Android笔记之:深入为从右向左语言定义复杂字串的详解
  • 深入理解C语言 static、extern与指针函数
  • 基于C语言指令的深入分析
  • 深入理解c语言数组
  • 深入C语言内存区域分配(进程的各个段)详解
  •  
    本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
    本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。












  • 相关文章推荐
  • 请教高人:AT&T汇编语言中把.byte .word .long的问题?
  • 2013年7月和2013年8月编程语言排行榜
  • 如何在GTK2.0下实现国际化(语言选择根据自己设置的语言,不用系统的语言)
  • 2017 年热门编程语言排行榜出炉,你的语言上榜没?
  • C语言中有指针,因此C语言可以创建链表,那么Java语言没有指针,那Java是否可以创建链表呢?
  • 苹果OS X和IOS下最新编程语言swift介绍
  • 求助,在linux下,c语言和汇编语言的接口是什么?
  • c语言判断某一年是否为闰年的各种实现程序代码
  • C语言中间语言 CIL
  • PHP编程语言介绍及安装测试方法
  • 最近学JSP,苦于HTML语言和JAVA语言太差,请教推荐几本书,thanks.
  • Linux下C语言strstr()查找子字符串位置函数详细介绍(strstr原型、实现及用法)
  • 动态编程语言 LIME编程语言
  • c语言实现MD5算法完整代码示例
  • C语言如何改变当前语言环境
  • 以NetBeans IDE为例介绍如何使用XML中Schema语言
  • 如何在VIM中使汇编语言和C语言自动缩进?
  • c语言基于libpcap实现一个抓包程序过程
  • 我安装的linux时默认语言选择的是中文,又乱码,怎么可以解决?怎么更改默认语言成英文?
  • HTML超文本标记语言教程及实例
  • Redhat9安装时语言只选择了中文,现在还能再增加其它语言的支持吗?如英文
  • MD5算法的C语言实现
  • 请问哪里有ubuntu 9.0版本的中文语言包和KDE的中文语言包下载,我用Google搜索了很多地方都没有!


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3