python字符串占多少字节(2023年最新整理)

导读:今天首席CTO笔记来给各位分享关于python字符串占多少字节的相关内容,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

字符数组占多少字节?

在定义字符数组用字符串常量进行初始化时,系统会自动在结尾加\'\\0\'做结束标志,所以数组array所占的空间为6个字节。

所谓数组,是有序的元素序列。[若将有限个类型相同的变量的集合命名,那么这个名称为数组名。组成数组的各个变量称为数组的分量,也称为数组的元素,有时也称为下标变量。

用于区分数组的各个元素的数字编号称为下标。数组是在程序设计中,为了处理方便, 把具有相同类型的若干元素按无序的形式组织起来的一种形式。 这些无序排列的同类数据元素的集合称为数组。

特点

1、数组是相同数据类型的元素的集合。

2、数组中的各元素的存储是有先后顺序的,它们在内存中按照这个先后顺序连续存放在一起。

3、数组元素用整个数组的名字和它自己在数组中的顺序位置来表示。例如,a[0]表示名字为a的数组中的第一个元素,a[1]代表数组a的第二个元素,以此类推。

以上内容参考:百度百科-数组

python字符串占多少字节(2023年最新整理)  第1张

某个字符串 占了多少个字节

不同的字符所占的字节是不同的。

ASCII码:

一个英文字母(不分大小写)占一个字节的空间,一个中文汉字占两个字节的空间。一个二进制数字序列,在计算机中作为一个数字单元,一般为8位二进制数,换算为十进制。最小值0,最大值255。如一个ASCII码就是一个字节。

UTF-8编码:

一个英文字符等于一个字节,一个中文(含繁体)等于三个字节。

Unicode编码:

一个英文等于两个字节,一个中文(含繁体)等于两个字节。

符号:

英文标点占一个字节,中文标点占两个字节。举例:英文句号“.”占1个字节的大小,中文句号“。”占2个字节的大小。

Python 字符集编码 - UTF-8 编码

Unicode 的编码范围为 0~0x10FFFF ,如此大的范围,显然没办法像 ASCII 编码一样使用一个字节存储。为此,Unicode 制定了各种储存编码的方式,如: UTF-8 、 UTF-16 和 UTF-32 ,这些存储格式被称为 Unicode 转换格式 UTF 。

每种 Unicode 转换格式都会把一个编码存储为一到多个编码单元,如 UTF-8 的编码单元为 8 位的字节; UTF-16 的编码单元为 16 位,即 2 个字节; UTF-32 的编码单元为 32 位,即 4 个字节。

其中, UTF-8 是在互联网上使用最广泛的一种 Unicode 转换格式,具有以下显著的优势。下面,我们就先来看看 UTF-8 具有哪些有点吧~

1. UTF-8 中每个 ASCII 字符只需要一个字节去存储,因此一个 ASCII 文本本身也是一个 UTF-8 文本,即做到了向后兼容。

比如 A 的 ASCII 码对应为 0x41 , a 的 ASCII 码对应为 0x61 ,那么 UTF-8 兼容 ASCII 也就意味着:

这里,需要再次提醒一下:Unicode 是表现形式,UTF-8 是存储形式;即 UTF-8 解码之后为 Unicode ,Unicode 可以编码成 UTF-8 。

2. UTF-8 采用字节为存储单元,因此不存在字节的大端和小段的问题。

UTF-16 和 UTF-32 的存储单元分别是 2 字节和 4 字节,因此在存储时会涉及到大小端的问题。那什么是大小端模式呢?下面我们来暂停补充一下~

关于如何获知你的环境使用的是大端模式还是小端模式,这里有个简单的方式:定义一个 short 类型的数组即可:

数字 1 在 short 类型中表示为 0x0001 ,高位为 0x00 ,低位为 0x01 。我们可以很直观地看到,数组在保存数据时,将高位 0x00 放在了高地址处,将低位 0x01 放在了低地址处。因此使用的就是小端模式。

那 UTF-8 为什么可以使用字节来作为存储单元,而不用担心字节序的问题呢?这就涉及到了 UTF-8 巧妙的编码规则~

UTF-8 最大的一个特点,就是它是一种变长的编码方式。它可以使用 1~4 个字节表示一个符号,根据不同的符号而变化字节长度。UTF-8的编码规则很简单,只有二条:

1)对于单字节符号,字节的第一位设为 0 ,后 7 位为这个符号的 Unicode 码。也就是我们上文提到的向后兼容:对于英文字母,UTF-8 编码和 ASCII 码是相同的。

2)对于使用 X 个字节存储的符号,第一个字节的前 X 位设置为 1 ,第 X+1 位设置为 0 ,后面字节的前 2 位一律设置为 10 ,剩下的位置一次填充这个符号的 Unicode 码。

下表总结了编码规则,字母 x 表示可用于编码的位:

跟据上表,解读 UTF-8 编码也非常简单:如果一个字节的第一位是 0 ,则这个字节单独就是一个字符;如果第一位是 1 ,则连续有多少个 1 ,就表示当前字符占用多少个字节。

下面,我们就来演示一下 UTF-8 编码的过程。

首先,获取汉字 鱼 的 Unicode 码:

我们不妨先对 鱼 这个汉字使用 utf-8 编码看看使用几个字节存储:

鱼 在 UTF-8 编码中使用 3 个字节存储,因此其存储的二进制的形式为 1110xxxx 10xxxxxx 10xxxxxx ,将 Unicode 1001 110001 111100 依次填充到占位符 x 的位置就得到: 11101001 10110001 10111100 。

下面,我们将上述推导得出的 11101001 10110001 10111100 转换为十六进制,验证一下是否为 b\'\\xe9\\xb1\\xbc\' :

验证无误!

python字符串里转义字符占几个个数

python字符串里转义字符占5个个数。转义字符是以为开头的字符,后面跟一个或几个字符,其意思是将反斜杠后面的字符转变成为另外的意义。

请问这个字符串占多少字节?

char

*s=\"\\ta\\017bc\";

一个个分析:

\\t,制表符,占一个字节

a,字母,占一个字节

\\017,转义八进制数,占一个字节(这里容易误认为是结束符\\0,其实不是)

b,字母,占一个字节

c,字母,占一个字节

字符串连续字符5个字节,最后还要加上一个字符串结束符\\0,占一字节

所以总共6字节

如何理解Python中字符

学过c的朋友都知道,字符(‘ ’)和字符串(“ ”)是不一样的,可是在python中,这些东西的方方面面的门道比较多,在我刚学习的时候也懵比了好一阵子,也就想着总结总结

首先我们需要了解的是在学习python中,可以简单地理解单引号,双引号,三引号,他们括起来的东西都是字符串,也就是说在开始学习python的过程中,就当做是没有字符一说

1,

通过上面的例子可以很容易的看清楚s,s1, s2 , s3都是字符串(通过type类型测试)

2,转义字符

我们简单提一下c的转义字符(’\\xhh‘, 注意这里的hh是两个,过多的话可能会超过,产生警告out of range),(’\\ddd‘,这里需要的是1-3位8进制的数,希望大家不要弄混)

[cpp] view plain copy

#include stdio.h

#include conio.h

int main(){

int a = \'\\113\';

int b = \'\\x13\';

printf(\"%d,, ,%d,,\", a, b);

getch();

}

结果如下:

75,, ,19,,

但是在python中,他们还是有挺大的区别的

我们可以看到,在上面的字符串s4里面有一个转义字符(\\n)存在,所以编译器对它的处理肯定和简单地字符串处理是不一样的

s4直接输出和print   S4输出之所以不同,是因为S4的直接输出就是输出s4本身,我们一开始就给了s4赋值了,而对于print  S4的输出,是因为print函数(python自带库函数)对S4进行了处理,在输出是发现里面有转义字符(\\n也就是换行的意思),所以是先输出abc,然后换行,紧接着输出456

这里还有一个是raw(破坏转义字符)python中将r放在包含有转义字符的字符串前面

这里我们也能直接看到,在print中转义字符的作用被破坏了,也就是说并不能起到换行的作用了

unicode编码也是如此,就是在带有转义字符的字符串前面加了一个u

unicode编码用两个字节(16位)来表示,而ascii码(8位)有一个字节来表示,汉子在ascii中不是很好的被支持,但是在unicode中可以好一点,16位,也就是65535个,容纳一般的汉子是够了,而且还知道字符编码是用十六进制来表示的,也就是说前面加上一个’0x‘,比如字母\"a\"的Unicode 编码是0x0061,十进制是97,而\"a\"的ASCII编码是0x61,十进制也是97,

但是千万注意c和python的区别

而且我们知道,python中本就不谈论对象的类型(并不像c分的那么细),所以我们可以理解为上面的那些字符串都是常量,我们并不可以更改这些内容,也是在一定的区域存放的

由上可知,我们随意更改一定会导致错误的,所以我们一定要注意

对于函数的返回值,我们也要值得注意:

[plain] view plain copy

def tur_a(val1, val2= 3):

n = val1 + val2

m = val1 - val2

l = val1 * val2

z = val1 /val2

return n, m, l, z

print \"go , go , go\"

b = tur_a(9)

print b

print b[0], b[1], b[2], b[3]

print \"game over\"

输出结果:

我们可以看到,对于一个函数返回多个值的时候,应该依次赋给相应个数的值,但是如果我们赋值给了一个变量的话,就相当于赋值了一个元组,当然,我们也可以通过加’【】‘的办法来获取具体的值,就如同c中的数组

对于字符串,当然我们也就不能忽略输入的这两个函数(input,raw_input),这里,我们应该注意的是它的返回值

input()的返回值是整数

raw_input()的返回值是字符型的

但是,这里我们可以通过int类型强转

最后简单提一下常用字符函数:

startswith:endswith,isalnum,isalpha,isdigit

s.startswith(s1):判断s字符串是不是以s1开头的,返回值为布尔类型

s.endswith(s1):同理,判断s字符串是不是以s1结束的,返回值同样为布尔类型

s.isalnum():判断s中是不是全是由数字和字母构成,并没有特殊字符,(哈哈,可以增加密码强度)

s.ialpha():判断s中是不是全是字母,返回布尔类型

s.isdigit();判断是否全为数字

哈哈,其实也挺好记的

结语:以上就是首席CTO笔记为大家整理的关于python字符串占多少字节的全部内容了,感谢您花时间阅读本站内容,希望对您有所帮助,更多关于python字符串占多少字节的相关内容别忘了在本站进行查找喔。

以上内容为新媒号(sinv.com.cn)为大家提供!新媒号,坚持更新大家所需的互联网后端知识。希望您喜欢!

版权申明:新媒号所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,不声明或保证其内容的正确性,如发现本站有涉嫌抄袭侵权/违法违规的内容。请发送邮件至 k2#88.com(替换@) 举报,一经查实,本站将立刻删除。

(0)
上一篇 2023-09-23 13:23
下一篇 2023-09-23 13:23

相关推荐

发表回复

登录后才能评论