python字符串占多少字节(2023年最新整理)

导读：今天首席CTO笔记来给各位分享关于python字符串占多少字节的相关内容，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

字符数组占多少字节？

在定义字符数组用字符串常量进行初始化时，系统会自动在结尾加\'\\0\'做结束标志，所以数组array所占的空间为6个字节。

所谓数组，是有序的元素序列。[若将有限个类型相同的变量的集合命名，那么这个名称为数组名。组成数组的各个变量称为数组的分量，也称为数组的元素，有时也称为下标变量。

用于区分数组的各个元素的数字编号称为下标。数组是在程序设计中，为了处理方便，把具有相同类型的若干元素按无序的形式组织起来的一种形式。这些无序排列的同类数据元素的集合称为数组。

特点

1、数组是相同数据类型的元素的集合。

2、数组中的各元素的存储是有先后顺序的，它们在内存中按照这个先后顺序连续存放在一起。

3、数组元素用整个数组的名字和它自己在数组中的顺序位置来表示。例如，a[0]表示名字为a的数组中的第一个元素，a[1]代表数组a的第二个元素，以此类推。

以上内容参考：百度百科-数组

python字符串占多少字节(2023年最新整理) 第1张

某个字符串占了多少个字节

不同的字符所占的字节是不同的。

ASCII码：

一个英文字母（不分大小写）占一个字节的空间，一个中文汉字占两个字节的空间。一个二进制数字序列，在计算机中作为一个数字单元，一般为8位二进制数，换算为十进制。最小值0，最大值255。如一个ASCII码就是一个字节。

UTF-8编码：

一个英文字符等于一个字节，一个中文（含繁体）等于三个字节。

Unicode编码：

一个英文等于两个字节，一个中文（含繁体）等于两个字节。

符号：

英文标点占一个字节，中文标点占两个字节。举例：英文句号“.”占1个字节的大小，中文句号“。”占2个字节的大小。

Python 字符集编码 - UTF-8 编码

Unicode 的编码范围为 0~0x10FFFF ，如此大的范围，显然没办法像 ASCII 编码一样使用一个字节存储。为此，Unicode 制定了各种储存编码的方式，如： UTF-8 、 UTF-16 和 UTF-32 ，这些存储格式被称为 Unicode 转换格式 UTF 。

每种 Unicode 转换格式都会把一个编码存储为一到多个编码单元，如 UTF-8 的编码单元为 8 位的字节； UTF-16 的编码单元为 16 位，即 2 个字节； UTF-32 的编码单元为 32 位，即 4 个字节。

其中， UTF-8 是在互联网上使用最广泛的一种 Unicode 转换格式，具有以下显著的优势。下面，我们就先来看看 UTF-8 具有哪些有点吧~

1. UTF-8 中每个 ASCII 字符只需要一个字节去存储，因此一个 ASCII 文本本身也是一个 UTF-8 文本，即做到了向后兼容。

比如 A 的 ASCII 码对应为 0x41 ， a 的 ASCII 码对应为 0x61 ，那么 UTF-8 兼容 ASCII 也就意味着：

这里，需要再次提醒一下：Unicode 是表现形式，UTF-8 是存储形式；即 UTF-8 解码之后为 Unicode ，Unicode 可以编码成 UTF-8 。

2. UTF-8 采用字节为存储单元，因此不存在字节的大端和小段的问题。

UTF-16 和 UTF-32 的存储单元分别是 2 字节和 4 字节，因此在存储时会涉及到大小端的问题。那什么是大小端模式呢？下面我们来暂停补充一下~

关于如何获知你的环境使用的是大端模式还是小端模式，这里有个简单的方式：定义一个 short 类型的数组即可：

数字 1 在 short 类型中表示为 0x0001 ，高位为 0x00 ，低位为 0x01 。我们可以很直观地看到，数组在保存数据时，将高位 0x00 放在了高地址处，将低位 0x01 放在了低地址处。因此使用的就是小端模式。

那 UTF-8 为什么可以使用字节来作为存储单元，而不用担心字节序的问题呢？这就涉及到了 UTF-8 巧妙的编码规则~

UTF-8 最大的一个特点，就是它是一种变长的编码方式。它可以使用 1~4 个字节表示一个符号，根据不同的符号而变化字节长度。UTF-8的编码规则很简单，只有二条：

1）对于单字节符号，字节的第一位设为 0 ，后 7 位为这个符号的 Unicode 码。也就是我们上文提到的向后兼容：对于英文字母，UTF-8 编码和 ASCII 码是相同的。

2）对于使用 X 个字节存储的符号，第一个字节的前 X 位设置为 1 ，第 X+1 位设置为 0 ，后面字节的前 2 位一律设置为 10 ，剩下的位置一次填充这个符号的 Unicode 码。

下表总结了编码规则，字母 x 表示可用于编码的位：

跟据上表，解读 UTF-8 编码也非常简单：如果一个字节的第一位是 0 ，则这个字节单独就是一个字符；如果第一位是 1 ，则连续有多少个 1 ，就表示当前字符占用多少个字节。

下面，我们就来演示一下 UTF-8 编码的过程。

首先，获取汉字鱼的 Unicode 码：

我们不妨先对鱼这个汉字使用 utf-8 编码看看使用几个字节存储：

鱼在 UTF-8 编码中使用 3 个字节存储，因此其存储的二进制的形式为 1110xxxx 10xxxxxx 10xxxxxx ，将 Unicode 1001 110001 111100 依次填充到占位符 x 的位置就得到： 11101001 10110001 10111100 。

下面，我们将上述推导得出的 11101001 10110001 10111100 转换为十六进制，验证一下是否为 b\'\\xe9\\xb1\\xbc\' ：

验证无误！

python字符串里转义字符占几个个数

python字符串里转义字符占5个个数。转义字符是以为开头的字符，后面跟一个或几个字符，其意思是将反斜杠后面的字符转变成为另外的意义。

请问这个字符串占多少字节？

char

*s=\"\\ta\\017bc\";

一个个分析：

\\t，制表符，占一个字节

a，字母，占一个字节

\\017，转义八进制数，占一个字节（这里容易误认为是结束符\\0，其实不是）

b，字母，占一个字节

c，字母，占一个字节

字符串连续字符5个字节，最后还要加上一个字符串结束符\\0，占一字节

所以总共6字节

如何理解Python中字符

学过c的朋友都知道，字符（‘ ’）和字符串（“ ”）是不一样的，可是在python中，这些东西的方方面面的门道比较多，在我刚学习的时候也懵比了好一阵子，也就想着总结总结

首先我们需要了解的是在学习python中，可以简单地理解单引号，双引号，三引号，他们括起来的东西都是字符串，也就是说在开始学习python的过程中，就当做是没有字符一说

1，

通过上面的例子可以很容易的看清楚s，s1, s2 , s3都是字符串（通过type类型测试）

2，转义字符

我们简单提一下c的转义字符（’\\xhh‘, 注意这里的hh是两个，过多的话可能会超过，产生警告out of range），（’\\ddd‘,这里需要的是1-3位8进制的数，希望大家不要弄混）

[cpp] view plain copy

#include stdio.h

#include conio.h

int main(){

int a = \'\\113\';

int b = \'\\x13\';

printf(\"%d,, ,%d,,\", a, b);

getch();

}

结果如下：

75,, ,19,,

但是在python中，他们还是有挺大的区别的

我们可以看到，在上面的字符串s4里面有一个转义字符（\\n）存在，所以编译器对它的处理肯定和简单地字符串处理是不一样的

s4直接输出和print S4输出之所以不同，是因为S4的直接输出就是输出s4本身，我们一开始就给了s4赋值了，而对于print S4的输出，是因为print函数（python自带库函数）对S4进行了处理，在输出是发现里面有转义字符（\\n也就是换行的意思），所以是先输出abc，然后换行，紧接着输出456

这里还有一个是raw（破坏转义字符）python中将r放在包含有转义字符的字符串前面

这里我们也能直接看到，在print中转义字符的作用被破坏了，也就是说并不能起到换行的作用了

unicode编码也是如此，就是在带有转义字符的字符串前面加了一个u

unicode编码用两个字节（16位）来表示，而ascii码（8位）有一个字节来表示，汉子在ascii中不是很好的被支持，但是在unicode中可以好一点，16位，也就是65535个，容纳一般的汉子是够了，而且还知道字符编码是用十六进制来表示的，也就是说前面加上一个’0x‘，比如字母\"a\"的Unicode 编码是0x0061,十进制是97,而\"a\"的ASCII编码是0x61,十进制也是97,

但是千万注意c和python的区别

而且我们知道，python中本就不谈论对象的类型（并不像c分的那么细），所以我们可以理解为上面的那些字符串都是常量，我们并不可以更改这些内容，也是在一定的区域存放的

由上可知，我们随意更改一定会导致错误的，所以我们一定要注意

对于函数的返回值，我们也要值得注意：

[plain] view plain copy

def tur_a(val1, val2= 3):

n = val1 + val2

m = val1 - val2

l = val1 * val2

z = val1 /val2

return n, m, l, z

print \"go , go , go\"