零拷贝技术「资料汇总」

发表于 2021-04-12 更新于 2022-02-13 阅读次数：

本文为网上收集资料的汇总，以期对零拷贝技术的方方面面进行系统的梳理。

为什么需要零拷贝（Zero-copy）技术

大量的中间件只要提到高性能，就必然绕不过零拷贝技术。将数据从硬盘读取出来，并通过网络发送出去，这是一个非常常见的业务场景。 ==如kafka==

零拷贝技术解决的问题

在计算机执行将数据从一处搬运到另一处的任务时，使用零拷贝（Zero-copy）技术可以获得以下优化：

不需要使用 CPU 计算资源进行数据搬运任务。
减少用户态和内核态的切换。

零拷贝（Zero-copy）技术的最高标准是，对数据进行搬运时，减少数据拷贝次数，减少系统调用，实现 CPU 的零参与，彻底消除 CPU 在这方面的负载。实现零拷贝用到的最主要技术是 DMA 数据传输技术和内存区域映射技术。

bitkylin：零拷贝是一种目标，旨在使用MMAP+WRITE技术或使用sendfile技术，尽量减少用户态和内核态切换，减少CPU在数据搬运任务上的工作量，从而大幅度提升CPU的效率，进而提升整体性能。

bitkylin：所以零拷贝并不指的是CPU完全不参与拷贝数据「MMAP+WRITE至少需要CPU搬运一次数据」

概念

写给Java程序员看的，CPU 上下文切换、用户态、内核态、进程与线程上下文切换（转）

用户态、内核态

==CPU如何保护用户态的应用程序操作，不会访问到敏感数据==

Intel x86架构使用了4个级别来标明不同的特权级权限。

R0实际就是内核态，拥有最高权限，可以直接访问所有资源（包括外围设备，例如硬盘，网卡等）。而一般应用程序处于R3状态–用户态。

进程在用户空间运行时，被称为进程的用户态，而陷入内核空间的时候，被称为进程的内核态。

R0最高可以读取R0-3所有的内容，R1可以读R1-3的，R2以此类推，R3只能读自己的数据。

intel的x86架构分级。

　　事实上，类似的分级分层处理机制一直都有，Intel x86架构使用了4个级别来标明不同的特权级权限。R0实际就是内核态，拥有最高权限。而一般应用程序处于R3状态–用户态。在Linux中，还存在R1和R2两个级别，一般归属驱动程序的级别。在Windows平台没有R1和R2两个级别，只用R0内核态和R3用户态。在权限约束上，使用的是高特权等级状态可以阅读低等级状态的数据，例如进程上下文、代码、数据等等，但是反之则不可。R0最高可以读取R0-3所有的内容，R1可以读R1-3的，R2以此类推，R3只能读自己的数据。因为shelllog应该写在内核中。

为什么分内核态和用户态

假设没有这种内核态和用户态之分，程序随随便便就能访问硬件资源，比如说分配内存，程序能随意的读写所有的内存空间，如果程序员一不小心将不适当的内容写到了不该写的地方，就很可能导致系统崩溃。

用户程序进行系统调用后，操作系统执行一系列的检查验证，确保这次调用是安全的，再进行相应的资源访问操作。内核态能有效保护硬件资源的安全。

linux 切换用户_Linux 用户态切换到内核态的 3 种方式

系统调用

从用户态到内核态的转变，需要通过系统调用来完成。比如，当我们查看文件内容时，就需要多次系统调用来完成：首先调用 open() 打开文件，然后调用 read() 读取文件内容，并调用 write() 将内容写到标准输出，最后再调用 close() 关闭文件。

系统调用会将CPU从用户态切换到核心态，以便 CPU 访问受到保护的内核内存。

系统调用的过程会发生 CPU 上下文的切换，CPU 寄存器里原来用户态的指令位置，需要先保存起来。接着，为了执行内核态代码，CPU 寄存器需要更新为内核态指令的新位置。最后才是跳转到内核态运行内核任务。

而系统调用结束后，CPU 寄存器需要恢复原来保存的用户态，然后再切换到用户空间，继续运行进程。所以，一次系统调用的过程，其实是发生了两次 CPU 上下文切换。

注意：系统调用过程中，并不会涉及到虚拟内存等进程用户态的资源，也不会切换进程。

系统调用过程通常称为特权模式切换，而不是进程上下文切换。

DMA

趣谈Linux操作系统 - 23 | 物理内存管理（上）：会议室管理员如何分配会议室？

DMA（Direct Memory Access，直接内存存取）

DMA 是这样一种机制：要把外设的数据读入内存或把内存的数据传送到外设，原来都要通过 CPU 控制完成，但是这会占用 CPU，影响 CPU 处理其他事情，所以有了 DMA 模式。CPU 只需向 DMA 控制器下达指令，让 DMA 控制器来处理数据的传送，数据传送完毕再把信息反馈给 CPU，这样就可以解放 CPU。

从内核文件系统看文件读写过程

I/O 缓冲区

在I/O过程中，存取磁盘的速度相对内存速度要慢的多。因此为了能够加快处理数据的速度，需要使用缓冲区，可以使进程之间的相互等待变少，从而使从速度慢的设备读入数据时，速度快的设备的操作进程不发生间断。另一方面，可以保护硬盘或减少网络传输的次数。

Page Cache 页缓存

它位于内存和文件之间缓冲区，文件IO操作实际上只和page cache交互，不直接和内存交互。

文件读写「READ 和 WRITE」基本流程

读文件

1、进程调用库函数向内核发起读文件请求；

2、内核通过检查进程的文件描述符定位到虚拟文件系统的已打开文件列表表项；

3、调用该文件可用的系统调用函数read()

3、read()函数通过文件表项链接到目录项模块，根据传入的文件路径，在目录项模块中检索，找到该文件的inode；

4、在inode中，通过文件内容偏移量计算出要读取的页；

5、通过inode找到文件对应的address_space；

6、在address_space中访问该文件的页缓存树，查找对应的页缓存结点：

（1）如果页缓存命中，那么直接返回文件内容；

（2）如果页缓存缺失，那么产生一个页缺失异常，创建一个页缓存页，同时通过inode找到文件该页的磁盘地址，读取相应的页填充该缓存页；重新进行第6步查找页缓存；

7、文件内容读取成功。

写文件

前5步和读文件一致，在address_space中查询对应页的页缓存是否存在：

6、如果页缓存命中，直接把文件内容修改更新在页缓存的页中。写文件就结束了。这时候文件修改位于页缓存，并没有写回到磁盘文件中去。

7、如果页缓存缺失，那么产生一个页缺失异常，创建一个页缓存页，同时通过inode找到文件该页的磁盘地址，读取相应的页填充该缓存页。此时缓存页命中，进行第6步。

8、一个页缓存中的页如果被修改，那么会被标记成脏页。脏页需要写回到磁盘中的文件块。有两种方式可以把脏页写回磁盘：

（1）手动调用sync()或者fsync()系统调用把脏页写回

（2）pdflush进程会定时把脏页写回到磁盘

同时注意，脏页不能被置换出内存，如果脏页正在被写回，那么会被设置写回标记，这时候该页就被上锁，其他写请求被阻塞直到锁释放。

==图有问题MMAP的READ操作，物理内存应该是直接和用户空间的虚拟内存进行了映射，从而用户态可以直接通过访问物理内存进而读取文件。图中把缓冲区画在了内核空间，错了！。==

MMAP

认真分析mmap：是什么为什么怎么用

【深入浅出Linux】关于mmap的解析

mmap是一种内存映射文件的方法，即将一个文件或者其它对象映射到进程的地址空间，实现文件磁盘地址和进程虚拟地址空间中一段虚拟地址的一一对映关系。实现这样的映射关系后，进程就可以采用指针的方式读写操作这一段内存，而系统会自动回写脏页面到对应的文件磁盘上，即完成了对文件的操作而不必再调用read,write等系统调用函数。

映射关系可以分为两种
1、文件映射
磁盘文件映射进程的虚拟地址空间，使用文件内容初始化物理内存。
2、匿名映射
初始化全为0的内存空间。

而对于映射关系是否共享又分为
1、私有映射(MAP_PRIVATE)
多进程间数据共享，修改不反应到磁盘实际文件，是一个copy-on-write（写时复制）的映射方式。
2、共享映射(MAP_SHARED)
多进程间数据共享，修改反应到磁盘实际文件中。

MMAP 相比于 READ 系统调用优势

总结来说，常规文件操作为了提高读写效率和保护磁盘，使用了页缓存机制。这样造成读文件时需要先将文件页从磁盘拷贝到页缓存中，由于页缓存处在内核空间，不能被用户进程直接寻址，所以还需要将页缓存中数据页再次拷贝到内存对应的用户空间中。这样，通过了两次数据拷贝过程，才能完成进程对文件内容的获取任务。写操作也是一样，待写入的buffer在内核空间不能直接访问，必须要先拷贝至内核空间对应的主存，再写回磁盘中（延迟写回），也是需要两次数据拷贝。

而使用mmap操作文件中，创建新的虚拟内存区域和建立文件磁盘地址和虚拟内存区域映射这两步，没有任何文件拷贝操作。而之后访问数据时发现内存中并无数据而发起的缺页异常过程，可以通过已经建立好的映射关系，只使用一次数据拷贝，就从磁盘中将数据传入内存的用户空间中，供进程使用。

总而言之，常规文件操作需要从磁盘到页缓存再到用户主存的两次数据拷贝。而mmap操控文件，只需要从磁盘到用户主存的一次数据拷贝过程。说白了，mmap的关键点是实现了用户空间和内核空间的数据直接交互而省去了空间不同数据不通的繁琐过程。因此mmap效率更高。

mmap优点总结

1、对文件的读取操作跨过了页缓存，减少了数据的拷贝次数，用内存读写取代I/O读写，提高了文件读取效率。

2、实现了用户空间和内核空间的高效交互方式。两空间的各自修改操作可以直接反映在映射的区域内，从而被对方空间及时捕捉。

3、提供进程间共享内存及相互通信的方式。不管是父子进程还是无亲缘关系的进程，都可以将自身用户空间映射到同一个文件或匿名映射到同一片区域。从而通过各自对映射区域的改动，达到进程间通信和进程间共享的目的。

 同时，如果进程A和进程B都映射了区域C，当A第一次读取C时通过缺页从磁盘复制文件页到内存中；但当B再读C的相同页面时，虽然也会产生缺页异常，但是不再需要从磁盘中复制文件过来，而可直接使用已经保存在内存中的文件数据。

4、可用于实现高效的大规模数据传输。内存空间不足，是制约大数据操作的一个方面，解决方案往往是借助硬盘空间协助操作，补充内存的不足。但是进一步会造成大量的文件I/O操作，极大影响效率。这个问题可以通过mmap映射很好的解决。换句话说，但凡是需要用磁盘空间代替内存的时候，mmap都可以发挥其功效。

内核栈

https://stackoverflow.com/a/12912556/6711470

https://stackoverflow.com/a/18350287/6711470

这个答案真实帮了大忙了！

Does each process have its own kernel stack ?

Not just each process - each thread has its own kernel stack (and, in fact, its own user stack as well). Remember the only difference between processes and threads (to Linux) is the fact that multiple threads can share an address space (forming a process).

每个线程都有自己的内核栈，进程和线程的唯一不同点，是他们分享同一个地址空间「来自于进程」。