查看原文
其他

Linux 基础—— IO 全面介绍

CPP开发者 2024-03-09

推荐关注↓

Linux - 基础 IO

  • Linux - 基础 IO

  • 文件 IO 相关操作

  • stdin & stdout & stderr

  • 系统文件 I/O

文件的宏观理解:

狭义理解:

  • 1.文件在磁盘里
  • 2.磁盘是永久性存储介质,因此文件在磁盘上的存储是永久性的
  • 3.磁盘是外设(即是输出设备也是输入设备)
  • 4.磁盘上的文件 本质是对文件的所有操作,都是对外设的输入和输出 简称 IO

广义理解:

  • 1.Linux 下一切皆文件(键盘、显示器、网卡、磁盘…… 这些都是抽象化的过程)

文件操作的归类认知:

  • 1.对于 0KB 的空文件是占用磁盘空间的
  • 2.文件是文件属性(元数据)和文件内容的集合(文件 = 属性(元数据)+ 内容)
  • 3.所有的文件操作本质是文件内容操作和文件属性操作

系统角度:

  • 1.对文件的操作本质是进程对文件的操作
  • 2.磁盘的管理者是操作系统
  • 3.文件的读写本质不是通过 C 语言 / C++ 的库函数来操作的(这些库函数只是为用户提供方便),而是通过文件相关的系统调用接口来实现的

文件 IO 相关操作

int fputs(const char *s, FILE *stream);

fputs 函数是将 s 所指向的数据往 stream 中所指向的文件中写

char * fgets ( char * str, int num, FILE * stream )

注:

  • 从流中读取字符并将它们作为 C 字符串存储到 str 中,直到读取 (num-1) 个字符到达换行符或文件结尾以先发生者为准
  • 换行符使 fgets 停止读取但它被函数视为有效字符并包含在复制到 str 的字符串中。
  • 在复制到 str 的字符之后会自动附加一个终止空字符
  • fgets 与 get 完全不同:fgets 不仅接受流参数,还允许指定 str 的最大大小并在字符串中包含任何结束的换行符。

fwrite 的使用方法

  • 当前路径指的是每个进程,都有一个内置的属性 cwd
  • fwrite 函数如果 size_t count 传入的数正好将字符串内容全部传入到指定文本中则返回 count,否则返回与 count 不同的数
  • fwrite 函数传入内容的大小正好是 size_t size, 和 size_t count 的乘积

stdin & stdout & stderr

  • 任何 C 程序,都默认打开三个文件分别叫做标准输入(stdin)、标准输出(stdout)、标准错误(stderr)
  • 标准输入(stdin)——键盘文件——读方法(read)
  • 标准输出(stdout)、标准错误(stderr)——显示器文件——写方法(write)
  • Linux 下一切皆文件
  • 所有的外设硬件,本质是对应的核心操作无外乎是 read 和 write(不同的硬件对应的读写方式是不一样的)

注:

  • 可以通过 C 接口,直接对 stdin、stdout、stderr 进行读写
  • C 默认会打开三个输入输出流,分别是 stdin, stdout, stderr, 这样做便于语言进行上手使用,都有输入输出的需求
  • 几乎所有的编程语言都会默认会打开三个输入输出流 stdin, stdout, stderr,
  • 任何一种编程语言的文件操作相关的函数(库函数)底层都会调用系统调用接口(open、close、write、read,这些在 Linux 系统下有,但这些接口不具备可移植性)
  • 语言上相关文件操作的库函数兼容自身语法特征,系统调用使用成本较高,而且不具备可移植性

系统文件 I/O

open

#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>

int open(const char *pathname, int flags);
int open(const char *pathname, int flags, mode_t mode);

pathname: 要打开或创建的目标文件
flags: 打开文件时,可以传入多个参数选项,用下面的一个或者多个常量进行“或”运算,构成flags。
参数:
   O_RDONLY: 只读打开
   O_WRONLY: 只写打开
   O_RDWR : 读,写打开
     这三个常量,必须指定一个且只能指定一个
   O_CREAT : 若文件不存在,则创建它。需要使用mode选项,来指明新文件的访问权限
   O_APPEND: 追加写
 返回值:
     成功:新打开的文件描述符
    失败:-1

注:

  • open 函数具体使用哪个,和具体应用场景相关,如目标文件不存在,需要 open 创建,则第三个参数表示创建文件的默认权限, 否则,使用两个参数的 open。
  • O_RDONLY、O_WRONLY、O_RDWR…… 这些都是系统定义的宏,这些参数只占一个 int 整形中的一个比特位

注:write read close lseek…… 与 C 语言文件相关接口用法类似

文件描述符 fd

注:

  • 用户层看到的 fd 本质是系统中维护进程和文件对应关系的数组的下标
  • 所谓的默认打开文件,标准输入,标准输出,标准错误,其实是由底层系统支持的,默认一个进程在运行的时候,就打开了 0,1,2
  • 对于进程来讲,对所有的文件进行操作,统一使用一套接口(一组函数指针),因此在 OS 看来一切皆文件

文件描述符就是从 0 开始的小整数。当打开文件时,操作系统在内存中要创建相应的数据结构来描述目标文件。于是就有了 file 结构体。表示一个已经打开的文件对象。而进程执行 open 系统调用,所以必须让进程和文件关联起来。每个进程都有一个指针 files_struct*, 指向一张表 files_struct, 该表最重要的部分就是包涵一个指针数组,每个元素都是一个指向打开文件的指针!所以,本质上,文件描述符就是该数组的下标。只要拿着文件描述符,就可以找到对应的文件

补充:

  • 标准输入、标准输出、标准错误在对应的文件描述符为 0,1,2,对应 C 语言层上的是 stdin、stdout、stderr
  • 所有文件,如果要被使用时,首先必须被打开
  • 一个进程可以打开多个文件,系统中被打开的文件一定有多个,多个被打开的文件,一定要被操作系统管理起来的(先描述(struct file(包含了目标文件的基本操作和部分属性)),再组织(双链表))
  • 打开文件的过程:先在 fd_array 数组中找一个最小的没有被使用的数组下标位置,然后把新 open 出的文件的结构体地址填入到数组中去,对应该地址的下标返回给对应的进程
  • fd:本质是进程和文件之间对应关系的数组的下标,有了 fd 就可以找到打开文件的所有细节

文件描述符的分配规则

总结:

  • 文件描述符的分配规则:在 files_struct 数组当中,找到当前没有被使用的
    最小的一个下标,作为新的文件描述符
  • Linux 进程默认情况下会有 3 个缺省打开的文件描述符,分别是标准输入 0, 标准输出 1, 标准错误 2

重定向

补充:程序替换的时候不会影响重定向对应的数据结构的数据(程序替换影响的是进程虚拟地址空间部分,而重定向影响的是 files_struct 部分)

使用 dup2 系统调用

#include <unistd.h>
int dup2(int oldfd, int newfd);

注:

  • newfd 使 oldfd 的一份拷贝,不是拷贝 fd 而是拷贝 fd 对应的 fd_array 数组中的内容

FILE

因为 IO 相关函数与系统调用接口对应,并且库函数封装系统调用,所以本质上,访问文件都是通过 fd 访问的。因此 C 库当中的 FILE 结构体内部,必定封装了 fd

typedef struct _IO_FILE FILE; 在/usr/include/stdio.h
在/usr/include/libio.h
struct _IO_FILE {
 int _flags; /* High-order word is _IO_MAGIC; rest is flags. */
#define _IO_file_flags _flags
 //缓冲区相关
 /* The following pointers correspond to the C++ streambuf protocol. */
 /* Note: Tk uses the _IO_read_ptr and _IO_read_end fields directly. */
 char* _IO_read_ptr; /* Current read pointer */
 char* _IO_read_end; /* End of get area. */
 char* _IO_read_base; /* Start of putback+get area. */
 char* _IO_write_base; /* Start of put area. */
  char* _IO_write_ptr; /* Current put pointer. */
 char* _IO_write_end; /* End of put area. */
 char* _IO_buf_base; /* Start of reserve area. */
 char* _IO_buf_end; /* End of reserve area. */
 /* The following fields are used to support backing up and undo. */
 char *_IO_save_base; /* Pointer to start of non-current get area. */
 char *_IO_backup_base; /* Pointer to first valid character of backup area */
 char *_IO_save_end; /* Pointer to end of non-current get area. */
 struct _IO_marker *_markers;
 struct _IO_FILE *_chain;
 int _fileno; //封装的文件描述符
#if 0
 int _blksize;
#else
 int _flags2;
#endif
 _IO_off_t _old_offset; /* This used to be _offset but it's too small. */
#define __HAVE_COLUMN /* temporary */
 /* 1+column number of pbase(); 0 is unknown. */
 unsigned short _cur_column;
 signed char _vtable_offset;
 char _shortbuf[1];
 /* char* _save_gptr; char* _save_egptr; */
 _IO_lock_t *_lock;
#ifdef _IO_USE_OLD_IO_FILE
};

总结:

  • FILE 结构体中包含了 int fileno 的成员(也就是系统上的 fd 文件描述符)
  • fopen、fwrite、fread、fclose 等 f 系列的库函数都是由底层 open、write 、read、close 实现的,通过 open 的返回值传给 fileno,从而对系统调用函数进行封装
  • struct FILE 内部包含:
  1. 底层对应的文件描述符下标
  1. 应用层 C 语言提供的缓冲区数据
  • 所谓的默认打开文件,标准输入、标准输出、标准错误其实是由底层系统支持的,默认一个进程在运行的时候,就打开了 0,1,2
  • 一般 C 库函数写入文件时是全缓冲的,而写入显示器是行缓冲。printf fprintf 等库函数会自带缓冲区,当发生重定向到普通文件时,数据的缓冲方式由行缓冲变成了全缓冲。而我们放在缓冲区中的数据,就不会被立即刷新,甚至 fork 之后但是进程退出之后,会统一刷新,写入文件当中。但是 fork 的时候,父子数据会发生写时拷贝,所以当你父进程准备刷新的时候,子进程也就有了同样的一份数据,随即产生两份数据。write 没有变化,说明没有所谓的缓冲
    printf fputs 等 库函数会自带缓冲区,而 write 系统调用没有带缓冲区。另外,我们这里所说的缓冲区,都是用户级缓冲区。其实为了提升整机性能,OS 也会提供相关内核级缓冲区。printf fprintf 是库函数, write 是系统调用,库函数在系统调用的 “上层”, 是对系统调用的 “封装”,但是 write 有内核级缓冲区,而 printf fwrite fputs 等缓冲区是用户级缓冲区,由 C 标准库提供

    注:系统调用函数与库函数尽量不要混在一起使用,可能会与统一使用的函数的运行结果有所差异

    文件系统

    文件:打开的文件、普通未打开的文件
    打开的文件:属性与操作方法的表现就是 struct file{} 属于内存级文件
    普通未打开的文件:磁盘上面未被加载到内存的
    文件系统功能:将上述的这些文件管理起来

    磁盘

    磁盘是计算机主要的存储介质,可以存储大量的二进制数据,并且断电后也能保持数据不丢失。早期计算机使用的磁盘是软磁盘(Floppy Disk,简称软盘),如今常用的磁盘是硬磁盘(Hard disk,简称硬盘)。

    补充:

    • 内存在操作系统的角度使用的时候,基本单位是 4KB,但在使用角度是 1 字节
    • 磁盘存储的基本单位是扇区(512 字节)(磁盘读取的最小单元)
    • 内存与磁盘间 IO 时,基本单位是 4KB,是通过文件系统来完成的

    磁盘的划分

    我们可以将磁盘想象成磁带(线性结构),将磁盘看成一个线性空间(数组),类型为扇区的数组、数组个数为 10 亿多

    这样划分就不用让 OS 读取数据时在哪个盘面、哪个磁道、哪个扇区找了,OS 与磁盘映射关系可以通过磁盘驱动来完成,这样也就做到强解耦性。无论换机械硬盘还是固态硬盘,OS 都不用改变读取磁盘数据的数据结构,只需改变磁盘的驱动程序即可

    注:操作系统读取磁盘数据时的下标——LBA

    • 磁盘经过在 OS 中的虚拟化成数组,但是所占空间太大,因此需要进行分区化管理,并对该区域进行格式化(写入文件系统(数据和方法))。eg:Windows 中的 C 盘、D 盘……
    • 每个分区再进行分组——块组
    • Linux 系统下支持多种文件系统:Ext2、Ext3、fs、usb-fs、sysfs、proc

    inode

    Linux ext2 文件系统,上图为磁盘文件系统图(内核内存映像肯定有所不同),磁盘是典型的块设备,硬盘分区被划分为一个个的 block。一个 block 的大小是由格式化的时候确定的,并且不可以更改。例如 mke2fs 的 - b 选项可以设 定 block 大小为 1024、2048 或 4096 字节。而启动块(Boot Block)的大小是确定的,

    • Block Group:ext2 文件系统会根据分区的大小划分为数个 Block Group。而每个 Block Group 都有着相同的结构组成。
    • 超级块(Super Block):存放文件系统本身的结构信息。记录的信息主要有:bolck 和 inode 的总量,未使用的 block 和 inode 的数量,一个 block 和 inode 的大小,最近一次挂载的时间,最近一次写入数据的时间,最近一次检验磁盘的时间等其他文件系统的相关信息。Super Block 的信息被破坏,可以说整个文件系统结构就被破坏了
    • GDT,Group Descriptor Table:块组描述符,描述块组属性信息
    • 块位图(Block Bitmap):Block Bitmap 中记录着 Data Block 中哪个数据块已经被占用,哪个数据块没有被占用
    • inode 位图(inode Bitmap):每个 bit 表示一个 inode 是否空闲可用。
    • i 节点表: 存放文件属性 如 文件大小,所有者,最近修改时间等
    • 数据区:存放文件内容

    注:

    • Block Group 每个块组中都有,但是 Super Block 并不是每个块组中都有
    • 每一个文件都对应一个 inode 节点

    总结:

    • 基本上,一个文件一个 inode(包括文件)
    • inode 是一个文件的所有的属性集合(不包含文件名)(空文件也是占据空间的,所有的属性也是数据也要占据空间)
    • 真正表示文件的不是文件名,而是文件的 inode 编号
    • inode 是可以和特定的数据块产生关联的
    • 程序员是通过路径定位的(目录)来定位一个文件,而操作系统是通过目录的 Data blocks 来确定文件名和 inode 的映射关系
    • 目录是文件,有独立的 inode 和数据块

    创建一个新文件主要有一下 4 个操作:

    • 1.存储属性 ——内核先找到一个空闲的 i 节点。内核把文件信息记录到其中。
    • 2.存储数据 ——该文件需要存储在三个磁盘块,内核找到了三个空闲块。将内核缓冲区数据缓冲到磁盘的数据区中
    • 3.记录分配情况——文件内容按顺序存放(数据块)。内核在 inode 上的磁盘分布区记录了上述块列表。
    • 4.添加文件名到目录——内核将入口添加到目录文件。文件名和 inode 之间的对应关系将文件名和文件的内容及属性连接起来。

    大多是操作系统在同一个目录下是不允许存在同名文件的 删除文件不需要清空该文件占据的所有的空间数据(只需将该文件的 inode 和对应的数据块无效化即可(文件对应 inode 和 Block 位图中的数字 1 设置为 0,并将该文件所对应的目录中的数据块的关于该文件内容清空即可) Linux 下属性和内容是分离的,属性 inode 保存的(在同一块块组 inode 编号是不同的,但是跨组的 inode 编号可能相同),内容 Data blocks 保存的

    补充:

    • inode 描述了文件大小和指向数据块的指针
    • 通过 inode 可获得文件占用的块数
    • 通过 inode 可实现文件的逻辑结构和物理结构的转换

    软硬连接

    硬链接:
    硬链接的应用场景:方便进行相对路径的路径的设置

    因此,可以看出.、… 的底层实现是通过硬链接的方式来实现的
    注:

    • 真正找到磁盘上文件的并不是文件名,而是 inode。其实在 linux 中可以让多个文件名对应于同一个 inode
    • 在删除文件时干了两件事情:1. 在目录中将对应的记录删除,2. 将硬连接数 - 1,如果为 0,则将对应的磁盘释放。

    软链接:
    注:硬链接是通过 inode 引用另外一个文件,软链接是通过名字引用另外一个文件

    总结:软硬链接的区别:本质是是否是独立文件,有无独立 inode;用途:软链接可以指向特定的文件方便进行快速索引,硬链接是能进行相对路径设置

    补充:

    • 软链接文件是一个独立的文件有自己的 inode 节点,通过数据中保存的源文件路径访问源文件
    • 硬链接是文件的一个目录项,与源文件共用同一个 inode 节点,直接通过自己的 inode 节点访问源文件
    • 不同分区有可能有不同文件系统,因此硬链接不能跨分区建立;软连接可以跨文件系统进行连接,硬链接不可以
    • 当删除源文件时,软链接文件失效
    • ln 生成符号链接文件指的是 ln -s 生成软链接文件

    文件的 ACM

    总结:

    • Access 最后访问时间
    • Modify 文件内容最后修改时间
    • Change 属性最后修改时间

    文件的 ACM 的应用场景:

    动态库和静态库

    静态库与动态库

    • 使用顶尖的工程师写的代码是为了开发效率和鲁棒性(健壮性)
    • 使用顶尖的工程师写的功能一般通过库、开源代码、基本的网络功能调用(各种网络接口、语音识别)
    • 库分为动态库和静态库
    • 库的命名:取消前缀 lib,去掉. 之后的内容,剩下的就是库的名字
    • 生成可执行程序的方式有两种:动态链接、静态链接

    注:

    • ldd 可以列出一个程序所需要得动态链接库;file 命令用于辨识文件类型
    • Linux 中,默认情况下形成的可执行程序是动态链接的
    • 将库中的我的可执行程序中使用的二进制代码,拷贝进我的可执行程序中——静态链接
    • 一般为了更好的支持开发,第三方库或者语言库都必须提供两个库,一个叫做静态库,一个叫做动态库,方便程序员根据需要进行可执行程序的生成
    • 动态链接的特点:体积小、节省资源(磁盘、内存),依赖库,一旦丢失可执行程序不可执行
    • 静态链接的特点:体积大、浪费资源(磁盘、内存),不依赖库,库丢失,可执行程序不受影响

    总结:

    • 静态库(.a):程序在编译链接的时候把库的代码链接到可执行文件中。程序运行的时候将不再需要静态库
    • 动态库(.so):程序在运行的时候才去链接动态库的代码,多个程序共享使用库的代码。
    • 一个与动态库链接的可执行文件仅仅包含它用到的函数入口地址的一个表,而不是外部函数所在目标文件的整个机器码
    • 在可执行文件开始运行以前,外部函数的机器码由操作系统从磁盘上的该动态库中复制到内存中,这个过程称为动态链接(dynamic linking)
    • 动态库可以在多个程序间共享,所以动态链接使得可执行文件更小,节省了磁盘空间。操作系统采用虚拟内存机制允许物理内存中的一份动态库被要用到该库的所有进程共用,节省了内存和磁盘空间

    生成静态库

    [root@localhost linux]# ls
    add.c add.h main.c sub.c sub.h
    [root@localhost linux]# gcc -c add.c -o add.o
    [root@localhost linux]# gcc -c sub.c -o sub.o
    生成静态库
    [root@localhost linux]# ar -rc libmymath.a add.o sub.o 
    ar是gnu归档工具,rc表示(replace and create)
    查看静态库中的目录列表
    [root@localhost linux]# ar -tv libmymath.a 
    rw-r--r-- 0/0 1240 Sep 15 16:53 2017 add.o
    rw-r--r-- 0/0 1240 Sep 15 16:53 2017 sub.o
    t:列出静态库中的文件
    v:verbose 详细信息
    [root@localhost linux]# gcc main.c -I -L. -lmymath
    -L 指定库路径
    -I 指定头文件路径
    -l 指定库名
    测试目标文件生成后,静态库删掉,程序照样可以运行

    注:

    • -I:告诉 gcc 除了默认路径(/usr/include)以及当前路径之外,在指定路径下也找一下头文件
    • -L:告诉 gcc 除了默认路径 (/lib/ 、/lib64 、/lib64/libc*) 以及当前路径之外,在指定路径下也找一下库文件
    • -l 库名称:具体链接哪个库

    C 语言编译时直接编译不用任何选项:

    • 1.库文件和头文件在默认路径下 gcc 能找到
    • 2.gcc 编译 C 语言代码默认应该链接 libc

    当自己的可执行程序编译时不想用这些选项:将头文件和库文件分别拷贝到默认路径下——库的安装(第三方库)(使用时必须带上 - l 库名称) 当只有静态库时,没有动态库,用 gcc 编译(不加 - static)会直接用静态链接生成可执行程序

    补充:

    • 库搜索路径:
    • 从左到右搜索 - L 指定的目录。
    • 由环境变量指定的目录 (LIBRARY_PATH)
    • 由系统指定的目录
      /usr/lib
      /usr/local/lib

    生成动态库

    • shared: 表示生成共享库格式
    • fPIC:产生位置无关码 (position independent code)
    • 库名规则:libxxx.so

    补充:

    • 动态库被加载在内存中,可以供多个使用库的程序共享映射到自己的虚拟地址空间使用,因此可以减少页面交换以及降低内存中代码冗余,并且因为与源程序模块分离,因此开发模式比较好
    • 加载动态库的程序运行速度相对较慢,因为动态库运行时加载,映射到虚拟地址空间后需要重新根据映射起始地址计算函数 / 变量地址
    • 静态库会被添加为程序的一部分进行使用
    • 动态库可用节省内存和磁盘空间
    • 静态库重新编译,需要将应用程序重新编译

    运行动态库

    1.拷贝. so 文件到系统共享库路径下, 一般指 / usr/lib 

    2.更改 LD_LIBRARY_PATH(当系统重启时使用之前添加的是无效的,应重新添加)

    export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:路径

    3.ldconfig 配置 / etc/ld.so.conf.d/,ldconfig 更新

    作者:The August

    https://blog.csdn.net/AI_ELF/article/details/122547439

    - EOF -

    推荐阅读  点击标题可跳转

    1、Linux 后台开发必知的 I/O 优化知识总结

    2、好文:Linux 内核概念和学习路线

    3、Linux C 基础——” Makefile “ 文件管理大师你拜访过嘛?


    ↓推荐关注↓

    「Linux爱好者」日常分享 Linux/Unix 相关内容,包括:工具资源、使用技巧、课程书籍等。点击获取《每天一个Linux命令》系列和精选Linux技术资源。


    点赞和在看就是最大的支持❤️

    继续滑动看下一个

    Linux 基础—— IO 全面介绍

    向上滑动看下一个

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存