系统调用

系统调用(system calls), Linux内核, GNU C库(glibc).

在电脑中,系统调用(英语:system call),指运行在用户空间的程序向操作系统内核请求需要更高权限运行的服务。系统调用提供用户程序与操作系统之间的接口。大多数系统交互式操作需求在内核态执行。如设备IO操作或者进程间通信。

用户空间(用户态)和内核空间(内核态)

操作系统的进程空间可分为用户空间和内核空间,它们需要不同的执行权限。其中系统调用运行在内核空间。

库函数

系统调用和普通库函数调用非常相似,只是系统调用由操作系统内核提供,运行于内核核心态,而普通的库函数调用由函数库或用户自己提供,运行于用户态。

典型实现(Linux)

Linux 在x86上的系统调用通过 int 80h 实现,用系统调用号来区分入口函数。操作系统实现系统调用的基本过程是:

  1. 应用程序调用库函数(API);
  2. API 将系统调用号存入 EAX,然后通过中断调用使系统进入内核态;
  3. 内核中的中断处理函数根据系统调用号,调用对应的内核函数(系统调用);
  4. 系统调用完成相应功能,将返回值存入 EAX,返回到中断处理函数;
  5. 中断处理函数返回到 API 中;
  6. API 将 EAX 返回给应用程序。

应用程序调用系统调用的过程是:

  1. 把系统调用的编号存入 EAX;
  2. 把函数参数存入其它通用寄存器;
  3. 触发 0x80 号中断(int 0x80)。

查看系统调用号

  1. 使用命令cat /usr/include/asm/unistd_32.h来打开32位系统调用表

  2. 使用命令cat /usr/include/asm/unistd_64.h来打开64位系统调用表

简介几种系统调用函数:write、read、open、close、ioctl

  在 Linux 中,一切(或几乎一切)都是文件,因此,文件操作在 Linux 中是十分重要的,为此,Linux 系统直接提供了一些函数用于对文件和设备进行访问和控制,这些函数被称为系统调用(syscall),它们也是通向操作系统本身的接口。

一、系统调用

  系统调用就是 Linux 内核提供的一组用户进程与内核进行交互的接口。这些接口让应用程序受限的访问硬件设备,提供了创建新进程并与已有进程进行通信的机制,也提供了申请操作系统其他资源的能力。

  系统调用工作在内核态,实际上,系统调用是用户空间访问内核空间的唯一手段(除异常和陷入外,它们是内核唯一的合法入口)。系统调用的主要作用如下:

1)系统调用为用户空间提供了一种硬件的抽象接口,这样,当需要读写文件时,应用程序就可以不用管磁盘类型和介质,甚至不用去管文件所在的文件系统到底是哪种类型;

2)系统调用保证了系统的稳定和安全。作为硬件设备和应用程序之间的中间人,内核可以基于权限、用户类型和其他一些规则对需要进行的访问进行判断;

3)系统调用是实现多任务和虚拟内存的前提。

  要访问系统调用,通常通过 C 库中定义的函数调用来进行。它们通常都需要定义零个、一个或几个参数(输入),而且可能产生一些副作用(会使系统的状态发生某种变化)。系统调用还会通过一个 long 类型的返回值来表示成功或者错误。通常,用一个负的值来表明错误,0表示成功。系统调用出现错误时,C 库会把错误码写入 errno 全局变量,通过调用 perror() 库函数,可以把该变量翻译成用户可理解的错误字符串。

二、几种常用的系统调用函数

2.1 write 系统调用

  系统调用 write 的作用是把缓冲区 buf 的前 nbytes 个字节写入与文件描述符 fildes 关联的文件中。它返回实际写入的字节数。如果文件描述符有错或者底层的设备驱动程序对数据块长度比较敏感,该返回值可能会小于 nbytes。如果函数返回值为 0,就表示没有写入任何数据;如果返回值为 -1,则表明 write 系统调用出现了错误,错误代码保存在全局变量 errno 里。 write 系统调用的原型如下:

1
2
3
#include <unistd.h>

size_t write(int fildes,const void *buf,size_t nbytes);

  其中,size_t 是标准 C 库中定义的一个数据类型,实际上就是 unsigned int。

  fildes 是文件描述符,内核利用文件描述符来访问文件,它是一个非负的整数,当打开现存文件或者新建一个文件时,都会返回一个文件描述符。有多少文件描述符取决于系统的配置情况,当一个程序开始运行时,它一般有 3 个已经打开的文件描述符:标准输入 0;标准输出 1;标准错误 2

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
#include <unistd.h>
#include <stdlib.h>
#include <stdio.h>

int main()
{
size_t x = write(1,"my name is tongye!\n",20);
printf("you have writed %d words to the buffer\n",x);

exit(0);
}

/* 输出结果:
my name is tongye!
you have writed 20 words to the buffer
*/

  这段代码简单演示了一下 write 系统调用函数的用法:从缓冲区 buffer 中读取前 20 个字节写入标准输出中,write 返回了实际写入的字节数。

2.2 read 系统调用

  系统调用 read 的作用是:从文件描述符 fildes 相关联的文件里读入 nbytes 个字节的数据,并把它们放到数据区 buf 中。它返回实际读入的字节数,这可能会小于请求的字节数。如果 read 调用返回 0,就表示没有读入任何数据,已到达了文件尾;如果返回 -1,则表示 read 调用出现了错误。read 系统调用的原型如下:

1
2
3
#include <unistd.h>

size_t read(int fildes,void *buf,size_t nbytes);

  用一段代码演示一下用法:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
#include <unistd.h>
#include <stdlib.h>
#include <stdio.h>

int main()
{
char buffer[30];
size_t x = read(0,buffer,30);
write(1,buffer,x);

exit(0);
}

/* 输出结果:
hello ,my name is tongye!
hello ,my name is tongye!
*/

  这段代码使用 read 系统调用函数从标准输入读取 30 个字节到缓冲区 buffer 中去(输出结果中的第一行是从标准输入键入的),然后使用 write 系统调用函数将 buffer 中的字节写到标准输出中去。

2.3 open 系统调用

  系统调用 open 用于创建一个新的文件描述符。

1
2
3
4
5
6
#include <fcntl.h>
#include <sys/types.h>
#include <sys/stat.h>

int open(const char *path,int oflags);
int open(const char *path,int oflags,mode_t mode);  // oflags 标志为 O_CREAT 时,使用这种格式

  open 建立了一条到文件或设备的访问路径。如果调用成功,它将返回一个可以被 read、write 和其他系统调用使用的文件描述符。这个文件描述符是唯一的,不会与任何其他运行中的进程共享。在调用失败时,将返回 -1 并设置全局变量 errno 来指明失败的原因。

  使用 open 系统调用时,准备打开的文件或设备的名字作为参数 path 传递给函数,oflags 参数用于指定打开文件所采取的动作。oflags 参数是通过命令文件访问模式与其他可选模式相结合的方式来指定的,open 调用必须指定以下文件访问模式之一:

1)O_RDONLY:以只读方式打开;

2)O_WRONLY:以只写方式打开;

3)O_RDWR :以读写方式打开。

  另外,还有以下几种可选模式的组合( 用按位或 || 来操作 ):

4)O_APPEND:把写入数据追加在文件的末尾;

5)O_TRUNC:把文件长度设置为零,丢弃已有的内容;

6)O_CREAT:如果需要,就按照参数 mode 中给出的访问模式创建文件;

7)O_EXCL:与 O_CREAT 一起使用,确保调用者创建出文件。使用这个模式可以防止两个程序同时创建同一个文件,如果文件已经存在,open 调用将失败。

  当使用 O_CREAT 标志的 open 调用来创建文件时,需要使用有 3 个参数格式的 open 调用。其中,第三个参数 mode 是几个标志按位或后得到的,这些标志在头文件 sys/stat.h 中定义,如下:

标志 说明 标志 说明 标志 说明
S_IRUSR 文件属主可读 S_IRGRP 文件所在组可读 S_IROTH 其他用户可读
S_IWUSR 文件属主可写 S_IWGRP 文件所在组可写 S_IWOTH 其他用户可写
S_IXUSR 文件属主可执行 S_IWOTH 文件所在组可执行 S_IXOTH 其他用户可执行

  用一个例子说明一下:

1
2
3
4
5
6
7
8
9
10
#include <unistd.h>
#include <stdlib.h>
#include <fcntl.h>

int main()
{
open("file",O_CREAT,S_IRUSR | S_IWGRP);

exit(0);
}

  执行这段代码将在当前目录下创建一个名为 file 的文件,该文件对文件属主可读,对文件所在组可写,用 ls -l 命令查看如下:

img

  可以看到有一个名为 file 的文件,该文件就是使用 open 系统调用创建的,文件的权限为文件属主可读,文件所在组可写。

2.4 close 系统调用

   系统调用 close 可以用来终止文件描述符 fildes 与其对应文件之间的关联。当 close 系统调用成功时,返回 0,文件描述符被释放并能够重新使用;调用出错,则返回 -1。

1
2
3
#include <unistd.h>

int close(int fildes);

2.5 ioctl 系统调用

  系统调用 ioctl 提供了一个用于控制设备及其描述符行为和配置底层服务的接口。终端、文件描述符、套接字甚至磁带机都可以有为它们定义的 ioctl。

1
2
3
#include <unistd.h>

int ioctl(int fildes,int cmd,...);

  ioctl 对描述符 fildes 引用的对象执行 cmd 参数中给出的操作。

系统调用原理

中断一般具有两个属性,一个称为中断号(从0开始),一个称为中断处理程序。不同的中断具有不同的中断号,而同时一个中断处理程序对应一个中断号。在内核中,有一个数组称为中断向量表,这个数组的第n项包含了指向第n号中断的中断处理程序的指针。当中断到来时,CPU会暂停执行当前执行的代码,根据中断号,在中断向量表中找到对应的中断处理程序,并调用它,中断处理程序执行完成后,继续执行之前的代码。

通常意义上,中断有两种类型,一种称为硬件中断,这种中断来源于硬件异常或其他事件的发生,如电源掉电,键盘被按下等,另一件称为软件中断,软件中断通常是一条指令(i386下是int),带有一个参数记录中断号,使用这条指令用户可以手动触发某个中断并执行其中断处理程序。

系统调用传参顺序

32位程序将调用号保存到eax,参数传递的顺序为ebx,ecx,edx,esi,edi。通过int $0x80来执行系统调用。

64位程序将调用号保存到rbx,处于用户态时,参数传递顺序为:rdi,rsi,rdx,rcx,r8,r9,处于内核态时,参数传递顺序:rdi,rsi,rdx,r10,r8,r9通过syscall来执行系统调用。

常见系统调用号

64位系统调用号

%rax System call %rdi %rsi %rdx %r10 %r8
0 sys_read unsigned int fd char *buf size_t count
1 sys_write unsigned int fd const char *buf size_t count
2 sys_open const char *filename int flags int mode
3 sys_close unsigned int fd
4 sys_stat const char *filename struct stat *statbuf
0x3b execve “/bin/sh” 0 0

32位系统调用号

系统调用 调用号 系统调用 调用号
exit 1 fork 2
read 3 write 4
open 5 close 6