system_call到iret过程分析

基础知识

中断的分类

（1）中断有两种，一种是由CPU外部硬件产生的，另一种是由CPU本身执行程序的过程中产生的；外部中断即我们所说的中断（interrupt），外部中断是异步的，由硬件产生，我们无法预测它什么时候发生；
（2）x86软件产生的中断是由“INT n”同步产生的，由程序产生，只要CPU执行了一条INT指令，就知道在开始执行下一条指令前就会进入中断服务程序，我们又称此类中断为“陷阱”；int 80为系统调用的陷阱号；
（3）异常，是被动的，如页面异常，除数为0的异常；
因此系统调用是中断中的陷阱的一种，系统调用只发生在用户空间，必然会发生用户栈和内核栈的切换。

中断的过程

　　在linux内核启动过程中，start_kernel中trap_init()函数初始化了中断门，通过set_system_intr_gate->set_gate进行设置，通过write_idt_entry将中断信息写进中断描述符表IDT，中断描述符表（Interrupt Descriptor Table，IDT）是一个系统表，它与每一个中断或异常向量相联系，每一个向量在表中存放的是相应的中断或异常处理程序的入口地址，当处于实模式下时，IDT 被初始化并由 BIOS 程序所使用。然而，一旦 Linux 开始接管，IDT 就被移到另一个区域，并进行第二次初始化。
　　　当中断发生时，通过中断描述符表IDT获取中断服务程序入口地址，调用相应的中断服务程序，而int 0x80的中断服务程序就是system_call

实验过程

修改test.c文件

将fork和fork-asm函数添加到test.c文件中，如下图：

运行效果如下：

system_call代码分析

system_call代码

ENTRY(system_call)
	RING0_INT_FRAME			# can't unwind into user space anyway
	ASM_CLAC
	pushl_cfi %eax			# save orig_eax
	SAVE_ALL
	GET_THREAD_INFO(%ebp)
					# system call tracing in operation / emulation
	testl $_TIF_WORK_SYSCALL_ENTRY,TI_flags(%ebp)
	jnz syscall_trace_entry
	cmpl $(NR_syscalls), %eax
	jae syscall_badsys
syscall_call:
	call *sys_call_table(,%eax,4)
syscall_after_call:
	movl %eax,PT_EAX(%esp)		# store the return value
syscall_exit:
	LOCKDEP_SYS_EXIT
	DISABLE_INTERRUPTS(CLBR_ANY)	# make sure we don't miss an interrupt
					# setting need_resched or sigpending
					# between sampling and the iret
	TRACE_IRQS_OFF
	movl TI_flags(%ebp), %ecx
	testl $_TIF_ALLWORK_MASK, %ecx	# current->work
	jne syscall_exit_work

下面我们看看SAVE_ALL执行了哪些操作，对fork系统调用一文中我们对linux-0.11内核版本的进行分析，了解到system_call会保存用户态堆栈的相关寄存器，下面就是对应的保存操作

SAVE_ALL代码

.macro SAVE_ALL
	cld
	PUSH_GS
	pushl_cfi %fs
	/*CFI_REL_OFFSET fs, 0;*/
	pushl_cfi %es
	/*CFI_REL_OFFSET es, 0;*/
	pushl_cfi %ds
	/*CFI_REL_OFFSET ds, 0;*/
	pushl_cfi %eax
	CFI_REL_OFFSET eax, 0
	pushl_cfi %ebp
	CFI_REL_OFFSET ebp, 0
	pushl_cfi %edi
	CFI_REL_OFFSET edi, 0
	pushl_cfi %esi
	CFI_REL_OFFSET esi, 0
	pushl_cfi %edx
	CFI_REL_OFFSET edx, 0
	pushl_cfi %ecx
	CFI_REL_OFFSET ecx, 0
	pushl_cfi %ebx
	CFI_REL_OFFSET ebx, 0
	movl $(__USER_DS), %edx
	movl %edx, %ds                                                  
	movl %edx, %es
	movl $(__KERNEL_PERCPU), %edx
	movl %edx, %fs
	SET_KERNEL_GS %edx
.endm

　　我们通过syscall_call进行系统调用（这部分已经在fork系统调用一文中阐述过了）后，在syscall_after_call中进行返回，返回的结果保存在eax寄存器中。然后顺序执行到syscall_exit，这部分首先关闭中断，保证不被其它中断和信号打扰。然后判断是否响应其它中断或信号，如果所有标志都没设置，就直接restore_all,恢复原来进程的执行，如果有的话就进入syscall_exit_work。然后判断是否还有任务，如果有就跳转到work_pending。

work_pending代码

work_pending:
	testb $_TIF_NEED_RESCHED, %cl
	jz work_notifysig
work_resched:
	call schedule
	LOCKDEP_SYS_EXIT
	DISABLE_INTERRUPTS(CLBR_ANY)	# make sure we don't miss an interrupt
        ...
	jz restore_all

　　在work_pending中先判断NEED_RESCHED位，如果置位了就执行work_resched段代码，被动调度当前进程，调度完还会继续判断是否还有任务，是否还有调度进程，这里是一个循环处理，直到判断没置位，就继续处理当前进程未处理的信号，最后会跳转到resume_userspace，恢复到用户态。

resume_userspace

ENTRY(resume_userspace)
	LOCKDEP_SYS_EXIT
 	DISABLE_INTERRUPTS(CLBR_ANY)	# make sure we don't miss an interrupt
					# setting need_resched or sigpending
					# between sampling and the iret
	TRACE_IRQS_OFF
	movl TI_flags(%ebp), %ecx
	andl $_TIF_WORK_MASK, %ecx	# is there any work to be done on
					# int/exception return?
	jne work_pending
	jmp restore_all
END(ret_from_exception)

　　在系统调用或中断，异常返回到用户态之前内核都会检查是否有信号在当前进程中挂起，然后转而去处理这些信号。

具体的从system_call开始到iret结束之间的整个过程如下图：

参考资料：
http://www.2cto.com/os/201404/292864.html
http://blog.csdn.net/yaozhenguo2006/article/details/7313956
理解系统调用的原理（二）