應用程序在Linux上的執行過(guò)程
執行文件是如何在shell中被執行的。本文中盡可能少用一些源碼,免得太過(guò)于無(wú)聊,主要講清這個(gè)過(guò)程,感興趣的同學(xué)可以去查看相應的源碼了解更多的信息。
本文引用地址:http://dyxdggzs.com/article/201609/304786.htm1.父進(jìn)程的行為: 復制,等待
執行應用程序的方式有很多,從shell中執行是一種常見(jiàn)的情況。交互式shell是一個(gè)進(jìn)程(所有的進(jìn)程都由pid號為1的init進(jìn)程fork得到,關(guān)于這個(gè)話(huà)題涉及到Linux啟動(dòng)和初始化,以及idle進(jìn)程等,有空再說(shuō)),當在用戶(hù)在shell中敲入./test執行程序時(shí),shell先f(wàn)ork()出一個(gè)子進(jìn)程(這也是很多文章中說(shuō)的子shell),并且wait()這個(gè)子進(jìn)程結束,所以當test執行結束后,又回到了shell等待用戶(hù)輸入(如果創(chuàng )建的是所謂的后臺進(jìn)程,shell則不會(huì )等待子進(jìn)程結束,而直接繼續往下執行)。所以shell進(jìn)程的主要工作是復制一個(gè)新的進(jìn)程,并等待它的結束。
2.子進(jìn)程的行為: 執行應用程序
2.1 execve()
另一方面,在子進(jìn)程中會(huì )調用execve()加載test并開(kāi)始執行。這是test被執行的關(guān)鍵,下面我們詳細分析一下。
execve()是操作系統提供的非常重要的一個(gè)系統調用,在很多文章中被稱(chēng)為exec()系統調用(注意和shell內部exec命令不一樣),其實(shí)在Linux中并沒(méi)有exec()這個(gè)系統調用,exec只是用來(lái)描述一組函數,它們都以exec開(kāi)頭,分別是:
#include
int execl(const char *path, const char *arg, ...);
int execlp(const char *file, const char *arg, ...);
int execle(const char *path, const char *arg, ..., char *const envp[]);
int execv(const char *path, char *const argv[]);
int execvp(const char *file, char *const argv[]);
int execve(const char *path, char *const argv[], char *const envp[]);
這幾個(gè)都是都是libc中經(jīng)過(guò)包裝的的庫函數,最后通過(guò)系統調用execve()實(shí)現(#define __NR_evecve 11,編號11的系統調用)。
exec函數的作用是在當前進(jìn)程里執行可執行文件,也就是根據指定的文件名找到可執行文件,用它來(lái)取代當前進(jìn)程的內容,并且這個(gè)取代是不可逆的,即被替換掉的內容不再保存,當可執行文件結束,整個(gè)進(jìn)程也隨之僵死。因為當前進(jìn)程的代碼段,數據段和堆棧等都已經(jīng)被新的內容取代,所以exec函數族的函數執行成功后不會(huì )返回,失敗是返回-1??蓤绦形募瓤梢允嵌M(jìn)制文件,也可以是可執行的腳本文件,兩者在加載時(shí)略有差別,這里主要分析二進(jìn)制文件的運行。
2.2 do_execve()
在用戶(hù)態(tài)下調用execve(),引發(fā)系統中斷后,在內核態(tài)執行的相應函數是do_sys_execve(),而do_sys_execve()會(huì )調用do_execve()函數。do_execve()首先會(huì )讀入可執行文件,如果可執行文件不存在,會(huì )報錯。然后對可執行文件的權限進(jìn)行檢查。如果文件不是當前用戶(hù)是可執行的,則execve()會(huì )返回-1,報permission denied的錯誤。否則繼續讀入運行可執行文件時(shí)所需的信息(見(jiàn)struct linux_binprm)。
2.3 search_binary_handler()
接著(zhù)系統調用search_binary_handler(),根據可執行文件的類(lèi)型(如shell,a.out,ELF等),查找到相應的處理函數(系統為每種文件類(lèi)型創(chuàng )建了一個(gè)struct linux_binfmt,并把其串在一個(gè)鏈表上,執行時(shí)遍歷這個(gè)鏈表,找到相應類(lèi)型的結構。如果要自己定義一種可執行文件格式,也需要實(shí)現這么一個(gè)handler)。然后執行相應的load_binary()函數開(kāi)始加載可執行文件。
2.4 load_elf_binary()
加載elf類(lèi)型文件的handler是load_elf_binary(),它先讀入ELF文件的頭部,根據ELF文件的頭部信息讀入各種數據(header information)。再次掃描程序段描述表,找到類(lèi)型為PT_LOAD的段,將其映射(elf_map())到內存的固定地址上。如果沒(méi)有動(dòng)態(tài)鏈接器的描述段,把返回的入口地址設置成應用程序入口。完成這個(gè)功能的是start_thread(),start_thread()并不啟動(dòng)一個(gè)線(xiàn)程,而只是用來(lái)修改了pt_regs中保存的PC等寄存器的值,使其指向加載的應用程序的入口。這樣當內核操作結束,返回用戶(hù)態(tài)的時(shí)候,接下來(lái)執行的就是應用程序了。
2.5 load_elf_interp()
如果應用程序中使用了動(dòng)態(tài)鏈接庫,就沒(méi)有那么簡(jiǎn)單了,內核除了加載指定的可執行文件,還要把控制權交給動(dòng)態(tài)連接器(program interpreter,ld.so in linux)以處理動(dòng)態(tài)鏈接的程序。內核搜尋段表,找到標記為PT_INTERP的段中所對應的動(dòng)態(tài)連接器的名稱(chēng),并使用load_elf_interp()加載其映像,并把返回的入口地址設置成load_elf_interp()的返回值,即動(dòng)態(tài)鏈接器入口。當execve退出的時(shí)候動(dòng)態(tài)鏈接器接著(zhù)運行。動(dòng)態(tài)連接器檢查應用程序對共享連接庫的依賴(lài)性,并在需要時(shí)對其進(jìn)行加載,對程序的外部引用進(jìn)行重定位。然后動(dòng)態(tài)連接器把控制權交給應用程序,從ELF文件頭部中定義的程序進(jìn)入點(diǎn)開(kāi)始執行。(比如test.c中使用了userlib.so中函數foo(),在編譯的時(shí)候這個(gè)信息被放進(jìn)了test這個(gè)ELF文件中,相應的語(yǔ)句也變成了call fakefoo()。當加載test的時(shí)候,知道foo()是一個(gè)外部調用,于是求助于動(dòng)態(tài)鏈接器,加載userlib.so,解析foo()函數地址,然后讓fakefoo()重定向到foo(),這樣call foo()就成功了。)
簡(jiǎn)短的說(shuō),整個(gè)在shell中鍵入./test執行應用程序的過(guò)程為:當前shell進(jìn)程fork出一個(gè)子進(jìn)程(子shell),子進(jìn)程使用execve來(lái)脫離和父進(jìn)程的關(guān)系,加載test文件(ELF格式)到內存中。如果test使用了動(dòng)態(tài)鏈接庫,就需要加載動(dòng)態(tài)鏈接器(或者叫程序解釋器),進(jìn)一步加載test使用到的動(dòng)態(tài)鏈接庫到內存,并重定位以供test調用。最后從test的入口地址開(kāi)始執行test。
PS: 現代的動(dòng)態(tài)鏈接器因為性能等原因都采用了延遲加載和延遲解析技術(shù),延遲加載是動(dòng)態(tài)連接庫在需要的時(shí)候才被加載到內存空間中(通過(guò)頁(yè)面異常機制),延遲解析是指到動(dòng)態(tài)鏈接庫(以加載)中的函數被調用的時(shí)候,才會(huì )去把這個(gè)函數的起始地址解析出來(lái),供調用者使用。動(dòng)態(tài)鏈接器的實(shí)現相當的復雜,為了性能等原因,對堆棧的直接操作被大量使用,感興趣的可以找相關(guān)的代碼看看。
評論