IO系統衡量性能的幾個(gè)指標
作為一個(gè)數據庫管理員,關(guān)注系統的性能是日常最重要的工作之一,而在所關(guān)注的各方面的性能只能IO性能卻是最令人頭痛的一塊,面對著(zhù)各種生澀的參數和令人眼花繚亂的新奇的術(shù)語(yǔ),再加上存儲廠(chǎng)商的忽悠,總是讓我們有種云里霧里的感覺(jué)。本系列文章試圖從基本概念開(kāi)始對磁盤(pán)存儲相關(guān)的各種概念進(jìn)行綜合歸納,讓大家能夠對IO性能相關(guān)的基本概念,IO性能的監控和調整有個(gè)比較全面的了解。
本文引用地址:http://dyxdggzs.com/article/150906.htm在這一部分里我們先舍棄各種結構復雜的存儲系統,直接研究一個(gè)單獨的磁盤(pán)的性能問(wèn)題,藉此了解各個(gè)衡量IO系統系能的各個(gè)指標以及之間的關(guān)系。需要注意的是,本文探討的僅限于磁盤(pán)IO性能,網(wǎng)絡(luò )IO性能不考慮在內。
幾個(gè)基本的概念
在研究磁盤(pán)性能之前我們必須先了解磁盤(pán)的結構,以及工作原理。不過(guò)在這里就不再重復說(shuō)明了,關(guān)系硬盤(pán)結構和工作原理的信息可以參考維基百科上面的相關(guān)詞條——Hard disk drive(英文)和硬盤(pán)驅動(dòng)器(中文)。
讀寫(xiě)IO(Read/Write IO)操作
磁盤(pán)是用來(lái)給我們存取數據用的,因此當說(shuō)到IO操作的時(shí)候,就會(huì )存在兩種相對應的操作,存數據時(shí)候對應的是寫(xiě)IO操作,取數據的時(shí)候對應的是是讀IO操作。
單個(gè)IO操作
當控制磁盤(pán)的控制器接到操作系統的讀IO操作指令的時(shí)候,控制器就會(huì )給磁盤(pán)發(fā)出一個(gè)讀數據的指令,并同時(shí)將要讀取的數據塊的地址傳遞給磁盤(pán),然后磁盤(pán)會(huì )將讀取到的數據傳給控制器,并由控制器返回給操作系統,完成一個(gè)寫(xiě)IO的操作;同樣的,一個(gè)寫(xiě)IO的操作也類(lèi)似,控制器接到寫(xiě)的IO操作的指令和要寫(xiě)入的數據,并將其傳遞給磁盤(pán),磁盤(pán)在數據寫(xiě)入完成之后將操作結果傳遞回控制器,再由控制器返回給操作系統,完成一個(gè)寫(xiě)IO的操作。單個(gè)IO操作指的就是完成一個(gè)寫(xiě)IO或者是讀IO的操作。
隨機訪(fǎng)問(wèn)(Random Access)與連續訪(fǎng)問(wèn)(Sequential Access)
隨機訪(fǎng)問(wèn)指的是本次IO所給出的扇區地址和上次IO給出扇區地址相差比較大,這樣的話(huà)磁頭在兩次IO操作之間需要作比較大的移動(dòng)動(dòng)作才能重新開(kāi)始讀/寫(xiě)數據。相反的,如果當次IO給出的扇區地址與上次IO結束的扇區地址一致或者是接近的話(huà),那磁頭就能很快的開(kāi)始這次IO操作,這樣的多個(gè)IO操作稱(chēng)為連續訪(fǎng)問(wèn)。因此盡管相鄰的兩次IO操作在同一時(shí)刻發(fā)出,但如果它們的請求的扇區地址相差很大的話(huà)也只能稱(chēng)為隨機訪(fǎng)問(wèn),而非連續訪(fǎng)問(wèn)。
順序IO模式(Queue Mode)/并發(fā)IO模式(Burst Mode)
磁盤(pán)控制器可能會(huì )一次對磁盤(pán)組發(fā)出一連串的IO命令,如果磁盤(pán)組一次只能執行一個(gè)IO命令時(shí)稱(chēng)為順序IO;當磁盤(pán)組能同時(shí)執行多個(gè)IO命令時(shí),稱(chēng)為并發(fā)IO。并發(fā)IO只能發(fā)生在由多個(gè)磁盤(pán)組成的磁盤(pán)組上,單塊磁盤(pán)只能一次處理一個(gè)IO命令。
第2頁(yè):?jiǎn)蝹€(gè)IO的大小(IO Chunk Size)
單個(gè)IO的大小(IO Chunk Size)
熟悉數據庫的人都會(huì )有這么一個(gè)概念,那就是數據庫存儲有個(gè)基本的塊大小(Block Size),不管是SQL Server還是Oracle,默認的塊大小都是8KB,就是數據庫每次讀寫(xiě)都是以8k為單位的。那么對于數據庫應用發(fā)出的固定8k大小的單次讀寫(xiě)到了寫(xiě)磁盤(pán)這個(gè)層面會(huì )是怎么樣的呢,就是對于讀寫(xiě)磁盤(pán)來(lái)說(shuō)單個(gè)IO操作操作數據的大小是多少呢,是不是也是一個(gè)固定的值?
答案是不確定。首先操作系統為了提高 IO的性能而引入了文件系統緩存(File System Cache),系統會(huì )根據請求數據的情況將多個(gè)來(lái)自IO的請求先放在緩存里面,然后再一次性的提交給磁盤(pán),也就是說(shuō)對于數據庫發(fā)出的多個(gè)8K數據塊的讀操作有可能放在一個(gè)磁盤(pán)讀IO里就處理了。
還有對于有些存儲系統也是提供了緩存(Cache)的,接收到操作系統的IO請求之后也是會(huì )將多個(gè)操作系統的 IO請求合并成一個(gè)來(lái)處理。不管是操作系統層面的緩存還是磁盤(pán)控制器層面的緩存,目的都只有一個(gè),提高數據讀寫(xiě)的效率。因此每次單獨的IO操作大小都是不一樣的,它主要取決于系統對于數據讀寫(xiě)效率的判斷。
當一次IO操作大小比較小的時(shí)候我們成為小的IO操作,比如說(shuō)1K,4K,8K這樣的;當一次IO操作的數據量比較的的時(shí)候稱(chēng)為大IO操作,比如說(shuō)32K,64K甚至更大。
在我們說(shuō)到塊大小(Block Size)的時(shí)候通常我們會(huì )接觸到多個(gè)類(lèi)似的概念,像我們上面提到的那個(gè)在數據庫里面的數據最小的管理單位,Oralce稱(chēng)之為塊(Block),大小一般為8K,SQL Server稱(chēng)之為頁(yè)(Page),一般大小也為8k。
在文件系統里面我們也能碰到一個(gè)文件系統的塊,在現在很多的Linux系統中都是4K(通過(guò) /usr/bin/time -v可以看到),它的作用其實(shí)跟數據庫里面的塊/頁(yè)是一樣的,都是為了方便數據的管理。但是說(shuō)到單次IO的大小,跟這些塊的大小都是沒(méi)有直接關(guān)系的,在英文里單次IO大小通常被稱(chēng)為是IO Chunk Size,不會(huì )說(shuō)成是IO Block Size的。
第3頁(yè):IOPS(IO per Second)
IOPS(IO per Second)
IOPS,IO系統每秒所執行IO操作的次數,是一個(gè)重要的用來(lái)衡量系統IO能力的一個(gè)參數。對于單個(gè)磁盤(pán)組成的IO系統來(lái)說(shuō),計算它的IOPS不是一件很難的事情,只要我們知道了系統完成一次IO所需要的時(shí)間的話(huà)我們就能推算出系統IOPS來(lái)。
現在我們就來(lái)推算一下磁盤(pán)的IOPS,假設磁盤(pán)的轉速(Rotational Speed)為15K RPM,平均尋道時(shí)間為5ms,最大傳輸速率為40MB/s(這里將讀寫(xiě)速度視為一樣,實(shí)際會(huì )差別比較大)。
對于磁盤(pán)來(lái)說(shuō)一個(gè)完整的IO操作是這樣進(jìn)行的:當控制器對磁盤(pán)發(fā)出一個(gè)IO操作命令的時(shí)候,磁盤(pán)的驅動(dòng)臂(Actuator Arm)帶讀寫(xiě)磁頭(Head)離開(kāi)著(zhù)陸區(Landing Zone,位于內圈沒(méi)有數據的區域),移動(dòng)到要操作的初始數據塊所在的磁道(Track)的正上方,這個(gè)過(guò)程被稱(chēng)為尋址(Seeking),對應消耗的時(shí)間被稱(chēng)為尋址時(shí)間(Seek Time);但是找到對應磁道還不能馬上讀取數據,這時(shí)候磁頭要等到磁盤(pán)盤(pán)片(Platter)旋轉到初始數據塊所在的扇區(Sector)落在讀寫(xiě)磁頭正上方的之后才能開(kāi)始讀取數據,在這個(gè)等待盤(pán)片旋轉到可操作扇區的過(guò)程中消耗的時(shí)間稱(chēng)為旋轉延時(shí)(Rotational Delay);接下來(lái)就隨著(zhù)盤(pán)片的旋轉,磁頭不斷的讀/寫(xiě)相應的數據塊,直到完成這次IO所需要操作的全部數據,這個(gè)過(guò)程稱(chēng)為數據傳送(Data Transfer),對應的時(shí)間稱(chēng)為傳送時(shí)間(Transfer Time)。完成這三個(gè)步驟之后一次IO操作也就完成了。
在我們看硬盤(pán)廠(chǎng)商的宣傳單的時(shí)候我們經(jīng)常能看到3個(gè)參數,分別是平均尋址時(shí)間、盤(pán)片旋轉速度以及最大傳送速度,這三個(gè)參數就可以提供給我們計算上述三個(gè)步驟的時(shí)間。
第一個(gè)尋址時(shí)間,考慮到被讀寫(xiě)的數據可能在磁盤(pán)的任意一個(gè)磁道,既有可能在磁盤(pán)的最內圈(尋址時(shí)間最短),也可能在磁盤(pán)的最外圈(尋址時(shí)間最長(cháng)),所以在計算中我們只考慮平均尋址時(shí)間,也就是磁盤(pán)參數中標明的那個(gè)平均尋址時(shí)間,這里就采用當前最多的10krmp硬盤(pán)的5ms。
第二個(gè)旋轉延時(shí),和尋址一樣,當磁頭定位到磁道之后有可能正好在要讀寫(xiě)扇區之上,這時(shí)候是不需要額外額延時(shí)就可以立刻讀寫(xiě)到數據,但是最壞的情況確實(shí)要磁盤(pán)旋轉整整一圈之后磁頭才能讀取到數據,所以這里我們也考慮的是平均旋轉延時(shí),對于10krpm的磁盤(pán)就是(60s/15k)*(1/2) = 2ms。
第三個(gè)傳送時(shí)間,磁盤(pán)參數提供我們的最大的傳輸速度,當然要達到這種速度是很有難度的,但是這個(gè)速度卻是磁盤(pán)純讀寫(xiě)磁盤(pán)的速度,因此只要給定了單次 IO的大小,我們就知道磁盤(pán)需要花費多少時(shí)間在數據傳送上,這個(gè)時(shí)間就是IO Chunk Size / Max Transfer Rate。
第4頁(yè):IOPS計算公式
評論