嵌入式系統在曙光4000A大規模機群監控系統中的應用
嵌入式系統是以應用為中心,以計算機技術(shù)為基礎,并且軟硬件可裁剪,適用于應用系統對功能、可靠性、成本、體積、功耗有嚴格要求的專(zhuān)用計算機系統。它一般由嵌入式微處理器、外圍硬件設備、嵌入式操作系統以及用戶(hù)的應用程序等四個(gè)部分組成,用于實(shí)現對其他設備的控制、監視或管理等功能。它具有小型化、低成本、高可靠、高靈活性等特點(diǎn)。
本文引用地址:http://dyxdggzs.com/article/152555.htm由于上述優(yōu)點(diǎn),曙光4000A大規模機群監控系統在信息數據流的傳輸過(guò)程中,采用嵌入式系統作為數據信息匯總并且發(fā)送到監控節點(diǎn)的平臺。
本文介紹了首先介紹了曙光4000A大規模機群監控系統的功能和結構,然后介紹了嵌入式系統在其中的應用,最后提出了這個(gè)實(shí)例今后的發(fā)展方向并總結全文。
1.1 背景分析及項目意義
隨著(zhù)機群系統的發(fā)展,機群的規模越來(lái)越大。當機群的節點(diǎn)數達到幾百個(gè)以上時(shí),對這種大規模機群的管理和維護就會(huì )有很大的困難。一種解決方案就是對機群從硬件上配備監控系統。這種監控系統一方面需要收集所有節點(diǎn)機的硬件和軟件的實(shí)時(shí)信息,另外一方面需要隨時(shí)登陸出問(wèn)題的節點(diǎn)機上進(jìn)行管理,或者進(jìn)行遠程安裝操作系統等工作。有時(shí)監控系統還需要遠程啟動(dòng)機器或者遠程對機器進(jìn)行熱啟動(dòng)。
曙光4000A超級計算機由640個(gè)計算節點(diǎn)構成,這樣的大規模機群監控系統中,針對上述問(wèn)題,可以在節點(diǎn)機上安裝專(zhuān)門(mén)負責收集節點(diǎn)機信息以及節點(diǎn)機鼠標鍵盤(pán)和VGA信號的節點(diǎn)卡。這樣大大簡(jiǎn)化了系統的連接方式,使系統管理員可以在控制室監視整個(gè)機群系統的運行情況并可以對任意一臺節點(diǎn)進(jìn)行類(lèi)似本地的操作,而不需要進(jìn)入機房。
1.2監控系統的各部分功能劃分
曙光4000A大規模機群監控系統從硬件上分成四部分,包括節點(diǎn)卡、采集卡(多路器)、監控屏幕、終端機等四個(gè)部分。整個(gè)系統架構如圖1所示:
圖1 系統結構圖
Figure 1 Structure of the system
采集卡(多路器)最多支持8組節點(diǎn)機,每組最多可支持128個(gè)節點(diǎn)機。節點(diǎn)卡安裝在節點(diǎn)機內部,每個(gè)節點(diǎn)卡有兩個(gè)RJ45接口,作為數據總線(xiàn)接口,負責傳送鍵盤(pán)鼠標操作信息、KVM命令信息、以及監控信息。同時(shí)由于主板提供開(kāi)機、重啟等電信號的接口,可以通過(guò)KVM系統來(lái)進(jìn)行節點(diǎn)機的開(kāi)機、重啟等工作。
該監控系統需要完成以下功能:
1.收集所有節點(diǎn)機的硬件信息并發(fā)送給監控節點(diǎn);
2.實(shí)現機群最大1024節點(diǎn)任意節點(diǎn)的KVM切換和登陸,KVM支持OSD操作;
3.通過(guò)KVM系統可以進(jìn)行對任意節點(diǎn)進(jìn)行開(kāi)機,重啟(冷啟動(dòng))等工作(按需求待定);
4.節點(diǎn)機監控屏顯示,節點(diǎn)號設置,自動(dòng)順序開(kāi)機等(按需求看是否需要監控屏)。
二:嵌入式系統的引入
2.1 采集卡(多路器)的結構
曙光4000A大規模機群監控系統的核心是采集卡,采集卡集成多路器功能。一方面,采用8×1的模擬開(kāi)關(guān),支持1個(gè)終端盒,通過(guò)終端盒就可以操作整個(gè)機群中的任意一個(gè)節點(diǎn),從而實(shí)現了多路器的功能。另一方面,采集卡還要運行應用程序,分別收集8路總線(xiàn)上節點(diǎn)的監控信息,然后通過(guò)采集卡集成的8路網(wǎng)口把收集的節點(diǎn)機的信息通過(guò)以太網(wǎng)傳送給監控節點(diǎn),最終由監控節點(diǎn)顯示在監控屏幕上。
雖然采集卡總的數據流量并不是很大,性能的要求也不是很高,但是考慮到系統的可移植性、易用性和系統的可擴展性,這個(gè)環(huán)節最好用一個(gè)嵌入式系統來(lái)實(shí)現。
每個(gè)節點(diǎn)機上的信息由節點(diǎn)卡收集,這些信息在匯總的過(guò)程中,采取輪循的方式收集,可以避免遺漏節點(diǎn)機信息。如果直接使用采集卡主芯片輪循收集,不但占用了采集卡的大量資源,更重要的是不能保證采集卡及時(shí)響應監控節點(diǎn)命令,從而不能把匯總的信息及時(shí)發(fā)送給監控節點(diǎn),這樣會(huì )在監控屏幕上顯示錯誤的節點(diǎn)機信息。因此在采集卡中還集成了一個(gè)單片機,這個(gè)單片機的作用就是收集相連的這一組節點(diǎn)機的信息,保存在本地緩沖區中,然后通過(guò)IIC總線(xiàn)發(fā)送給采集卡的主芯片。
linux操作系統文章專(zhuān)題:linux操作系統詳解(linux不再難懂)
評論