非結構化海量網(wǎng)絡(luò )數據處理技術(shù)研究
1.3 網(wǎng)絡(luò )數據包個(gè)數多
為提高發(fā)包效率,使發(fā)包延遲時(shí)間盡可能小,將數據包在采集后快速的發(fā)送出去,ARCA公司的采集器規定每個(gè)數據包的大小在設計上不允許超過(guò)1 500 B。同時(shí),現在的測試參數都是高采樣率,在這樣的測試系統條件下,一個(gè)網(wǎng)絡(luò )數據包可記錄的參數量非常有限,必然會(huì )產(chǎn)生惟一標示的單個(gè)網(wǎng)絡(luò )數據包的個(gè)數激增。
1.4 網(wǎng)絡(luò )數據包非結構化
網(wǎng)絡(luò )數據包具有典型的非結構化。在采集器端,按照測試系統的配置采集參數,并形成網(wǎng)絡(luò )數據包。對于交換機而言,單個(gè)網(wǎng)絡(luò )數據包的到來(lái)和發(fā)送沒(méi)有完整的規則。在記錄器上記錄的原始網(wǎng)絡(luò )數據包數據,在數據包的排列順序上是無(wú)序的,數據包的周期是不確定的。不能準確預測到下一個(gè)網(wǎng)絡(luò )數據包到來(lái)的順序和時(shí)間。
2 網(wǎng)絡(luò )數據處理方法
針對以上網(wǎng)絡(luò )數據包的特點(diǎn):最新的網(wǎng)絡(luò )數據包格式和記錄格式,海量的原始數據,數目龐大的測試參數,典型的非結構化,以及上千萬(wàn)、上億的單個(gè)網(wǎng)絡(luò )數據包。根據飛行試驗的特點(diǎn),必須在盡可能短的時(shí)間內給出飛行試驗的數據分析結果,以便試飛工程師安排接下來(lái)的飛行試驗。
2.1 內存映射文件
內存映射文件,是由一個(gè)文件到一塊內存的映射。WIN32提供了允許應用程序把文件映射到一個(gè)進(jìn)程的函數(CreateFileMapping)。使用內存映射文件處理存儲于磁盤(pán)上的文件時(shí),將不必再對文件執行I/O操作,使得內存映射文件在處理大數據量的文件時(shí)能起到相當重要的作用。在處理飛行試驗海量網(wǎng)絡(luò )數據時(shí),需不斷地提取數據的,進(jìn)行判斷、跳過(guò)等文件操作。如果按照以往的文件指針模式去提取網(wǎng)絡(luò )數據,在數據處理效率上有可能不能滿(mǎn)足飛行試驗海量網(wǎng)絡(luò )數據處理的需求。針對快速讀取海量原始網(wǎng)絡(luò )數據,內存映射文件模式提供了解決方法。
2.2 時(shí)間矩陣同步分析算法
針對飛行試驗原始網(wǎng)絡(luò )數據,每個(gè)單獨的網(wǎng)絡(luò )數據包總是有時(shí)間標識的。這些時(shí)間標識在整個(gè)原始文件中又是無(wú)序存放的。飛行試驗的科目所需要的數據往往存在于多個(gè)網(wǎng)絡(luò )數據包中,這些網(wǎng)絡(luò )數據包中的數據往往不會(huì )是同一時(shí)刻采集的,也就是說(shuō)網(wǎng)絡(luò )數據包的時(shí)間標識不會(huì )是同時(shí)刻的。針對網(wǎng)絡(luò )數據包的這些特性,為快速進(jìn)行網(wǎng)絡(luò )數據包的時(shí)統分析,設計了時(shí)間矩陣同步分析算法。
如圖2網(wǎng)絡(luò )數據包時(shí)間順序所示,原始網(wǎng)絡(luò )數據包的時(shí)間在順序上是無(wú)序的。本文引用地址:http://dyxdggzs.com/article/194778.htm
評論