<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 模擬技術(shù) > 設計應用 > 基于盒式圖的數據過(guò)濾與回歸分析算法

基于盒式圖的數據過(guò)濾與回歸分析算法

作者：時(shí)間：2010-07-30 來(lái)源：網(wǎng)絡(luò )

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

收藏

軟件度量是對軟件開(kāi)發(fā)項目、過(guò)程及其產(chǎn)品進(jìn)行數據定義、收集以及分析的持續性定量化過(guò)程，目的在于對此加以理解、預測、評估、控制和改善，從而保證軟件開(kāi)發(fā)中的高效率、低成本、高質(zhì)量[1]。但是，得到正確的度量只是測量程序的一部分。軟件質(zhì)量是與所收集和分析的數據質(zhì)量密切相關(guān)的，數據清洗過(guò)程的目的就是要解決“臟數據”的問(wèn)題。數據清洗是指去除或修補源數據中的不完整、不一致、含噪聲的數據。在源數據中，可能由于疏忽、懶惰，甚至為了保密使系統設計人員無(wú)法得到某些數據項的數據[2]。根據決策系統中“garbage in garbage out”(如果輸入的分析數據是垃圾則輸出的分析結果也將是垃圾)原理，必須處理這些噪聲數據。去掉噪聲平滑數據的技術(shù)主要有分箱(binning)、聚類(lèi)(clustering)、回歸(regression)等[3]。本文在回歸分析的基礎上，加入了盒形圖進(jìn)行數據過(guò)濾，從而得出一條線(xiàn)性回歸直線(xiàn)，使模式或者關(guān)系變得更加明顯，從而用這些模式和關(guān)系對測量的屬性作出判斷。
1 盒形圖和回歸分析簡(jiǎn)介
1.1 盒形圖
該方法可以描述數據集取值范圍的情況，展示數據主要聚集的區域，發(fā)現離群數據可能的位置，以便于對離群數據進(jìn)行處理。盒形圖顯示一個(gè)變量的信息，如對相同CMM等級的不同項目完成每個(gè)FP的工作量分析，根據中位數m、上四分位數u、下四分位數l、盒長(cháng)d、和尾(tail)來(lái)分析。
中位數是在數據集中排列居中的項。也就是說(shuō)，如果中位數取值為m，則數據集中有一半的值大于m，一半的值小于m。將所有數值按大小順序排列并分成四等份，處于三個(gè)分割點(diǎn)位置的得分就是四分位數。最小的四分位數稱(chēng)為下四分位數l，所有數值中，有四分之一小于下四分位數，四分之三大于下四分位數。中點(diǎn)位置的四分位數就是中位數。最大的四分位數稱(chēng)為上四分位數u，所有數值中，有四分之三小于上四分位數，四分之一大于上四分位數。也有叫第25百分位數、第75百分位數的。將上四分位數和下四分位數的距離定義為盒長(cháng)d，因此，d=u-l。接下來(lái)定義分布的尾(tail)。理論上，上尾值點(diǎn)為u+1.5d，下尾值為u-1.5d，這些值必須進(jìn)行舍位處理，以接近真實(shí)數據，位于上尾和下尾之外的值稱(chēng)為離群值。
1.2 回歸分析方法
回歸分析方法是研究要素之間具體數量關(guān)系的強有力的工具，運用這種方法能夠建立反映要素之間具體的數量關(guān)系的數學(xué)模型，即回歸模型。線(xiàn)性回歸技術(shù)的基礎就是散點(diǎn)圖。將每個(gè)屬性對表示為一個(gè)數據點(diǎn)(x，y)，然后用回歸技術(shù)計算出能夠最好地擬合這些點(diǎn)的直線(xiàn)。目標是將屬性y(因變量)根據屬性x(自變量)表示為等式：y=a+bx。
線(xiàn)性回歸的理論是從每個(gè)點(diǎn)垂直向上或向下畫(huà)一條線(xiàn)段到趨勢直線(xiàn)，表示從數據點(diǎn)到趨勢直線(xiàn)的垂直距離。在某種意義上，這些線(xiàn)段的長(cháng)度表示數據和直線(xiàn)的差異，且這種差異應盡可能地小。因此，“最佳擬合”的直線(xiàn)式是指使該距離最小的直線(xiàn)。
在數學(xué)上要計算“最佳擬合”直線(xiàn)的斜率b和截距a是很簡(jiǎn)單的。每個(gè)點(diǎn)的差異稱(chēng)為殘差，生成線(xiàn)性回歸直線(xiàn)的公式是殘差的平方和達到最小?？梢詫⒚總€(gè)數據點(diǎn)的殘差表示為：

2 算法實(shí)現
在進(jìn)行數據清洗時(shí)，由于數據是無(wú)序輸入的，所以先對其排序，再用盒形圖法行數據清洗。以下是偽代碼：
void BubbleSort(double m，double q，int n) //先對輸入
//的數據進(jìn)行冒泡排序，并相應修改
//第二組數據的順序，以保證它們之間的對應關(guān)系
{ for(int i=0；in；i++)
　　 for(int j=n-1；j>i；j--)
　　 {
　　輸入數據的排序
　　修改第二組數據
　　 }
}
void box(double *m，double *q，int n) //盒形法篩選
//掉離群項目工作量數據，n為輸入數據個(gè)數，m、q為指針
{
double a，b，c，top，bottom，l； //上分位a，中位數b，//下分位c
　　 if(n%2==0) //計算出3個(gè)四分位數
　　 {
　　 b=(*(m+n/2)+*(m+n/2-1))/2； //數據個(gè)數為
//偶數時(shí)，中位數取中間兩數的平均值
　　 a=*(m+n/4)；
　　 c=*(m+3*n/4)； }
}
　　 else
　　 { b=*(m+n/2)；
　　 a=*(m+n/4)；
　　 c=*(m+3*n/4)； }
l=c-a； top=c+1.5*l；bottom=c-1.5*l； //計算出盒
//長(cháng)，上尾數，下尾數
if(bottom0) bottom=m； //并進(jìn)行必要的舍位處理
　　 int j=n；
　　 for(int i=0；ij；i++) //判斷是否為離群值，
{
　　 if(*(m+i)>top‖*(m+i)bottom)
　　如有，將其從數組中剔去
}
}

上一頁(yè) 1 2 下一頁(yè)

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞：數據 回歸分析 算法

評論

相關(guān)推薦

數據監視器用水平偏轉線(xiàn)圈電路

設計方案數據監視器水平偏轉線(xiàn)圈 | 2009-07-06

電工電子學(xué)常用英文縮寫(xiě)

hpnet | 2002-07-19

網(wǎng)絡(luò )智能控制調壓開(kāi)關(guān)（數據調壓開(kāi)關(guān)）

設計方案網(wǎng)絡(luò ) 智能控制調壓開(kāi)關(guān) 數據 | 2009-07-06

PGA102構成的數據增益高速串級放大器

設計方案 PGA102 構成數據增益高速串級放大器 | 2009-07-06

ICS實(shí)時(shí)數據獲取與實(shí)時(shí)信號處理系列產(chǎn)品

hpnet | 2002-07-01

數據總線(xiàn)檢測電路

設計方案數據總線(xiàn) 檢測 | 2009-07-06

PID算法原理介紹

PID 算法工業(yè)控制調節器 | 2023-11-28

第七講：編碼風(fēng)格（Coding Style）

資源下載 CNASIC 編碼數據函數源文件指針 | 2007-02-09

SHIPT算法擠壓了外包工人如何對雇主進(jìn)行審計

智能計算 SHIPT 算法算法管理 | 2024-07-04

變步長(cháng)自適應盲源分離算法的設計研究

智能計算 202306 盲源分離算法自適應步長(cháng) 收斂穩態(tài)失調 | 2023-07-07

網(wǎng)絡(luò )維護幾種優(yōu)化工具

hpnet | 2002-05-17

超強整理！電機控制算法

電機算法 BLDC | 2024-05-21

[轉帖]us/os就緒表的維護算法分析

amine | 2002-05-17

優(yōu)化下一代汽車(chē)架構，Molex莫仕推出MX-DaSH數據-信號混合連接器，整合高速數據、信號和電源連接

元件/連接器汽車(chē)架構 Molex 莫仕數據-信號混合連接器 | 2024-05-08

VxWorks該怎么收發(fā)Ethernet和HDLC的數據包(老站轉)

amine | 2002-05-31

加密算法之MD5算法

資源下載加密算法加密算法 MD5算法 | 2007-02-16

PID算法

資源下載 PID 算法誤差 | 2007-02-16

LabVIEW 網(wǎng)絡(luò )講壇第一季之點(diǎn)石成金-實(shí)現最有效的數據表達

視頻 LabVIEW講座 LabVIEW 數據 | 2013-01-24

單片機的數字濾波算法

嵌入式系統單片機濾波算法數字濾波 | 2023-11-21

單片機幾個(gè)重要的概念

資源下載單片機總線(xiàn) 數據 IO口 | 2007-02-16

嵌入式開(kāi)發(fā)者都該了解的十大算法

嵌入式開(kāi)發(fā)者算法 | 2024-07-16

英偉達Q1營(yíng)收260.4億美元同比增長(cháng)262%，凈利148.8億

智能計算英偉達芯片人工智能 GPU 數據 | 2024-05-23

蘋(píng)果發(fā)布DeepPCR機器學(xué)習算法：加速神經(jīng)網(wǎng)絡(luò )的推理和訓練

蘋(píng)果 DeepPCR 機器學(xué)習算法神經(jīng)網(wǎng)絡(luò ) | 2023-12-20

微軟AI研究人員意外暴露大量?jì)炔繑祿?，因云存儲鏈接配置錯誤

智能計算微軟 AI 數據云存儲 | 2023-09-19

數字PID控制算法之一

資源下載 PID PID控制算法 | 2007-12-28

數據監視器用視頻末級放大器電路

設計方案數據監視器視頻末級放大器 | 2009-07-06

焦點(diǎn)

推薦視頻

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>