<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 獨家 | 在Python中使用廣義極端學(xué)生化偏差（GESD）進(jìn)行異常檢測

獨家 | 在Python中使用廣義極端學(xué)生化偏差（GESD）進(jìn)行異常檢測

發(fā)布人：數據派THU 時(shí)間：2021-06-16 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

發(fā)布文章

作者：Shaleen Swarup

翻譯：歐陽(yáng)錦

校對：王可汗

本文從理論和實(shí)踐角度介紹了使用廣義極端學(xué)生化偏差（GESD）進(jìn)行異常檢測的方法，展示了Python代碼示例和相關(guān)源碼。

關(guān)鍵字：Python 異常值檢測 ESD

異常檢測在生活中起著(zhù)非常重要的作用。通常，異常數據可能與某種問(wèn)題或罕見(jiàn)事件有關(guān)，例如 ****欺詐、醫療問(wèn)題、結構缺陷、設備故障等。這種聯(lián)系使得能夠挑選出哪些數據點(diǎn)可以被視為異常值是非常有趣的，因為從商業(yè)角度識別這些事件通常是十分有趣的事情。

此外，許多統計方法對異常值的存在很敏感。例如，平均值和標準差的計算可能會(huì )被單個(gè)嚴重不準確的數據點(diǎn)所影響。檢查異常值應該是任何數據分析的常規部分，并且應該檢查潛在的異常值以查看它們是否可能是錯誤的數據。

什么是異常值檢測

任何發(fā)現數據集異常值的過(guò)程都可以被稱(chēng)為異常檢測；也就是檢測那些不合群的事物。這些異?？赡苁钱惓５木W(wǎng)絡(luò )流量，fritz上的一個(gè)傳感器，或者只是分析前識別要清理的數據。

清理的數據

https://www.bmc.com/blogs/data-normalization/

基于不同方案或方法的多種技術(shù)可以用來(lái)識別異常。例如，圖形的方法（箱線(xiàn)圖、散點(diǎn)圖）；基于距離的方案（最近鄰算法、聚類(lèi)算法）；統計方法（GESD、基于四分位數的技術(shù)）等等。每種方案都有其優(yōu)缺點(diǎn)，其效果都取決于實(shí)際用例。

在本文中，我們將重點(diǎn)關(guān)注GESD（廣義極端學(xué)生化偏差）并在Python中實(shí)現一個(gè)簡(jiǎn)單的示例以更好地了解它的原理。在開(kāi)始之前，我想說(shuō)明，這篇文章深受我的探索性數據分析教授Edward McFowland和Bhavesh Bhatt在YouTube上的機器學(xué)習和統計教程的講座的啟發(fā)。

機器學(xué)習和統計教程

https://www.youtube.com/channel/UC8ofcOdHNINiPrBA9D59Vaw

什么是廣義極端學(xué)生化偏差（Generalized Extreme Studentized Deviate）

GESD是一種簡(jiǎn)單的統計方法，用于檢測遵循近似正態(tài)分布的單變量數據集中的一個(gè)或多個(gè)異常值。統計方法假設常規數據遵循某種統計模型（或分布），而不遵循模型（或分布）的數據則是異常值。

GESD克服了Grubbs檢驗和Tietjen-Moore檢驗的主要限制：即必須明確確定疑似異常值的數量k。如果沒(méi)有正確指定k，則可能會(huì )擾亂這些測試的結論。而GESD測試只要求確定疑似異常值數量的上限。

給定上限r，GESD測試基本上執行r個(gè)單獨的測試：一個(gè)異常值的測試，兩個(gè)異常值的測試，依此類(lèi)推直到r個(gè)異常值。

GESD測試定義在以下假設上：

H0：數據集中沒(méi)有異常值

Ha：數據集中最多有r個(gè)異常值

GESM的檢驗統計量公式如下：

GESD的檢驗統計量

這里，x_bar和σ分別表示樣本均值和樣本標準差。

在GESD中，我們刪去使得 | xi - x_bar | 最大化的觀(guān)測值。然后，用n-1個(gè)觀(guān)察值重新計算上述統計量。我們重復這個(gè)過(guò)程，直到r個(gè)觀(guān)測值被移除。我們由此得到r統計量R1, R2 ……, Rr。通過(guò)代碼示例，這個(gè)過(guò)程將變得更加清晰。

對應于r檢驗統計量，由以下公式計算r的臨界值：

臨界值計算

其中 tp, ν 是具有ν自由度的t分布的100p百分點(diǎn)，并且

t分布

https://www.itl.nist.gov/div898/handbook/eda/section3/eda3664.htm

我們的顯著(zhù)性水平將用α表示。

異常值的數量是通過(guò)找到能滿(mǎn)足Ri > λi的最大的i來(lái)確定的。

Rosner的模擬研究表明，該近似臨界值對于樣本數量n ≥ 25非常準確，對于n ≥ 15也相當準確。

請注意，盡管GESD本質(zhì)上是依序使用Grubbs測試而實(shí)現的，但仍有一些重要區別：

Grubbs測試

https://www.itl.nist.gov/div898/handbook/eda/section3/eda35h1.htm

GESD測試會(huì )根據被測試的異常值的數量對臨界值進(jìn)行適當的調整，而依序使用Grubbs測試的則沒(méi)有這樣的調整。

如果遮蔽效應明顯，Grubbs 測試的依次使用可能會(huì )過(guò)早停止。

現在再鞏固一下理論部分，在Python中實(shí)現GESD以了解它的實(shí)際工作原理吧。

首先，模擬我們的數據。這里我們創(chuàng )建了0到1之間的100個(gè)隨機值。數據的散點(diǎn)圖如下所示。

現在，我們特意在數據中放入一些異常值進(jìn)行識別。

有異常值的數據

現在我們將創(chuàng )建單獨的函數來(lái)計算檢驗統計量和臨界值。

計算檢驗統計量的函數如下：

計算臨界值的函數如下：

下面這個(gè)函數將所有內容匯總在一起并執行r次以識別異常值的數量。對于每次迭代，我們使用上面的函數來(lái)計算使得|xi - x_bar| 最大化的檢驗統計量，并計算其相應的臨界值，然后從我們的數據中刪除這個(gè)觀(guān)測值以進(jìn)行下一次迭代。

在我們的數據上以5%的顯著(zhù)性水平和具有7個(gè)異常值上限的情況調用這個(gè)函數會(huì )產(chǎn)生以下結果：

可以看到一共進(jìn)行了7次檢驗。異常值的數量是通過(guò)找到滿(mǎn)足Ri > λi的最大的i來(lái)確定的。對于此示例，檢驗統計量大于臨界值（在顯著(zhù)性水平為5%時(shí)）的最大異常值數為3。因此，我們得出結論，該數據集中有3個(gè)異常值。

代碼鏈接：

https://gist.github.com/shaleenswarup/77c711ac5bade7c8735fd309d94348ef#file-gistfile1-py

這就是Python中使用GESD進(jìn)行異常檢測的實(shí)現。希望本文對您實(shí)現這種在數據中查找異常值的簡(jiǎn)單而有效的方法有所幫助。想查看更多項目，請查看作者的 Github 個(gè)人資料。

作者的 Github 個(gè)人資料

https://github.com/shaleenswarup

引用

1. bmc | Anomaly Detection with Machine Learning: An Introduction by Jonathan Johnson

2. Anomaly detection using PCA from datascience904

https://datascience904.wordpress.com/2019/10/14/anomaly-detection-using-pca/

3. Generalized ESD Test for Outliers from Engineering Statistics

https://www.itl.nist.gov/div898/handbook/eda/section3/eda35h3.htm

原文標題：

Anomaly Detection with GESD (Generalized Extreme Studentized Deviate) in Python

原文鏈接：

https://towardsdatascience.com/anomaly-detection-with-generalized-extreme-studentized-deviate-in-python-f350075900e2

*博客內容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀(guān)點(diǎn)，如有侵權請聯(lián)系工作人員刪除。

電路相關(guān)文章:電路分析基礎

pic相關(guān)文章:pic是什么

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： Python

相關(guān)推薦

簡(jiǎn)明python 教程

資源下載 Python 教程 | 2010-06-30

編程語(yǔ)言榜單：C++首次超越C，僅次榜首Python

嵌入式系統編程語(yǔ)言 C++ C語(yǔ)言 Python | 2024-06-25

TFLite模型終極開(kāi)盲盒來(lái)啦！

嵌入式系統 python joson flatc | 2024-05-10

【求助】用python寫(xiě)了一個(gè)鬧鐘，在樹(shù)莓派上沒(méi)有聲音

SeeUAgain | 2015-07-22

2月編程語(yǔ)言榜單：Go首度進(jìn)入前十名

編程語(yǔ)言 Go Python Java | 2024-02-27

資料

資源下載 Micropython TPYBoard 編程 python | 2018-05-11

Python CMOS傳感器演示

視頻 onsemi Python CMOS傳感器半導體汽車(chē)影像 | 2016-02-19

PyAnsys結合Python擷取分析工程仿真數據

智能計算 PyAnsys Python 分析工程仿真數據 | 2023-10-08

使用Python進(jìn)行SDS示波器屏幕圖像捕獲

測試測量 Python SDS 示波器屏幕圖像捕獲 | 2024-06-24

使用Python和Anaconda平臺啟用面部檢測

big白菜 | 2018-11-01

TPYBoardv102+v202家庭無(wú)線(xiàn)溫濕度檢測

資源下載 python mucripython stm32 stm32f405 | 2017-05-21

Python玩轉硬件：TPYBoard-Micropython開(kāi)發(fā)板大盤(pán)點(diǎn)

bodasister | 2017-08-05

泰克推出面向測試和測量?jì)x器的開(kāi)源Python原生驅動(dòng)程序包

測試測量泰克測量?jì)x器 Python | 2023-11-15

無(wú)需套接字，使用VXI11（LXI）和Python進(jìn)行LAN控制

測試測量套接字 VXI11 LXI Python LAN控制 | 2024-06-24

TPYBoardv102+v202家庭無(wú)線(xiàn)溫濕度檢測

bodasister | 2017-05-21

《Python游戲編程入門(mén)》配套源文件

資源下載 Python Programming Begniner Game | 2016-01-29

python2.7.3

資源下載 python python下載 | 2014-11-25

藍牙模塊強化Canvas軟件套件支持，快速構建低功耗藍牙應用

手機與無(wú)線(xiàn)通信藍牙模塊 Canvas Python | 2024-07-18

使用Python語(yǔ)言通過(guò)SDG X系列發(fā)生器LAN口配置基本波形

測試測量 Python SDG X系列 LAN 基本波形 | 2024-07-15

如何在Raspberry Pi中使用Python

big白菜 | 2018-09-11

Python示例：使用16-bit垂直分辨率的SDG2000X / SDG6000X構建任意波形

測試測量 Python 垂直分辨率 SDG2000X SDG6000X 任意波形 | 2024-07-15

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>