獨家 | 識別并解決數據質(zhì)量問(wèn)題的數據科學(xué)家指南
作者:Arunn Thevapalan
翻譯:陳超
校對:王紫岳
在你的下一個(gè)項目之前早點(diǎn)這么做將會(huì )讓你免于幾周的辛苦和壓力。
如果你在處理現實(shí)數據的AI行業(yè)工作,那么你會(huì )理解這種痛苦。無(wú)論數據收集過(guò)程多么精簡(jiǎn) ,我們用于建模的數據總是一片狼藉。
就像IBM描述的那樣,80/20規則在數據科學(xué)領(lǐng)域同樣適用。數據科學(xué)家80%的寶貴時(shí)間都花費在發(fā)現、清洗以及組織數據上。僅僅留下了20%的時(shí)間用于真正的數據分析。
整理數據并不有趣。對于“垃圾輸入進(jìn)去,垃圾輸出出來(lái)”這句話(huà),我知道它的重要性,但是我真的不能享受清洗空白格,修正正則表達式,并且解決數據中無(wú)法預料的問(wèn)題的過(guò)程。
根據谷歌研究:“每個(gè)人都想做建模工作,而不是數據工作”——我對此感到非常愧疚。另外 ,本文介紹了一種叫做數據級聯(lián)(data cascade)的現象,這種現象是指由底層數據問(wèn)題引發(fā)的不利的后續影響的混合事件。實(shí)際上,該問(wèn)題目前有三個(gè)方面 :
絕大多數數據科學(xué)技術(shù)并不喜歡清理和整理數據;
只有20%的時(shí)間是在做有用的分析;
數據質(zhì)量問(wèn)題如果不盡早處理,將會(huì )產(chǎn)生級聯(lián)現象并影響后續工作。
只有解決了這些問(wèn)題才能確保清理數據是容易,快捷,自然的。我們需要工具和技術(shù)來(lái)幫助我們這些數據科學(xué)家快速識別并解決數據質(zhì)量問(wèn)題,并以此將我們寶貴的時(shí)間投入到分析和AI領(lǐng)域——那些我們真正喜歡的工作當中。
在本文當中,我將呈現一種幫助我們基于預期優(yōu)先級來(lái)提前識別數據質(zhì)量問(wèn)題的開(kāi)源工具(https://github.com/ydataai/ydata-quality)。我很慶幸有這個(gè)工具存在,并且我等不及要跟你們分享它。
ydata-quality庫拯救數據質(zhì)量
作者截圖
Ydata-quality是一個(gè)開(kāi)源的Python庫,用于數據管道發(fā)展的多個(gè)階段來(lái)評估數據質(zhì)量。該庫是直觀(guān)、易用的,并且你可以直接將其整合進(jìn)入你的機器學(xué)習工作流。
對我個(gè)人而言,這個(gè)庫的好處在于它可以基于數據質(zhì)量問(wèn)題(接下來(lái)展開(kāi))的優(yōu)先級排序。在我們時(shí)間有限時(shí),這是很有幫助的,并且我們也想優(yōu)先處理對我們數據質(zhì)量影響較大的問(wèn)題。
讓我向你們展示一下如何使用一團亂麻的數據的現實(shí)例子。在這個(gè)例子當中,我們將會(huì ):
加載一個(gè)混亂的數據集;
分析數據質(zhì)量問(wèn)題;
進(jìn)一步挖掘警告信息;
應用策略來(lái)減輕這些問(wèn)題;
檢查在半清洗過(guò)后的數據的最終質(zhì)量分析報告。
在安裝任何庫之前,最好使用venv或者conda來(lái)為項目創(chuàng )建虛擬環(huán)境,一旦這一步完成,在你的終端輸入下面這行代碼來(lái)安裝庫:
pip install ydata-quality
現在你的環(huán)境已經(jīng)準備就緒,讓我們轉移到數據上吧。
現實(shí)生活中混亂的數據
在這個(gè)例子當中我們將會(huì )使用變換的人口普查數據,你可以從Github 庫(https://github.com/ydataai/ydata-quality/blob/master/datasets/transformed/census_10k.csv)下載。你可以在這個(gè)Jupyter Notebook(https://github.com/ydataai/ydata-quality/blob/master/tutorials/main.ipynb)當中找到本教程當中所有的代碼。我推薦你復制這個(gè)庫或者下載這個(gè)notebook來(lái)跟上這個(gè)例子。
第一步:加載數據集
第一步中,我們將會(huì )加載數據集以及必要的庫。注意,這個(gè)庫有多個(gè)模塊(偏差&公正,數據期望,數據關(guān)系,漂移分析,錯誤數據,標簽,缺失值)用于單獨的數據質(zhì)量問(wèn)題,但是我們可以從DataQuality引擎開(kāi)始,該引擎把所有的個(gè)體引擎打包成了一個(gè)類(lèi)。
from ydata_quality import DataQuality import pandas as pd df = pd.read_csv('../datasets/transformed/census_10k.csv')
第二步:分析數據質(zhì)量問(wèn)題
這是一個(gè)漫長(cháng)的過(guò)程,但是DataQuality引擎在抽取所有細節方面確實(shí)做的很好 。只要簡(jiǎn)單地創(chuàng )建主類(lèi)并使用evaluate() 方法。
# create the main class that holds all quality modules dq = DataQuality(df=df) # run the tests results = dq.evaluate()
我們將收到一個(gè)數據質(zhì)量問(wèn)題的報告。
Warnings: TOTAL: 5 warning(s) Priority 1: 1 warning(s) Priority 2: 4 warning(s) Priority 1 - heavy impact expected: * [DUPLICATES - DUPLICATE COLUMNS] Found 1 columns with exactly the same feature values as other columns. Priority 2 - usage allowed, limited human intelligibility: * [DATA RELATIONS - HIGH COLLINEARITY - NUMERICAL] Found 3 numerical variables with high Variance Inflation Factor (VIF>5.0). The variables listed in results are highly collinear with other variables in the dataset. These will make model explainability harder and potentially give way to issues like overfitting. Depending on your end goal you might want to remove the highest VIF variables. * [ERRONEOUS DATA - PREDEFINED ERRONEOUS DATA] Found 1960 ED values in the dataset. * [DATA RELATIONS - HIGH COLLINEARITY - CATEGORICAL] Found 10 categorical variables with significant collinearity (p-value < 0.05). The variables listed in results are highly collinear with other variables in the dataset and sorted descending according to propensity. These will make model explainability harder and potentially give way to issues like overfitting. Depending on your end goal you might want to remove variables following the provided order. * [DUPLICATES - EXACT DUPLICATES] Found 3 instances with exact duplicate feature values.
讓我們來(lái)仔細分析一下這個(gè)報告:
警告(Warning):其中包括數據質(zhì)量分析過(guò)程中檢測到的問(wèn)題細節。
優(yōu)先級(Priority):對每一個(gè)檢測到的問(wèn)題,基于該問(wèn)題預期的影響來(lái)分配一個(gè)優(yōu)先級(越低的值表明越高的優(yōu)先性)。
模塊(Modules):每個(gè)檢測到的問(wèn)題與某一個(gè)模塊(例如:數據關(guān)系,重復值,等)執行的數據質(zhì)量檢驗相關(guān)聯(lián)。
把所有的東西聯(lián)系在一起,我們注意到有五個(gè)警告被識別出來(lái),其中之一就是高優(yōu)先級問(wèn)題。它被“重復值”模塊被檢測出來(lái),這意味著(zhù)我們有一整個(gè)重復列需要修復。為了更深入地處理該問(wèn)題,我們使用get_warnings() 方法。
輸入下方內容:
dq.get_warnings(test="DuplicateColumns")
我們可以看到針對我們想解決問(wèn)題的詳細輸出。
[QualityWarning(category='Duplicates', test='Duplicate Columns', description='Found 1 columns with exactly the same feature values as other columns.', priority=<Priority.P1: 1>, data={'workclass': ['workclass2']})]
根據這一結果,我們可以看到列workclass和workclass2是完全重復的[37] ,這可能會(huì )產(chǎn)生嚴重后果。
第三步:使用特定的模塊分析數據質(zhì)量問(wèn)題
數據質(zhì)量的全貌需要多個(gè)角度分析,因此我們需要八個(gè)不同的模塊。雖然它們被封裝在DataQuality 類(lèi)當中,但一些模塊并不會(huì )運行,除非我們提供特定的參數。
例如,DataQuality類(lèi)不會(huì )執行偏差與公正(Bias & Fairness)質(zhì)量檢驗,因為我們并沒(méi)有指出敏感性特征。但是這個(gè)庫的妙處在于,我們可以將其作為獨立的檢驗并執行它。
讓我們來(lái)通過(guò)運行偏差與公正檢驗來(lái)更好地理解它。
from ydata_quality.bias_fairness import BiasFairness #create the main class that holds all quality modules bf = BiasFairness(df=df, sensitive_features=['race', 'sex'], label='income') # run the tests bf_results = bf.evaluate()
當我們運行以上代碼的時(shí)候,我們將會(huì )收到一份針對選定模塊的相似的報告。
Warnings: TOTAL: 2 warning(s) Priority 2: 2 warning(s) Priority 2 - usage allowed, limited human intelligibility: * [BIAS&FAIRNESS - PROXY IDENTIFICATION] Found 1 feature pairs of correlation to sensitive attributes with values higher than defined threshold (0.5). * [BIAS&FAIRNESS - SENSITIVE ATTRIBUTE REPRESENTATIVITY] Found 2 values of 'race' sensitive attribute with low representativity in the dataset (below 1.00%).
從該報告中,我們了解到我們可能有一個(gè)泄露一種敏感性屬性信息的代理特征,并且敏感性屬性的特征嚴重不足。為了調查第一個(gè)Warning,我們可以利用篩選特定測試的get_warnings()方法來(lái)獲得更多詳細信息。
bf.get_warnings(test='Proxy Identification')
我們可以看到我們想要解決的問(wèn)題的詳細描述:
[QualityWarning(category='Bias&Fairness', test='Proxy Identification', description='Found 1 feature pairs of correlation to sensitive attributes with values higher than defined threshold (0.5).', priority=<Priority.P2: 2>, data=features relationship_sex 0.650656 Name: association, dtype: float64)]
基于詳細的Warning,我們檢查了relationship和sex列,并且注意到一些關(guān)系狀態(tài)(例如,丈夫,妻子)是基于特定性別的,從而影響了相關(guān)性。我們可以將這些分類(lèi)值改成性別中立(例如,已婚)。
第四步:解決識別的問(wèn)題
讓我們實(shí)際一點(diǎn)兒。我們永遠不會(huì )擁有100%清洗過(guò)的數據。我們所要做的是在有限的時(shí)間內解決對數據影響最大的問(wèn)題。對數據科學(xué)家來(lái)說(shuō),這是一個(gè)需要你根據當前情景的限制做出的決策。
對這個(gè)例子來(lái)說(shuō),讓我們聚焦于消滅高優(yōu)先級(P1)問(wèn)題并解決至少一個(gè)偏差和公正Warning?;趙arning的簡(jiǎn)單的數據清理函數如下:
def improve_quality(df: pd.DataFrame): """Clean the data based on the Data Quality issues found previously.""" # Bias & Fairness df = df.replace({'relationship': {'Husband': 'Married', 'Wife': 'Married'}}) # Substitute gender-based 'Husband'/'Wife' for generic 'Married' # Duplicates df = df.drop(columns=['workclass2']) # Remove the duplicated column df = df.drop_duplicates() # Remove exact feature value duplicates return df clean_df = improve_quality(df.copy())
我們可以放棄重復列work_class2并且替代 relationship 列的值為更通用且性別中立的。
如果你想進(jìn)一步地數據清理,請繼續你的工作。如果你選擇繼續,我想看看數據清理是什么樣的。記住,你是數據科學(xué)家——決策掌握在你的手中。
第五步:運行最后的質(zhì)量檢驗
你可能會(huì )跳過(guò)這一步,但是當我使用額外的最終檢驗來(lái)檢查我處理過(guò)的數據時(shí),我會(huì )感到安心。我非常推薦你也這樣做,這樣你會(huì )知道在完成數據清洗轉換之后,你的數據的狀態(tài)。
你可以先簡(jiǎn)單地調用質(zhì)量引擎,然后調用evaluate()方法來(lái)再次檢索示例報告。下面是清理數據后DataQuality引擎和BiasFairness引擎的報告。
*DataQuality Engine Report:* Warnings: TOTAL: 3 warning(s) Priority 2: 3 warning(s) Priority 2 - usage allowed, limited human intelligibility: * [ERRONEOUS DATA - PREDEFINED ERRONEOUS DATA] Found 1360 ED values in the dataset. * [DATA RELATIONS - HIGH COLLINEARITY - NUMERICAL] Found 3 numerical variables with high Variance Inflation Factor (VIF>5.0). The variables listed in results are highly collinear with other variables in the dataset. These will make model explainability harder and potentially give way to issues like overfitting. Depending on your end goal you might want to remove the highest VIF variables. * [DATA RELATIONS - HIGH COLLINEARITY - CATEGORICAL] Found 9 categorical variables with significant collinearity (p-value < 0.05). The variables listed in results are highly collinear with other variables in the dataset and sorted descending according to propensity. These will make model explainability harder and potentially give way to issues like overfitting. Depending on your end goal you might want to remove variables following the provided order. *Bias & Fairness Report:* Warnings: TOTAL: 1 warning(s) Priority 2: 1 warning(s) Priority 2 - usage allowed, limited human intelligibility: * [BIAS&FAIRNESS - SENSITIVE ATTRIBUTE REPRESENTATIVITY] Found 2 values of 'race' sensitive attribute with low representativity in the dataset (below 1.00%).
我們可以從上面的兩個(gè)報告當中推斷出,我們的高優(yōu)先級問(wèn)題已經(jīng)被解決了,并且另外一個(gè)低優(yōu)先級問(wèn)題已經(jīng)如我們所預料地解決了。
結束寄語(yǔ)
因為ydata-quality的存在我太輕松了(圖片由Cookie_studio制作來(lái)自Freepik)
看,雖然我們痛恨清理數據,但是這并不意味著(zhù)我們不會(huì )做這項工作。這就是為什么它是機器學(xué)習工作流(https://towardsdatascience.com/the-machine-learning-workflow-explained-557abf882079)當中的一個(gè)不可分割的階段,而它的解決方法就是整合像ydata-quality(https://github.com/ydataai/ydata-quality)這樣有價(jià)值的工具和庫進(jìn)入到我們的工作流里。
在這篇文章中,我們學(xué)到如何使用開(kāi)源包來(lái)評估數據集的數據質(zhì)量,用 DataQuality 主引擎和特定的模塊引擎(例如BiasFairness)。進(jìn)一步地,我們看到QualityWarning 如何提供高水平的嚴重性評定并向我們指出產(chǎn)生Warning的原始數據。
在這之后,我們基于數據質(zhì)量問(wèn)題定義數據清理管道,同時(shí)對混亂的數據進(jìn)行轉換,并觀(guān)察它如何解決我們的目標Warning的。
YData團隊開(kāi)發(fā)了這個(gè)庫,這個(gè)團隊的使命就是改善人工智能行業(yè)的數據質(zhì)量。更多問(wèn)題請加入友好的slack社區并然后直接向開(kāi)發(fā)團隊詢(xún)問(wèn)所有問(wèn)題(你也可以在那里找到我?。?/p>
我們一起肯定可以改善這個(gè)庫,你的反饋將意味著(zhù)這個(gè)庫解決了你在未來(lái)的大部分緊迫問(wèn)題。我迫不及待地想看到你使用這個(gè)ydata-Quality,并得到你在社區內的反饋。
原文標題:
A Data Scientist’s Guide to Identifyand Resolve Data Quality Issues
原文鏈接:
https://towardsdatascience.com/a-data-scientists-guide-to-identify-and-resolve-data-quality-issues-1fae1fc09c8d?gi=cbccd2061ee2
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。