如何使用Python從數據集中刪除異常值?

在數據領域,科學數據起著很大的作用,因為我們所做的一切僅圍繞數據。公司正在僱用專業人士來處理他們的數據,該領域的就業能力正在迅速增加。該領域成功的原因是由於合併了某些用於數據處理的工具,這些工具主要是編程語言,數據可視化工具,數據庫管理工具。

在這些事情的幫助下,可以輕鬆處理任何類型的數據並將其存儲在更安全的地方。隨著這些進步的發生,要注意的一件事是,處理這些巨大數據集時犯的任何錯誤都會使公司正在工作的項目完全失敗。僱員必須通過給予對數據的有意義的見解,而不是任何形式的垃圾來滿足雇主的需求。如前所述,借助編程語言,數據處理變得非常容易,這是因為這些編程語言使數據科學家可以自由訪問他們的數據並進行調整以獲取不同的輸出,然後選擇最佳的輸出。一種這樣的編程語言就是Python。它是一種有力,最喜歡的語言,用於執行與數據科學相關的活動。

談論數據然後,必須正確清潔我們使用的數據,這些數據不包含任何可能導致性能差的可疑點。這些可疑觀點稱為離群值,如果公司想要的話,必須刪除這些異常值。因此,讓我們看一下如何使用Python編程語言刪除這些異常值:

離群拆除

一個離群值可以稱為數據集中的一個點,該點遠離與其他點相距甚遠。那麼,如何刪除它?在這裡,您會找到所有答案。

可視化異常值

為了可視化數據集中的離群值,我們可以使用各種圖,例如框圖和散點圖。盒子圖告訴我們數據的四分之一分組;它根據百分位數提供數據分組。如果點位於四分位數範圍內,則將它們用於分析,如果它們落在範圍之內,則將它們稱為離群值並從數據集中刪除。框圖可以在各個點上使用,這稱為單變量分析。另外,如果我們有一個分類變量,而另一個連續的變量,那麼我們也可以使用框圖,這被稱為多元分析。

盒子圖的圖形表示如下:

散點圖是主要用於雙變量分析的曲線類型,因為我們需要x和y坐標,在這裡我們將彼此比較不同的變量。這種類型的圖有助於通過識別遠離所有點的點來檢測異常值,如果說最大點以圖形的左側區域為中心,並且一個或兩個位於圖的右側,那麼這兩個點將是離群值。

散點圖的圖表表示如下:

刪除異常值

  • 使用Z分數:這是從數據集中刪除異常值的方法之一。這種方法的原理是創建變量的標準正態分佈,然後檢查點是否屬於 +-3的標準偏差。如果這些值不在此範圍之外,則將這些值稱為離群值並刪除。下面使用Python給出了此操作的實施:

  • 使用百分位/四分之一:這是檢測數據集中異常值的另一種方法。在這裡,我們使用框圖可視化數據,然後找到25Th和75Th數據集的百分位數。完成此操作後,我們通過減去5Th25的百分位價值Th百分位數,然後通過將數據相同的1.5乘以數據的下限和上限。遠離下部和上限的任何點都稱為異常值。下面使用Python給出了此操作的實施:

結論

這取決於組織的興趣,是要保留異常值還是刪除它們。我們必須知道這些步驟,如果向我們提出任何問題,我們需要刪除異常值,然後進行機器學習或任何其他活動,那麼我們應該能夠做同樣的事情。