培訓無憂網合作機構 > 學校機構 > 成都CDA數據分析師培訓機構歡迎您!
CDA數據分析師怎么挖掘數據
發布時間:2023-03-01 13:48:39
數據分析
探索性數據分析(ExploratoryDataAnalysis,EDA)是指對已有數據在盡量少的先驗假設下通過作圖、制表、方程擬合、計算特征量等手段探索數據的結構和規律的一種數據分析方法。
圖片
常用的第三方庫
數據科學庫
pandas:用于分組、過濾和組合數據,還提供了時間序列功能。
numpy:處理大型的多維數組和矩陣
scipy:用于解決線性代數、概率論、積分計算等任務
數據可視化庫
matplotlib:構建各種圖表,從直方圖和散點圖到非笛卡爾坐標圖等
seaborn:提供了豐富的可視化圖庫,包括時間序列、聯合圖和小提琴圖等復雜的類型。
常用函數
數據簡略觀測
head():觀察數據讀取是否準確,常讀取前5行數據。
shape:讀取數據集的維度。
數據總覽
describe():包含每列的統計量,個數、平均值、方差、最小值、中位數、最大值等。
數據類型info():了解數據每列的type,了解是否存在除了nan以外的特殊符號異常。
數據檢測
缺失值檢測
查看每列的存在nan情況
排序函數sort_values():將數據集依照某個字段中的數據進行排序,該函數即可根據指定列數據也可根據指定行的
可視化nan值與缺失值
異常值檢測
3σ原則:拉依達準則,該準則具體來說,就是先假設一組檢測數據只含有隨機誤差,對原始數據進行計算處理得到標準差,然后按一定的概率確定一個區間,認為誤差超過這個區間的就屬于異常值。
箱線圖:依據實際數據繪制,真實、直觀地表現出了數據分布的本來面貌,且沒有對數據作任何限制性要求(3σ原則要求數據服從正態分布或近似服從正態分布),其判斷異常值的標準以四分位數和四分位距為基礎。
預測分布
總體分布概況:
無接觸約翰遜分布:
正態分布
圖片
很多模型假設數據服從正態分布,數據整體服從正態分布,樣本均值和方差則相互獨立。當樣本不服從正態分布時,可以做如下轉換:
線性變化z-scores:基于原始數據的均值(mean)和標準差(standarddeviation)進行數據的標準化。將A的原始值x使用z-score標準化到x’
Boxcox變換:一種廣義冪變換方法,是統計建模中常用的一種數據變換,用于連續的響應變量不滿足正態分布的情況。
yeo-johnson變換:是冪變換(powertransformation)的方法之一,通過構建一組單調函數對隨機變量進行數據變換。
查看skeness和kurtosis
skeness:衡量隨機變量概率分布的不對稱性,是相對于平均值不對稱程度的度量,通過對偏度系數的測量,我們能夠判定數據分布的不對稱程度以及方向。
kurtosis:研究數據分布陡峭或平滑的統計量,通過對峰度系數的測量,我們能夠判定數據相對于正態分布而言是更陡峭/平緩。
圖片
預測值的具體頻數
當某范圍預測值很少時,可將其當作異常值處理填充或刪除。若頻數很失常,需對數據進行處理,例如進行log變換,使數據分布較均勻,可據處理后的數據進行預測,這也是預測問題常用的技巧。
特征分析
數字特征
相關性分析:對兩個或多個具備相關性的變量元素進行分析,從而衡量兩個變量因素之間的相關密切程度。
特征的偏度和峰度
數字特征分布可視化
pd.melt():處理數據,透視表格,可將寬數據轉化為長數據,以便于后續分析。形成的數據即為,鍵:各特征名稱,值:特征對應的值
sns.FacetGrid():先sns.FacetGrid()畫出輪廓,再map()填充內容
sns.pairplot():展示變量兩兩之間的關系(線性或非線性,有無較為明顯的相關關系)。
類別特征
unique分布:對于一維數組或者列表,unique函數去除其中重復的元素,并按元素由大到小返回一個新的無元素重復的元組或者列表。
可視化:
箱型圖可視化:直觀識別數據中的離群點,判斷數據離散分布情況,了解數據分布狀態。
小提琴圖可視化:用于顯示數據分布及概率密度,這種圖表結合了箱形圖和密度圖的特征,主要用來顯示數據的分布形狀
柱形圖可視化類別
每個類別頻數可視化
數據清洗
數據和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已。俗話說:garbagein,garbageout。分析完數據后,特征工程前,必不可少的步驟是對數據進行清洗。
數據清洗作用是利用有關技術如數理統計、數據挖掘或預定義的清理規則將臟數據轉化為滿足數據質量要求的數據。主要包括缺失值處理、異常值處理、數據分桶、特征歸一化/標準化等流程。
圖片
缺失值處理
關于缺失值處理的方式,有幾種情況:
不處理:針對xgboost等樹模型,有些模型有處理缺失的機制,所以可以不處理;
如果缺失的太多,可以考慮刪除該列;
插值補全(均值,中位數,眾數,建模預測,多重插補等);
分箱處理,缺失值一個箱。
異常值處理
常用的異常值處理操作包括BOX-COX轉換(處理有偏分布),箱線圖分析刪除異常值,長尾截斷等方式,當然這些操作一般都是處理數值型的數據。
BOX-COX轉換:用于連續的變量不滿足正態的時候,在做線性回歸的過程中,一般需要做線性模型假定。
箱線圖分析:依據實際數據繪制,真實、直觀地表現出了數據分布的本來面貌,其判斷異常值的標準以四分位數和四分位距為基礎。
數據分桶
連續值經常離散化或者分離成“箱子”進行分析,為什么要做數據分桶呢?
離散后稀疏向量內積乘法運算速度更快,計算結果也方便存儲,容易擴展;
離散后的特征對異常值更具魯棒性,如age>30為1否則為0,對于年齡為200的也不會對模型造成很大的干擾;
LR屬于廣義線性模型,表達能力有限,經過離散化后,每個變量有單獨的權重,這相當于引入了非線性,能夠提升模型的表達能力,加大擬合;
離散后特征可以進行特征交叉,提升表達能力,由M+N個變量編程M*N個變量,進一步引入非線形,提升了表達能力;
特征離散后模型更穩定,如用戶年齡區間,不會因為用戶年齡長了一歲就變化
當然還有很多原因,LightGBM在改進XGBoost時就增加了數據分桶,增強了模型的泛化性。現在介紹數據分桶的方式有:
等頻分桶:區間的邊界值要經過選擇,使得每個區間包含大致相等的實例數量。比如說N=10,每個區間應該包含大約10%的實例。
等距分桶:從最小值到最大值之間,均分為N等份;
Best-KS分桶:類似利用基尼指數進行二分類;
卡方分桶:自底向上的(即基于合并的)數據離散化方法。它依賴于卡方檢驗:具有最小卡方值的相鄰區間合并在一起,直到滿足確定的停止準則。
數據轉換
數據轉換的方式有:
數據歸一化(MinMaxScaler);
標準化(StandardScaler);
對數變換(log1p);
轉換數據類型(astype);
獨熱編碼(OneHotEncoder);
標簽編碼(LabelEncoder);
修復偏斜特征(boxcox1p)等。
以上文章由成都CDA數據分析師培訓機構課程顧問整理編輯發布,部分文章來自網絡內容真實性請自行核實或聯系我們,了解相關專業課程信息您可在線咨詢也可免費申請試課。關注官方微信了解更多:150 3333 6050