FacebookTwitterLineHatena

資料清理了解一下!

準備做數據專案的人要做好心理準備,你可能要規劃至少70%的時間在這上面,相信我,這樣的時間安排你不會後悔!

資料清理是對各種臟數據進行處理,得到乾淨的、完整的、正確的、統一的數據,為後續的數據探勘、建模分析提供基礎的,同時也是各個獨立的資訊系統之間進行溝通的基礎。這一步做不好,你會發現千辛萬苦優化演算法、統計分析、視覺化展示,到頭來是垃圾進垃圾出,沒有任何意義,還要被罵慘!

資料清理中常常遇到這些讓人頭疼的問題,我遇到許多IT同行都曾和我抱怨過,我在自己做專案的過程中更是深有體會。今天分享給大家:

1、數據來源廣,儲存方式不同

企業數位化過程中導入了ERP、CRM、OA、MES、HR、財務、行銷等等系統以幫助企業更好的發展業務、服務客戶、管理企業,這些系統產生的數據往往儲存在不同的資料庫中,還有很多企業存在大量的excel、文本、日誌甚至是紙質的資料,我們需要把這些不同結構、不同來源的資料先整合成一致的。

某服裝企業IT架構

使用FineReport報表軟體將積累的excel資料匯入資料庫中

2、數據定義不統一

同一個指標,在不同的系統不同的人群中定義內涵是不同的。這就是我們通常所說的主數據進行統一管理,列出需要分析的所有指標,確保無論什麼部門什麼系統都統一定義。

在做一個零售服裝企業專案時就遇到這樣的問題。「斷碼」這個指標在不同系統不同業務人員那裡的定義不一樣:從管理層來講,公司倉儲的服裝全部尺碼如果不完整就是斷碼;從倉庫的倉管員角度來講,倉庫內的服裝尺碼不全就是斷碼;從門店的業務員角度來講,客戶需要的尺碼當前門店無貨就是斷碼。之前會員系統、庫存系統、訂單系統並未完成主數據管理,那麼就會存在倉庫有貨,但是門店對不上貨,無法從倉庫及時取到對應貨品提供給顧客。

零售業指標體系

3、數據不完整

收集到的資料一部分完整一部分缺失。比如會員數據中,一部分會員缺少年齡、性別資料,另一部分缺少手機、地址資料。這是在數據收集、數據儲存等過程中發生的問題,要決定是要補全、棄用、重新收集或是怎樣處理。

例如從身份證號碼中獲取缺少的年齡、性別資料

4、數據重複和錯誤

同一類數據可能會在幾個資料庫中都有存儲,造成數據重複。比如每日銷售數據在銷售、市場、財務的系統中都有存儲,整合之後很多重複。如果這些重複是一致的還好,如果出現不一致,就是數據錯誤問題,以哪個系統的數據為準?數據錯誤往往也出現在數據收集時,沒有做好數據入庫的合法性校驗。比如在產品入庫時,倉庫管理員錄入產品資料時,產品名稱使用了錯別字、產品數量多加了個0等。這個需要去批量處理錯別字,與物流系統資料作對比更正。當然,最好的方法是在數據收集階段就做好把關。

填寫供應商資料時校驗是否填寫錯誤,提供校驗、保存、提交、審核、駁回、發布等完整的流程處理

5、數據收集與變化

以上好幾條內容都提到數據收集,這確實是控制垃圾數據的最重要的一道防線。數據收集要完整,後續補救很難,所以新項目需要收集資料時一定要與使用者充分討論,寧可收集多了不能落掉。數據收集要做合法性校驗,年齡填寫30、30歲、三十歲,想要那種格式限制好,讓客戶隨便寫後面有的頭疼了。

資料清理時還要考慮好數據的變化。一方面資料庫是動態的,新數據源源不斷大量的補充進來,要做好承接;另一方面,業務不斷變化導致數據的定義發生變化,之前「北方大區銷售額」代表北方3個城市的銷售額之和,這個月公司做了區域調整,「北方大區銷售額」這個指標表示的則是北方兩個城市的銷售額之和了,那麼就要做調整,要不然將是一團亂麻。

主數據管理流程圖,許可權統一收歸IT資訊部

最後一條,溝通溝通再溝通!

數據專案中,你要說服老闆理解和支持你,溝通數據收集者、提供者、使用者,是個很大的挑戰!

喜歡這篇文章嗎?歡迎分享按讚,給予我們支持和鼓勵!

熱門文章推薦

立即試用,可獲取更多 報表範本和案例

免費試用