FacebookTwitterLineHatena

文 | 去哪兒
源 | 簡書

很多讀者給我後台留言數據分析應該怎麼入門,怎麼提升,怎麼找工作?那我想說數據分析你可以看做一個職業也可以看做一項技能,薪資水平決定你需要的能力是多少?

以下我就整理了一些關於數據分析的問題,統一回復。

問題一:無任何分析經驗和基礎想要入門數據分析,如何入門?

我先用一個比較接地氣的例子介紹一下數據分析。在企業中,數據分析就像做一道菜,菜是你最終需求的成品,數據分析師就是廚師,設計方案就是下單,數據採集就是備料,數據處理就是切配,數據分析就是烹飪,數據呈現就是菜品最後的呈現裝飾。

再舉個簡單的例子,假設你需要用數據分析去選擇A,B,C三種護膚品中的一個,這是你的目的,這時你的選擇困難症來了,你現在知道的信息如下:A,B,C的價格,A,B,C的功效各自不一樣,價格和功效都是你關心的(你想要價格適中,具有保濕程度相對好一點的,但在這兩種里,你更看重功效),但是功效比重各不一致,這時候就可以用到數據分析了,三個樣本的價格和功效的數據表示,就是分析所需要的最基礎的原料,而有些時候這些數據不是我們要分析的數據形式,比如說功效這個產品說明裡面是用程度去表示的,比如說保濕極好,防晒一般,那這些是定性數據,我們沒辦法對定性數據進行分析,所以要將這些數據進行一些加工和轉換,比如說將極好,一般這些程度詞用數字(1-5中的某個值表示),值越大,表示極好,越小表示幾乎無效。當用數字可以表示,可以應用在我們之後的分析模型的時候,這就是一個數據準備的過程了;這部分時間要花去數據分析時間的70%,因為數據準備的質量決定著之後的分析質量。數據準備中主要兩大知識塊:缺失值的處理和異常值的處理。

之後就是模型的建立,像以上的例子中,我們假定已經夠造了一個模型(層次分析法)解決這個問題,那這裡問題來了,我們怎麼知道用哪些方法和哪些模型呢,這就需要知識儲備了(一些分析方法和演算法的掌握,比如說預測:AR模型,MA模型,分類:決策樹,不要被這些演算法嚇到了哈,我只是舉個例子)。那這個模型構造出來了,每個模型並不是完美的,怎麼去評價你的模型呢,即怎麼評價你的結果如何呢?

那後面就是模型評價了,在上述的例子中就是看你分析出的結果,即你根據模型分析選擇的B符不符合你當初的期望值,是不是吻合(當然,在正規的數據分析中有對應的評價指標,比如說分類的混淆矩陣,預測的梯度提升等)。在我的工作經驗中,這部分應用一般,主要是實用為主,但是如果是做研究,寫論文等,這部分很重要,就是對你模型優劣的論證。

數據分析大致流程就是四個方面:數據準備,模型設計,模型評價,分析報告展示(如果應對的是需求客戶的話這一步驟也不可少),步驟雖然少,但是每個方面涉及的內容多到崩潰,所以結合您的實際情況我的建議是先找一個有關您課題的分析目標,然後從這個目標出發,結合我上面所說的那四個流程,每個流程下選擇您需要解決的這個問題的解決方案(比如你的目的是評分),然後針對這個問題去了解這個模型所需要的解決方法(比如說層次分析法,主成分分析法之類),這樣由問題展開去學習,比剛開始做足準備再去開始有效的多。

那上面是數據分析的學習方式,再梳理一下學習工具。個人學習的話強烈建議用R語言去做統計分析,現在利用R語言尤其是在科研研究中是主流趨勢。R語言不需要很厲害的編程邏輯或思維,入門比較容易(最慢三個月也入門了),它裡面都有現成的函數工具包,而且模型應用面很廣,幾乎現在涉及的統計分析和大多數演算法都能找到現成的函數包。

工作場景的話,建議把Excel用熟練,因為最常見的就是報表製作,製作數據決策報告了。Excel可以靈活地應用各種本地數據的處理,如果要涉及到和資料庫的交互的話,公司可能會有報表系統,或者OA、ERP自帶的報表功能。那像我的話,公司有數據中心专案,用finereport報表和BI系統搭建了一套數據決策報表平台,用設計器開發報表, 類似excel。

FineReport報表與BI商業智慧軟體-關於數據分析問題的匯總,給出了以下答案

FineReport報表與BI商業智慧軟體-關於數據分析問題的匯總,給出了以下答案

FineReport報表與BI商業智慧軟體-關於數據分析問題的匯總,給出了以下答案

推薦基本我看過並且很受益的入門書籍

從易到難,按安排時間閱讀為好:

1 數據分析:企業的賢內助(入門級)

有kindle mobi版,如果入門級書優先推薦,那我首推這一本

特點:重點講述了數據分析的應用場景和一些簡單的統計分析方法。也比較有趣

閱讀難度:1顆星

有趣程度:3顆星

受益程度:4顆星

2 誰說菜鳥不會數據分析(入門篇和工具篇2本,有電子書)

閱讀難度:1顆星

有趣程度:2顆星

受益程度:2顆星

特點:以生動有趣的方式講述數據分析是「神馬」,數據分析的幾個步驟。以及以EXCEL為分析工具進行的分析操作和方法。

3 赤果果的統計學(有電子版)

閱讀難度:2顆星

有趣程度:4顆星

受益程度:5顆星

這本書主要是結合現實中有趣的現象去闡述統計學,是我閱讀過的通俗易懂而且內容對於知識的理解很是有深度啟發性的統計學書籍,沒有之一。

4 深入淺出數據分析

閱讀難度:2顆星

有趣程度:3顆星

受益程度:4顆星

以下內容是粘貼百科的,因為比較全面

以類似”章回小說”的活潑形式,生動地向讀者展現優秀的數據分析人員應知應會的技術:數據分析基本步驟、實驗方法、最優化方法、假設檢驗方法、貝葉斯統計方法、主觀概率法、啟發法、直方圖法、回歸法、誤差處理、相關資料庫、數據整理技巧;正文之後,意猶未盡地以三篇附錄介紹數據分析十大要務、R工具及ToolPak工具,在充分展現目標知識以外,為讀者搭建了走向深入研究的橋樑。

工具篇:

R語言實戰(有電子版)

閱讀難度:2顆星

有趣程度:1顆星

受益程度:5顆星

這本書利用R語言對於統計方法的應用很全面,特別全面,是我入門R語言的最好的啟蒙書。剛開始學可以先將這本書上的示例和程序都手動模仿學習一遍,這本書是值得閱讀兩遍的書。

問題二:sas,r,python在金融行業數據分析,數據挖掘方面的優劣比較,及未來發展趨勢

解答:先說一下sas與其他兩個工具的區別

1 sas是付費分析工具,主要是大型諮詢公司或者外企會用這個工具比較多,原因:因為付費,有保障,通俗的來講,出了錯會有賠付會有責任,對於公司來說,更有保障,風險很低,所以如果以後面試大型諮詢公司,金融行業公司或者外企學會這個工具還是很有必要的,sas以前在本科的時候用過一點點,語法相對r和python比較簡單。因為本人是在主要是在做電商裡面的物流這一塊,所以對sas實際操作了解不多,所以這個不能給予更全面的解答。

2 R和python是開源軟體,即免費的,是現在國內大多數IT行業做數據分析與挖掘的首選,R語言在做學校研究和公司輕量級的研究和分析(即數據量在T級別以下)比較好用,因為其語法簡潔,有很多可以直接應用的工具包(目前主流的一些演算法比如說決策樹,神經網路,kmeans聚類演算法等都能找到工具包和相應的函數,編寫簡單的程序調用即可,以及還有關於金融相關的風險預測等都可以找到相應的一些函數包),所以編寫演算法不是R語言主要花時間的地方,主要耗時間的地方在數據處理這一部分,往往數據分析中數據處理和最後做分析花的時間比例大概是7:3,也就是70%的時間會花在數據處理,使得最後調用函數的時候數據格式符合函數要求格式(比如說一些缺失值的處理等),話說回來,R語言主要的優勢就是入門快,沒有很高的編程要求,數據可視化比python要強。

那我再說一下python,它跟R語言分析功能以及工具的使用方式都差不多是一樣的,但是為什麼python會用的更廣一些呢,主要原因:其一是因為它穩定,它是一門工程類語言,類似於java,穩定性比較強,應用在開發環境中,有一定的規則範式,可以說是介於R語言和java這類語言特性之間,而且在網上的資料會更全面更權威一點,之前說了R語言還有一個弱勢就是處理的數據量的大小,我現在工作中用R語言比較多一點,我主要用它做模擬建模,數據量不要求很大,但是如果某天要將代碼應用在工程里並且分析的數據量大於T級的時候,R語言的穩定性和效率就很差了,可以想像,當一個APP上某個輸出如果很慢的話,會造成怎樣的影響,所以如果python在做分析,並且這個代碼要嵌套在開發環境中,那python相比於R語言是一個更好的選擇。

我現在工作在用R,主要因為R用的比較熟練比較難換過去(因為學習新的語言需要成本),另外分析的數據量不是很大,之前有過經驗,當excel里的數據超過100萬條的時候,R語言運行速度已經成吃力了,python也自學過一部分,但是也是在循序漸進的學習python,因為這是一種趨勢,雖然R語言現在也有Rspark之類的解決運行速度這一類問題,但是發展還是比較緩慢的,而且網上可以搜集的資料也是很有限的,現在的數據都是按指數級增長的,如果你想讓自己的職業技能更深入,想在數據分析和探勘這條路上越走越遠的話,建議提早學python。

這是工具方面的一個建議,但是工具只是工具,以我現在的工作經驗來看,分析工具層出不窮,更新迭代的速度真的很快,現在又有tensorflow這種工具出來了(專註於機器學習和深度學習),所以我建議不要把大量精力放在很多工具的學習上,工具就像我們從起始點到目的地的一個交通工具一樣,你用汽車,公交車都能到達目的地,最主要的是培養一種思維方式,就是解決需求任務的思路和能力,比如你拿到一個問題,怎麼利用已知條件,或者在問題里找出這個條件(即提取特徵),應用這些條件,構造出一個解決方案(即模型),並且能夠嚴謹準確的去評價你的方案或者模型。這是需要花時間和花精力去學習的。

喜歡這篇文章嗎?歡迎分享按讚,給予我們支持和鼓勵!

熱門文章推薦

立即試用,可獲取更多 報表範本和案例

免費試用