FacebookTwitterLineHatena

隨著巨量資料時代和動態報表與BI商業智慧軟體的發展,關於巨量資料的理念也有了新的變化,其中最大的三個轉變是,要的是全體而不是抽樣,要的是效率而不是絕對精確,要的是相關而不是因果。

目前資料分析工具對巨量資料的處理方法有很多,但是根據長久以來的實踐,小編總結出了一些處理巨量資料的基本流程,而這個流程可能會對用戶理順資料分析(data analystic)有幫助,也對在使用資料分析軟體時更加得心應手。而這個流程可以分為四步:1、採集,2、統計,分析,3、導入、預處理,4、挖掘。

第一步、採集

「採集」指的是利用幾個資料庫對來自客戶端的資料進行接收,並且用戶可以用這些資料庫來對資料進行簡單的查詢和處理。比方說電商企業會使用傳統的關係型資料庫來存儲每一筆資料。在資料採集過程中,並發數高是其中最大的特點也是挑戰,因為可能在同一個時間點,有成千上萬個用戶對資料進行訪問和操作,例如12306網站,再比如網購電商,它們的並發訪問量可能會在達到上百萬的峰值,所以在採集端需要部署大量的資料庫才能支撐起這樣的訪問量。

第二步、統計/分析

這個過程利用在主要是分布式的資料庫,或者說是分布式計算機群體對儲存於子計算機中的資料進行一些普通的匯總和分類,這樣來滿足用戶一些常見的分析需求。關於這個過程中的是實時性需求則可以用到一些巨量資料庫,在處理批量資料的時候,會在半結構化的資料上使用Hadoop。關於這一塊,最大的特點和挑戰是會涉及到大量的資料,對系統資源會有很大的佔用。

雖然採集端有很多資料庫,但是要對這些進行有效的資料分析,還要在來自端的資料集中到一個大型分布式的資料庫中,或者是對資料進行分布式的儲存,而且在導入資料的基礎上可以做一些簡單的精減和預處理。也有一些用戶在使用資料分析軟體(data analystic software)導入資料的時候對資料進行流式計算,這樣滿足企業需要實時計算的需求。關於這個過程的最大挑戰和特點是,導入的數量十分巨大,在每分鐘中都會有百兆甚至上千兆的資料被導入。

第三步、挖掘

資料挖掘沒有預先設定好的主題,這是與前面的過程中的不同點。挖掘主要是在目前擁有的資料基礎上,進行各種演算法的計算,實現預測的效果,自此基礎上再實現一些分析高級別資料的需求。這個過程特點是挖掘的演算法很複雜,也是資料分析軟體在處理這個問題上的一個大挑戰,涉及的計算數量很大,而且在這個過程中常用到的演算法多是單線程。

喜歡這篇文章嗎?歡迎分享按讚,給予我們支持和鼓勵!

熱門文章推薦

立即試用,可獲取更多 報表範本和案例

免費試用