全方位解讀「大數據」:定義、分析、工具、應用與案例

文 | 軟妹 2021-07-14 15:57:00

大數據技術和產業的蓬勃發展,使資料成為了重要的生產力,同時也使當今社會的生產關係發生了變革。大數據時代的戰略意義不僅在於掌握龐大的資料資訊,還在於發現和理解資訊內容及資訊與資訊之間的關係。

很多人其實並不清楚大數據到底是什麼?今天,就透過大數據的定義、分析、工具、應用與案例,助你全方位解讀「大數據」。

一、大數據的定義

大數據(Big Data), 又稱作巨量資料。認識大數據,首先從大數據的特性和類型入手。

1.大數據的特征

大數據主要有以下4種特徵:

大數據的特征

容量 (Volume)

提到大數據,首先會想到與巨大的容量有關。資料量的大小在決定資料的價值方面起著非常重要的作用。因此,“量”是處理大數據時需要考慮的一個重要特徵。

想想Facebook。這個世界上最受歡迎的社交媒體平臺現在擁有超過22億活躍使用者,他們中的許多人每天花數小時釋出更新、評論圖片、給帖子點贊、點選廣告、玩遊戲,以及做無數其他產生可以分析的資料的事情。每天產生的資料量是難以計數的。

多樣性 (Variety)

大數據的另一個特徵是多樣性。多樣性指的資料來源的多樣,包括結構化資料和非結構化資料。在早期,大多數應用程式的資料來源基本上是電子表格和資料庫。但隨著科技的發展,電子郵件、照片、影片、監控裝置、pdf等形式的資料也被考慮在分析應用中。這種非結構化資料給資料的儲存、挖掘和分析也帶來了一些挑戰。

速度 (Velocity)

大量的資料從各種不同的來源以極快的速度湧入,這就給了我們第三個特徵——速度。高資料速度意味著在任何一天都比前一天有更多的資料可用——但這也意味著資料分析的速度需要同樣高。

如今,資料專業人士不會長期收集資料,然後在週末、月底或季度末進行單一的分析。相反,分析是實時的——資料收集和處理的速度越快,它在長期和短期內就越有價值。Facebook訊息、Twitter帖子、信用卡刷卡和電子商務銷售交易都是高速資料的例子。

準確性 (Veracity)

準確性是指所收集資料的質量、準確性和可信度。高準確性的資料是真正有價值的東西,以一種有意義的方式對整體結果作出貢獻。而且必須是高質量的。例如,如果您正在分析Twitter資料,那麼必須直接從Twitter站點本身提取資料(如果可能的話使用本機API),而不是從可能不可信的第三方系統提取資料。據估計,資料的不準確性或錯誤導致美國公司每年損失超過3.1萬億美元,原因是基於這些資料做出了錯誤的決策,以及花費大量資金對資料進行清洗、清理和修復。

2.大數據的種類

大數據可以分為三種類型:

大數據的種類

結構化資料 (Structured)

結構化資料指可以使用關係型資料庫表示和儲存,表現為二維形式的資料。你可以透過固有鍵值獲取相應資訊,且資料的格式固定。

非結構化資料(Unstructured)

任何形式或結構未知的資料都被歸類為非結構化資料,一個典型例子是包含簡單文字檔案、影象、影片等組合的異構資料來源。

據IDC的一項調查報告中指出:企業中80%的資料都是非結構化資料,這些資料每年都按指數增長60%。但是因為這些是非結構化的,對於公司和IT部門來說,如何將這些資料轉化為價值,仍存在很大的挑戰。

半結構化資料(Semi-Structured)

半結構化資料可以同時包含這兩種形式的資料。我們可以把半結構化的資料看成是結構化的,但卻不方便模式化,不能用關係DBMS中的表定義來定義。例如日誌檔案、XML文件、JSON文件、Email等

二、什麼是大數據分析?

大資料分析是“研究包含多種資料型別的大型資料集的過程,以發現隱藏的模式、未知的關聯、市場趨勢、客戶偏好和其他資訊。”

IIA研究部主任Tom Davenport採訪了50家實施大資料分析的公司,發現大資料分析對公司主要的價值包括更降低成本,幫助更好更快的決策,以及發現新的收入機會,開發新的產品和服務等。

三、大數據分析的步驟

大數據分析的步驟主要有以下五步:

大數據分析的步驟

1、提出問題

提出問題是是大資料分析的第一步,這個步驟幫助你定位想要挖掘的資訊中心,後續的步驟都圍繞此來進行

2、採集資料

雖然每天網際網路都會產生大量的資料,但是這些並不是所謂的大數據,只是一個資訊的泛濫資料而已。對於企業來講,要蒐集對自己企業有用的資料才是真的大數據。而大數據的採集很簡單,透過操作資料分析軟體,利用多個數據庫對各種資料進行查詢和處理,並存儲在相應的空間當中。

在這個過程中,大數據分析軟體最大的挑戰是併發數高。我們都知道,有不少網站的訪問量是非常高的,對它們的資料採集必須要有大的資料庫才能支撐,因此大數據分析軟體質量不好,也會阻礙分析。

3、匯入以及預處理

採集所產生的資料雖多,但是卻並不全是有效的,需要數據分析軟體對其進行分析,而要想分析這些資料,就要先將這些資料匯入到一個數據庫中,並做一些簡單的處理,這樣可以集中刪除一些無用但是佔記憶體的資料,幫助企業更快的找到有效數,滿足企業對資料的分析要求。

4、統計分析

使用分析和統計工具評估資料以發現有用的資訊,是大數據分析過程中最重要的步驟。利用資料庫中的大量資料,對其進行分析,採集,從而獲得對企業發展有益的資訊,滿足企業的分析需求。另外,在分析統計過程中,企業還要做到資料的可靠性才行。有些資料如果出現問題,會給企業分析帶來誤導,所以在輸入過程中一定要注意準確性。

5、資料視覺化

這一步,藉助FineReport、FineBI和Tableau等工具,將上一步的資料結果用圖表、dashboard等更直觀的方式呈現,幫助企業更容易理解資料,找到資料背後的真相。

「注意」

值得一提的是,雖然大資料分析的步驟可以套用到任何一個商業案例上,但是資料分析的功力可就因人而異了。一般情況下,可以把資料分析的功力級別分為三級。

  • 初級:只會被動的取數。沒辦法解決業務的問題,業務部門缺什麼資料,我就取什麼資料… 常被調侃叫”茶樹菇 / 表哥 / 表姐“。
  • 中級:解決具體問題。採用由上至下的思維方式來分析,透過做使用者畫像-尋找差異-差異量化成指標-問題假設-改進方案-驗證。
  • 高级:指導業務。這類人很少,一般是總監級別,思維和業務都非常熟練。

前兩者佔了90%,最後一層需要你有大量的實際經驗,並不是看幾篇文章,會幾個工具,讀幾本書就能達到的。如果你還處在取數階段,不用慌,這是個必經的過程,但是工作了三五年,還被叫表哥表姐的話,就很危險了。

那麼,如何破局呢?記住一條,業務為王。

理論上:資料分析=業務分析+資料手段+量化業務

實際上:資料分析=監控類(資料埋點、建表、寫BI、資料觀察)+資料支援類+問題分析

你只有抓住業務本質,你分析出出來的結論和報告,才是對業務有指導作用 ,是能影響管理層決策的。那從哪裡去了解業務呢?這個應該不用我多說。

四、熱門的大數據分析工具

大資料分析工具的選擇有兩種,一類是在資料分析步驟中選擇相對應的專業的工具,一類是選擇功能可以涵蓋從資料收集到資料視覺化的每一步的全面的資料分析工具。

各資料應用架構层的大数据分析工具

1、資料处理層

常用的資料儲存層有Access,MySQL資料庫等。但是這個很難滿足大資料分析的需求。一般企業級的大型資料庫會選擇DB2,Oracle資料庫。如果還是不能滿足海量的資料儲存需求,這個時候就需要上企業級應用的數倉了。

2、資料分析層

資料分析層最常用的是Excel。 更專業的有SPSS軟體和SAS軟體。SPSS作為資料分析入門是比較好的。對於高階資料分析師,使用分析工具是核心能力,VBA基本必備,SPSS/SAS/R至少要熟練使用其中之一,其他分析工具(如Matlab)視情況而定。對於資料採擷工程師,可以用R和Python寫程式碼來解決。

3、表现层

因為大數據的數據量很大,一些線上的圖表工具很難支撐大數據的視覺化呈現。所以在表現層常用一些專業的企業級的視覺化工具來實現。比如FineReport,你可以將它連線各種資料庫,或是ERP、CRM、OA、MIS在內的各種業務系統資料。

FineReport提供了70多種圖表和能強大的複雜報表和戰情室功能。你可以將你的數據可視化便捷地發佈到多場景的資料大屏上進行視覺化集中管理,比如行動端、TV屏、大屏等。

其他特點:

  • Excel+綁定資料列的介面,操作容易,簡單易學
  • 擁有很多主題的範本,可重複使用
  • 功能強大,除了基礎的數據展現外,FineReport還支持數據填報、定時推送,多級上報,列印導出等各種場景
  • 大屏3D特效、15 種動態載入效果,以及聯動、離屏控制

資料可視化數據工具更多資料參考:

2021年30個值得推薦的資料視覺化工具,趕緊收藏!

一體化大數據分析工具

上述各應用層架構上對應的資料分析工具,多多少少會需要用到程式碼或是SQL,對技術的要求比較高,適合IT部門使用。

那麼,對於有及時的業務分析需求的業務部門或是資料分析師呢?這裡建議可以選擇一功能全面且好上手的大資料分析工具。比如FineBI。

FineBI支援超過30種以上的資料庫表和SQL資料來源,和數倉的便捷連線。基於Spider大資料引擎的直連模式和本地模式,以輕量級的架構實現大體量資料的抽取、計算和分析。最高可以支撐20億資料的秒級呈現,可支撐大資料分析的各種應用場景。

透過FineBI自助資料集功能,普通業務人員就能拖拖拽拽對資料做篩選、切割、排序、彙總等,自助靈活地達成期望的資料結果,並選取智慧推送的圖表和dashboard實現資料的視覺化。

大數據分析工具更多資料参考:

數據分析工具怎麽選?十大諫言你值得一看!

這大概是2021年最值得推薦的【大數據分析】工具!

五、大數據分析應用

1.製造業

痛點:

製造業面臨技術工藝不精、缺乏市場意識、商貿流通環節多、物流成本大、倉儲效率低下的問題,正處在轉型的特殊時期。製造業原有的各應用系統(ERP、SCM、CRM)隨著企業的發展積累了大量的資料,但未得到有效利用,並且由於各個應用系統相互獨立,挖掘出資料的潛在價值是比較困難。

大數據應用

帆軟製造行業大數據解決方案舉例。

透過商業智慧資料倉庫的建立,將企業中的所有相關資料經過ETL轉換,資料清洗後放到資料倉庫中,業務人員可透過自動建模實現自助式分析,及時瞭解生產、銷售情況,擺脫資料孤島的煩惱。如最佳化生產線管理,可以透過整合的FineBI商業智慧平臺,工廠內不同工序的管理者能夠獲得實時的資料資料並查閱不同的報表。

生產部經理能從生產時間、產能利用和資源運用等關鍵績效指標(KPI),監控生產力並策劃產能和最佳化資源;品質管理部經理能夠透過產品缺陷分析改善產品質量;而高階管理層能透過更有效地控制成本及開支分析提升投資回報率。

2.零售業

痛點:

很多零售連鎖公司、百貨公司很早就引入了OA辦公系統,自有的資訊平臺也都投入使用,但面對日益龐大的顧客消費資料,如何讓沉澱下來的客戶資料發揮最大的價值,尤其是商場的會員,怎樣讓會員的粘度,會員的價值以及忠誠度提升到最優,以提供根據吸引力的增值服務,成為擺在面前的一道難題。

大數據應用

帆軟零售業大數據解決方案舉例

【零售管家】是帆軟提供一整套零售業大數據解決方案。打通數據之間的邏輯到指標,指標之間的邏輯到內容,內容之間的邏輯到主題,主題之間的邏輯到管理。形成一整套零售業大數據分析體系,不僅僅讓數據被看到,更讓數據和業務和管理緊密相連,讓數據價值清晰可見。

十幾年來,帆軟協助眾多零售企業成功向新零售邁進,有著豐富零售業數位轉型經驗,并舉辦多場線下交流大會,邀請有實作經驗之人士共同探討零售業大數據分析實例,探討零售業之未來發展。

3.交通物流行業

痛點:

很多交通運輸公司,在資訊化發展後,已建成了多個資訊管理系統,涉及運營、管理、財務等方面。這些系統既相對獨立,又具有一定的聯絡,彼此會互相呼叫其它系統的資料。但這些資訊系統經過了近十年的使用與發展,其本身固有的限制已經越來越不適合當前企業的業務需求。他們一致尋求既能不影響現有系統的執行,又能對全公司資料進行集中分析處理的方法,商業智慧正是一個優秀的解決方案。

大數據應用:

帆軟交通運輸行業大數據解決方案舉例

利用帆軟解決方案,各系統資料得以聯絡,以往堆積的資料也都”活躍“起來。也正因為這樣一個網路式搭建的系統,車輛的資訊得到歸檔集中,管理人員能夠實時有效地檢視車輛運營資訊和車輛維修保養狀況,輔助進行決策。帆軟解決方案也給管理執行帶來如下益處

提高了查詢分析效能。
減少和控制運營風險。
透過增加效率來減少運營成本。
透過智慧化分析,合理安排車輛保養。
分析報表自動化處理,減少人力物力支出。
整合資料形成企業級資訊檢視,便於綜合分析。
透過智慧化分析和資料探勘捕獲知識,輔助管理決策。

六、大數據其他相關文章推薦

大數據分析方法https://www.finereport.com/tw/knowledge/acquire/basic-analystic-methods.html

大數據成功案例https://www.finereport.com/tw/success/othersolution

喜歡這篇文章嗎?歡迎分享按讚,給予我們支持和鼓勵!

熱門文章推薦

熱門工具

免費試用FineReport

僅需1分鐘,即可體驗新一代企業級報表軟體!現在激活還可獲得行業案例和範本!

  • Line【FineReport報表軟體】

帆軟FineReport臉書官方賬號
加入好友

回覆簡報送最新10.0產品簡報

  • 臉書【FineReport報表軟體】

帆軟FineReport臉書官方賬號

按讚送資訊人才必備懶人包

  • 商務問題諮詢

  • 王人賢 Brian

    0933-790886

    taiwan@fanruan.com

  • 技術問題諮詢

  • 線上客服:點擊右側「聯繫我們」按鈕

    郵件諮詢:support@fanruan.com

    服務時間:工作日 9:00~12:00,13:30~17:30

返回頂部