FacebookTwitterLineHatena

在經分(經營分析)的年代,數據倉庫推倒重來了幾遍,構建了很多的專題項目,經歷了上萬次取數,和成百上千的報表製作,但在支撐了當初的業務發展的同時,到底給如今的企業留下了多少資產?

也許是培養了一代又一代的數據人員,如今有的成為數據專家,有的轉型業務人員,有的晉陞為領導,有的離職踏上新的崗位,為企業服務的合作夥伴也由此獲得快速成長,很多也成了龐然大物。

但這個夠嗎?

顯然不夠,但很多企業現有的數據歷史底蘊就是這些了吧,老系統遲早要倒,新系統還是要建,但老系統的好基因卻很難留下來,這一代的數據倉庫與上一代數據倉庫一般不能說是演進,而是重來,或者是靠著個人的經驗撐起整片天,又如10年前筆者用邏輯回歸實現的飛信潛在模型,現在只能到歷史的PPT中去尋找其蹤影了,反應了同樣的道理。

想向新人介紹一下歷史,囧於歷史沒什麼好說的,也沒什麼好展示的,說明了傳承的不夠,曾經滄海難為水,其實可以做的更好。

那麼問題的核心在哪裡?

答案就是數據中台,今天就來談一談。

廣義的數據中台包括了數據技術,比如對海量數據進行採集、計算、存儲、加工的一系列技術集合,對於大多企業,這些能力是能夠買到的,因此無所謂積澱,要積澱大多也是別人的積澱,而不是企業的,當然自主研發的除外,比如阿里的ODPS等。

筆者提的數據中台要更往上走,包括數據模型,演算法服務,數據產品,數據管理等等,這些服務跟企業的業務有較強的關聯性,是這個企業獨有的且能復用的,比如企業自建的2000個基礎模型,300個融合模型,5萬個標籤,這些就是筆者說的中台,它是企業業務和數據的沉澱,其不僅能降低重複建設,減少煙囪式協作的成本,也是差異化競爭優勢所在。

為什麼數據中台如此重要呢,筆者概括大致有以下四個原因:

1、回歸服務的本質-數據重用

今天的浙江行動已經將2000個基礎模型作為所有數據服務開發的基礎,這些基礎模型做到了「書同文,車同軌」,無論應用的數據模型有多複雜,總是能溯源到2000張基礎表,這奠定了數據核對和認知的基礎,最大程度的避免了「重複數據抽取和維護帶來的成本浪費。」

曾經企業的數據抽取就有多份,報表一份,數據倉庫一份,地市集市一份,無論是抽取壓力、維護難度及數據一致性要求都很高。

同時,統一的基礎模型將相關業務領域的數據做了很好的匯聚,解決了數據互通的訴求,這點的意義巨大,誰都知道數據1+1>2的意思。

2、數據中台需要不斷的業務滋養

在企業內,無論是專題、報表或取數,當前基本是煙囪式數據生產模式或者是項目制建設方式,必然導致數據知識得不到沉澱和持續發展,從而造成模型不能真正成為可重用的組件,無法支撐數據分析的快速響應和創新。

究其原因是模型建設往往是項目式的建設方式,一旦項目結束,在面對業務提出更多需求時,項目模型團隊可能已經撤離了,或者考核指標早已經隨著項目結束,模型提供者在主觀上沒有太大的積極性去滿足新的需求,如果當初模型的擴展性設計的不好,或者時間太緊,或者系統穩定的需要,往往導致有心無力滿足新的需求,結果是數據模型無法再擴展,成為事實上穩定的但無用的模型。

其實,業務最不需要的就是模型的穩定,一個數據模型如果一味追求穩定不變,一定程度就是故步自封,這樣的做法必然導致其他的新的類似的數據模型產生,當越來越多的模型都採用自建的方式滿足需求時,意味著老的數據模型就可能要離開歷史舞台了,而留下的是割裂的成千上萬的模型,也就失去了模型知識沉澱的可能,曾經做過一張幾百個欄位的萬能寬表,由於太大後來就沒人敢去動它,隨著新的業務不斷增加,這張寬表的價值卻越來越低直至退出歷史舞台。

數據模型不需要「穩定」,而需要不斷的滋養,只有在滋養中才能從最初的欄位單一到逐漸成長為企業最為寶貴的模型資產。

其實標籤也一樣,做過不少異動標籤或離網模型,曾經效果不錯,隨著公司轉型流量經營,原來以語音異動判斷為主的這類標籤開始難以適應變化,但後續已經沒人能改得動它,這個標籤也就退出了歷史舞台,退出的可不僅僅是一個標籤,這個標籤承載的所有的既有經驗也就被廢棄掉了,想想這些標籤當初花了多大的代價做成就會感覺非常可惜。

再以報表為例,企業報表成千上萬的原因往往也是沒有沉澱造成的,針對一個業務報表,由於不同的業務人員提出的角度不同,會幻化出成百上千的報表,如果有報表中台的概念,就可以提出一些基準報表的原則,比如一個業務一張報表,已經有的業務報表只允許修改而不允許新增,自然老報表就會由於新的需求而不斷完善,從而能演化成企業的基礎報表目錄,否則就是一堆報表的堆砌,後續的數據一致性問題層出不窮,管理成本急劇增加,人力投入越來越多,這樣的事情在每個企業都在發生。

3、數據中台是培育業務創新的土壤

企業的數據創新一定要站在巨人的肩膀上,即從數據中台開始,不能總是從基礎做起,數據中台是數據創新效率的保障。

搞過機器學習的都知道,沒有好的規整數據,數據準備的過程極其冗長,這也是數據倉庫模型的一個核心價值所在,比如運營商中要獲取3個月的ARPU數據,如果沒有融合模型的支撐,得自己從賬單一層層匯總及關聯,速度可想而知。

很多合作夥伴的數據科學家到一個企業水土不服,除了業務上不熟悉外,往往還面臨著數據準備的困境,取數的高難度導致他難以快速的去驗證想法,企業想藉助外力去搞數據創新有時成了一廂情願。

標籤也一樣,企業打造標籤可並不僅僅是做幾個標籤那麼簡單,它需要打造的是一個標籤服務平台,要能最大限度的規範標籤的格式,接入方式,組合方式,調用方式等等,只有這樣,基於標籤的二次快速創新才有可能,企業每發布一個新的標籤,就意味著新增了一種能力,這才是數據知識的真正傳承。

比如當常駐地模型發布成為標籤平台的一個標籤後,以後凡是涉及到常駐地判斷的都可以直接調用,這極大降低了關於用戶位置數據準備的成本。

在如今的互聯網時代,企業都在全力謀求轉型,轉型的關鍵是要具備跟互聯網公司一樣的快速創新能力,大數據是其中一個核心驅動力,但擁有大數據分析軟體還是不夠的,數據中台的能力往往最終決定速度,擁有速度意味著試錯成本很低,意味著可以再來一次。

4、數據中台是人才成長的搖籃

記得筆者剛進企業的時候,要獲得成長一是靠人帶,二是找人問,三是自己登陸各種系統去看源代碼,這樣的學習比較支離破碎,其實很難了解全貌,無法知道什麼東西對於企業是最重要的,獲得的文檔資料也往往也是過了時的。

現在有了數據中台,很多成長問題就能解決,有了基礎模型,新人可以系統的學習企業有哪些基本數據能力,O域數據的增加更是讓其有更廣闊的視野,有了融合模型,新人可以知道有哪些主題域,從主題域切入去全局的理解公司的業務概念,有了標籤庫,新人可以獲得前人的所有智慧結晶,有了數據管理平台,新人能清晰的追溯數據、標籤和應用的來龍去脈,所有的知識都是線上的,最新的,意味著新人的高起點。

更為關鍵的是,數據中台讓新人擺脫了在起步階段對於導師的過渡依賴,能快速的融入團隊,在前人的基礎上進行創新。

數據中台天然的統一,集成的特性,有可能讓新人打破點線的束縛,快速構築起自己的知識體系,成為企業數據領域的專家。

當然,數據中台的建立不是一蹴而就的,每個企業都應該基於實際打造獨有的中台能力,在這個過程中,需要遵循一些原則

首先,企業的組織架構及機制需要順勢而變,比如以前負責數據的部門或團隊往往缺乏話語權,面對業務需求往往是被動的接受的角色,這讓一切數據中台的想法化為泡影,需要為數據中台團隊授權。

其次,要改變工作方式,現在很多企業的數據團隊的主要工作內容就是項目管理、需求管理等等,當一個項目完成後又投入到下一個項目,做好一個需求後又開始負責下一個需求,這樣的工作確實非常鍛煉人的組織、協調能力,但這樣能力的提升與工作時間的長短並不是呈線性增長的,雖然增加了項目和需求管理經驗,但並不能在某一個專業領域得到知識和經驗的沉澱,隨著時間的流逝,越來越多的人會失去最初的工作積極性和創造性,事實上,數據人員只有深入的研究業務、數據和模型,端到端的去實踐,打造出數據中台,才是最大的價值創造,才能使得持續創新成為可能。

第三,數據中台的團隊要從傳統的支撐角色逐步向運營角色轉變,不僅在數據上,在業務上也要努力趕超業務人員,中台人員要逐步建立起對於業務的話語權,不僅僅是接受需求的角色,更要能提出合理的建議,能為業務帶來新的增長點,比如精確行銷。

DT時代,接下來整個社會會進入開放共享的時代,致力於大數據變現的企業最大的價值就是將這些核心數據能力進行對外開放的運營,到那個時代,數據中台將成為企業最為寶貴的資產。

從個人的角度講,將自己的貢獻幻化為中台能力,能夠持續的為公司創造價值,這是值得驕傲的事情。

文 | 傅一平

喜歡這篇文章嗎?歡迎分享按讚,給予我們支持和鼓勵!

熱門文章推薦

立即試用,可獲取更多 報表範本和案例

免費試用