FacebookTwitterLineHatena

近日,Gartner公布了2017年度數據科學和機器學習領域的最酷供應商,清一色的美國廠商,但還是實至名歸的。

何為「最酷供應商」?Gartner定義為具有以下技術或服務的小型公司,有三個評選維度:一是創新力,為用戶帶來前所未有的工作和生活方式。二是影響力,具有或即將具有商業影響力,而不僅僅是「一種技術」。三是吸引力,在過去6個月時間內引起了分析師的興趣或好奇心。簡而言之,所謂最酷供應商,即行業的明日之星。

一、評選背景

Gartner的2017年數據科學平台魔力象限調研數據分析顯示,人才問題,即缺乏足夠技能的用戶仍然是數據科學計劃中最突出的障礙,機器學習和其他高級分析技能的人才需求不能得到滿足。調查中同樣表明,R和Python語言依然是主流語言,但是Spark的應用比例較去年翻了一番,scala也開始嶄露頭角。詳見下圖。

數據和分析領導者正在尋求新的方法,以更好地應用數據科學和機器學習,他們迫切需要將開源技術和新概念融入到複雜的企業環境中的軟體產品,從而在數據科學中的那些廣受推崇的技術中獲得真正價值。所以,在今年Gartner圍繞開源支援、解決人才危機和在數據科學前沿研究課題創新三個方面,評選出了4個最酷的供應商。

二、4個最酷供應商

1、Continuum Analytics(www.continuum.io)

為什麼酷:如果有一個企業被認為是python成功的驅動力,那麼它必須是Continuum Analytics。隨著其Anaconda分布的Python庫,Continuum是任何Python軟體工程師所熟知的。Continuum Analytics正在通過數據科學平台擴大其企業產品。Anaconda集成了最好的開源Python庫,使它們易於使用和維護。它還在Python開放源代碼世界中建立了參考堆棧。它還提供了可視化功能(Bokeh),一個用於Python(Numba)的快速編譯器和用於大數據分析軟體科學工作負載(Dask)的並行化框架。

存在的挑戰: Continuum Analytics通常為提供Anaconda分發的Python庫以及其包管理器Conda而著名。然而,最近已經展現了建立數據科學平台供應商的雄心。該平台目前在Anaconda的各個部分(如TensorFlow,Theano,scikit-learn,Jupyter,R,Spark)之間缺少集成組件,還需要更加一致的外觀和感覺。

2、DataRobot(www.datarobot.com)

為什麼酷: DataRobot為廣泛的數據科學人才短缺提供了一個創新的解決方案,可能會嚴重影響數據科學人員配置舉措和數據科學團隊的最佳結構。該供應商的產品也可以作為許多個人希望在機器學習中獲得興趣的催化劑。其機器學習平台的設計利用了數據準備,功能工程,模型選擇和部署自動化的自動化程序,目的是通過高級分析簡化和加速洞察力的產生。Gartner將這套功能稱為智能數據發現 – 商業智能(BI)和分析市場的下一波中斷。

DataRobot的自動化模型構建為用戶提供了從多個來源(如R,Python,H2O和Spark)中提取的最佳擬合模型的排行榜。機器學習的這種指導性方法呼籲經驗豐富的數據科學家尋求更高的生產力和公民數據科學家尋求更高級的數據科學功能。

目前,DataRobot的自動化和引導界面功能比其他具有類似價值主張的產品領先一步。與其他自動化機器學習解決方案或智能數據發現工具不同的是,DataRobot不是一個黑匣子。數據科學家,數據工程師和其他好奇的分析思想可以在下面看起來,以檢查解決方案的功能工程,並收集DataRobot自己的數據科學家團隊優先考慮的技術。這種透明度對於高度受管制行業的數據和分析領導者,或者對於模型具有強大的治理和可審計性要求的組織特別有吸引力。

存在的挑戰: DataRobot面臨著自動化機器學習和智能數據發現領域的競爭,幾乎全部是 「數學科學平台的魔力象限」的供應商,其中有一些用於商業智慧和分析的魔力象限(如IBM與沃森分析公司,Salesforce’s BeyondCore )和許多其他創業公司。數據科學領域和現代BI系統和分析領域的供應商將力圖利用數據科學家的供求之間日益擴大的差距。超越競爭對手的這一衝擊將是關鍵的挑戰,特別是因為我們認為專利不太可能在這個領域提供足夠的保護。

3、Experfy(www.experfy.com)

為什麼酷: 基於哈佛創新實驗室,Experfy開創了採用數據科學人才的另一種方法,解決通過高度成就的數據科學專家的市場尋找一流技能的問題。Experfy驗證了市場上列出的所有個人的經驗和說明的技能。這種方法可以將客戶與由於缺乏預算而不能全職僱用的專家連接,或者因為這些數據科學家在學術界或更理想的僱主中高興地工作。

Experfy的諮詢市場將請求者的項目與數據科學人才進行了算術匹配,因此請求者獲得競爭性投標,節省開支,同時提高質量,減少項目的時間。Experfy還通過一個正在蓬勃發展的按需培訓平台,為客戶的員工提供高質量的教育。它提供由專家開發和實施的50個在線課程,或者也可以在現場提供任何課程。Experfy渠道是另一個創新,Experfy將其方法應用於特定的數據科學產品,如RapidMiner和Statistica。Experfy使用其嚴格的驗證過程策劃產品專用人才庫,為特定產品創建項目市場,並利用其專家為產品開發培訓。

雖然它成立於2014年,但已經擁有一批高素質的企業客戶,以及數據科學平台供應商和創業公司。

存在的挑戰: 為了維持其目前的專家社區增長率,同時保持其高標準的進入壁壘,可能會凸顯經驗不足的短板。經驗豐富的公司可能會面臨其他創新型公司的激烈競爭,這些公司正在探索定位和應用數據科學人才的替代方法,例如,Kaggle(最近被Google收購),Gigster和Aigency。

Experfy還將面臨來自封閉數據科學人才差距的其他方法的競爭。許多大型供應商和創業公司都發布了智能數據發現工具和指導性分析,可以執行數據科學家的許多任務。許多組織正在著手制定公民數據科學家培訓計劃,為數據科學項目做出重大貢獻。大學也在本科和研究生層面生產更多的年輕人才,他們接受過R,Python和Spark等開源技術的培訓。但是,在可預見的將來,對數據科學人才的需求將遠遠超過供應量。

4、Skymind(Skymind – Deep learning for Enterprise on Hadoop and Spark)

為什麼酷: Skymind,獨特地提供基於Java的深度學習功能,可以使用少數商業可用的開源深入學習框架之一本機利用Apache Hadoop和Spark:Deeplearning4j。Skymind為深度學習技術提供支援,培訓和服務,這對大多數企業來說是新的,但具有重大的潛力。Skymind的技術適用於各種數據科學問題,如高精度推薦系統,圖像識別和異常檢測,欺詐檢測和合規違規。

大多數其他深入學習框架具有強大的研究或學術根源(Torch,Caffe,TensorFlow,Microsoft Cognitive Toolkit),因此,它們依賴Python,R或Scala等編程語言進行原型設計。然而,這些軟體語言對企業來說仍然是一些新鮮事。相反,Skymind專註於Java – 生產部署中最廣泛的語言 – 呼籲企業環境,並增加對現有企業架構投資的價值。憑藉Java編寫,Skymind可以直接利用流行的技術來存儲深入學習所需的數據–Hadoop,Kafka或Elasticsearch以及Spark。Skymind還促進基於JavaScript的可視化來說明數據的有趣方面和深入學習的結果。Skymind」 客戶稱讚解決方案的靈活性; 它是白盒子和開源的。

存在的挑戰: 深度學習處於快速演變的狀態。因此,Skymind也必須快速發展,以跟上競爭對手和終端用戶的需求。Skymind的未來版本雖然更高級,但可能與當前產品不兼容。深入學習創新的步伐可能導致切入點,軟體錯誤等缺陷。目前,Skymind通過在Gitter聊天解決了許多問題,但這可能不足以最終取得成功 – 特別是Deeplearning4j,這強調了其產品。

鑒於深度學習的巨大潛力,以及大量投資於一些深入學習的框架(如BigDL和TensorFlow),Skymind的資金可能不足以保持領先地位。

文 | 帆軟數據應用研究院 水手哥

喜歡這篇文章嗎?歡迎分享按讚,給予我們支持和鼓勵!

熱門文章推薦

立即試用,可獲取更多 報表範本和案例

免費試用