FacebookTwitterLineHatena

巨量資料的時代已經到來,而在前兩年,巨量資料也被炒作到了高峰,而馬雲則表示,在今後的三十年,是屬於DT(資料技術)的。不過在這段時間,關於巨量資料的聲音不是很響亮了,造成這樣現象的原因,出來炒作周期的規律外,就是在技術上也遇到了一些瓶頸。
在遇到的瓶頸中最大的一個就是人。想要將隱藏在巨量資料裡面的模式挖掘出來,在很大程度上是要依靠資料分析軟體開發者的建模以及直覺的,不過當前資料專家的樹立似乎無法跟上巨量資料的發展。不過目前有一款名為資料科學機器(Data Science Machine)的軟體實現了即便無人參與也能進行資料分析的功能,且經過實驗對比,這個資料分析軟體(data analysis software)的表現與專業資料分析師在能力上不相上下。
資料科學機器的關鍵突不僅是能自己尋找模式,還能自己設計相關的特徵集。了解機器學的人都知道,特徵工程在其中的重要性,指的是,利益資料只是來創建特徵,以此來機器學習到演算法,並進行工作的過程,而這個過程往往要依靠人的直覺。
但是資料科學機器卻利用了相關聯的資料庫中表間的結構化關係來當作線索,並進行構造特徵,從而生成一批特徵集。然後通過分析相關性來縮小範圍,因此免去了人在這個過程中參與。然後,資料科學機器還會將特徵集在樣本資料上應用,再利用不同的方式進行重新組合特徵,以此來優化準確率。
為了對新系統的第一款的原型進行測試,研究人員用其參與了三項資料的相關科學分析的競賽,而競賽的目標不是常見的預測性模式。競賽一共有九百多支隊伍參加,而資料科學機器的成績要比六百多支隊伍高。在準確率方面,資料科學機器在競賽中也有兩場達到了百分之九十以上。但是在效率方面卻是要比人類高很多。
目前資料科學機器已經對可能退出 MIT 的在線課程的學生進行了分析,並它選出了兩個特徵來分析學生準備寫作業時間是早還是晚,以及網上學習的時間長短。儘管當前的這個能力看起來沒有什麼強大的地方,但是要知道這只是開始,在BI迅猛發展的階段,一旦學會真正的自我學習,那麼在強大的計算能力下,其進化程度將是我們很難想像的。

喜歡這篇文章嗎?歡迎分享按讚,給予我們支持和鼓勵!

熱門文章推薦

立即試用,可獲取更多 報表範本和案例

免費試用