FacebookTwitterLineHatena

 平行坐標圖——對大數據的「降維攻擊」

Parallel Coordinate(平行坐標圖)是一種用來呈現多變數,或者高緯度數據的資料視覺化技術, 用它可以很好的呈現多個變數之間的關係。平行坐標圖是最著名的資料視覺化技術之一,也是資料視覺化學術論文中最常見的主題。雖然其中大量的線段最初看起來令人費解,但它們是理解多維數值數據集的一個非常強大的工具。

通常描述平行坐標的方法是討論高維空間,以及這種技術如何平行地布置坐標軸而不是相互正交。下面是具體的數據表。表中詳細描述了從1970到1982年間發布的汽車型號,包括它們的里程數(加侖)、氣缸數、馬力、重量以及它們被生產的年份等等。

 平行坐標圖——對大數據的「降維攻擊」

現在想像一下,把表中的每一列都映射到下面圖像中的垂直軸上。每一個數據值都會附著在坐標軸的某個位置,位於底部的最小值和頂部的最大值之間。然而,純粹的點的集合不會非常有用,因此我們將屬於同一記錄(行)的點與點之間連接起來。這就產生了類平行線的混雜特徵。

 平行坐標圖——對大數據的「降維攻擊」

通過查看這個資料視覺化圖表,您可以了解很多有關數據的資訊。氣缸之所以突出,是因為它只有幾個不同的值。氣缸的數目只能是一個整數,這裡不超過八個,所以所有的行都必須經過一個明確的點。這樣的數據通常不適合平行坐標。但如果是一個或兩個坐標軸有這種情況,問題不大。

在每加侖汽油能行駛的英里數MPG和氣缸之間,你可以看出,八缸汽車相對於六和四缸的一般有較低的里程。如果跟著線看它們是如何交叉的,可以發現很多交叉線是反向關係的標誌,圖形顯示出這樣的規律:越多的氣缸,越低的里程。

汽缸和馬力之間的相關性更為直接:汽缸越多就意味著更多的馬力。當然,這裡也有一些交叉線,所以更多的氣缸並不總是意味著更多的能量,但總的趨勢顯然是存在的。在馬力和重量之間,情況是相似的:馬力越大一般意味著車越重,但當然也有一些價值的分散。還有一個例外,一個高馬力八缸汽車是非常輕的。仔細找一找可以發現那個離群值。

最後,重量和年份之間的線交叉很多,這表明多年來汽車變得更輕了。你也可以很容易地看出,年軸只記錄了少量不同的數值,類似於氣缸。雖然這是一個非常簡單的示例,但它顯示了大多數數據集中的典型結構。

除了閱讀平行坐標的一些經驗外,使用這種技術來了解數據集的最佳方法顯然是交互的。平行坐標系中的主坐標稱為「刷」,看下面的圖像應該很明顯。為了做到這一點,我們來看看所有的軸。

 平行坐標圖——對大數據的「降維攻擊」

在這裡,我在年軸上刷了1980年到1982年的區間。結果是線條的一部分被刷成了黑色,其餘部分仍然以灰色為背景。看看從右到左的軸,你可以看到,在這個選擇中的汽車模型幾乎都在重量範圍的下半部分,而它們都是在馬力的下半部。氣缸的分布也很有意思:在這個選擇中,似乎只有一個八缸的汽車,其他的都是六缸或以下。里程數通常也高於所有汽車的平均值。

 平行坐標圖——對大數據的「降維攻擊」

刷1970至1972年產生一個非常不同的形象:重量,電力等都四散分布,里程大多在下半部。雖然預計會有更高的價值,但有一點很有趣,那就是十年伊始就有相當多系列的汽車,而不僅僅是重型的八缸汽車。過去幾年的趨勢是朝著更輕、效率更高的汽車發展。當然還有更多關於平行坐標圖交互的用法:你通常可以重新排列軸來比較不同的分類信息,或者同時在把不同的軸上刷一把,亦或者翻轉軸(圖像頂部的箭頭表示軸的方向),等等。

除此之外,開發者大江東去通過封裝著名圖表庫,支援基本平行坐標圖與地圖或散布矩陣的組合圖。

 平行坐標圖——對大數據的「降維攻擊」

 平行坐標圖——對大數據的「降維攻擊」

高維數據展現利器,大數據量分類和大數據分析的最佳展示方式,平行坐標圖,即刻起支援免費下載體驗試用。https://market.fanruan.com/plugin/681

 平行坐標圖——對大數據的「降維攻擊」

喜歡這篇文章嗎?歡迎分享按讚,給予我們支持和鼓勵!

熱門文章推薦

立即試用,可獲取更多 報表範本和案例

免費試用