說文解字第1課:大數據Big Data

2017.01.19 03:14PM
是說文解字第1課:大數據Big Data這篇文章的首圖

大家好,又到了說文解字的時間,不對,這是癮科技的新專欄,所以說文解字這個專欄是第一次跟大家見面喔。在往後的每個星期,我們都會推出1篇文章,向讀者解釋各種電腦、3C領域的關鍵字,希望大家多多支持。

在幾年前,BOT是個相當熱門的辭彙,山也BOT、海也BOT。到了這幾年,大數據成了最火紅的關鍵字之一,無論企業界還是政治人物,都把大數據掛在嘴邊,但是大數據到底是什麼呢?

 

大數據不只大,全面更重要

大數據一詞直譯自英文的Big Data,也有人將其翻譯為海量資料,字面上的意思就已經把它的涵義說明一半了。大數據既然有個「大」字,就代表它的資料量一定很多,於是這就引發了另一個問題,要有多少資料,才能叫作大數據呢?根據麥塔集團(META Group)2001年的研究報告指出,資料增長的挑戰有資料量(Volume)、處理速度(Velocity)、資料多樣性(Variety)等3個方向。

然而麥塔集團在2005年時被高德納顧問公司收購,高德納於2012年對大數據提出新的定義,指出大數據是大量資料、高速處理,並可能具有多樣性,需要使用新的方式進行處理,以用於增進決策能力、洞察力,並協助將處理程序最佳化。從這個定義中,我們可以看到資料的量並沒有被給予明確的界限,因此我們不防轉向參考麥爾荀伯格與庫基耶所著的大數據一書,從資料的特性進行思考。

aea80dab9599b965cf561c3a7c196ab3

▲大數據一書由天下文化出版,相當值得一看。(圖片來源:天下文化


大數據之所以與傳統資料有所不同,其中很大的原因就是資料採樣方式的差異。在傳統分析資料的過程中,因為收集資料的方式與工具需要相當的成本與時間,而在有限的經費與時間下,我們需要先對母體進行抽樣,然後再收集這些樣本的資料。舉例來說,如果要在選舉之前進行民調,民調公司只對一部份的人進行抽樣,並調查他們的投票意向。這時候分析的結果很可能就會受到抽樣方式影響,若是採用室內電話調查,可能會因為年輕族群在家時間較少,且部分租屋族並未安裝室內電話,而讓樣本的年齡偏高,進而影響分析的準確度。

 

借助電腦自動處理大量資料

然而大數據的概念之一,就是可以透過不同的方式收集資料,以達到直接對母體進行全面性調察的目的,如此一來就能避免抽樣失真而讓分析結果失去參考價值。

再舉個例子,傳統電視節目的收視率,是透過在特定收視戶家中安裝調整設備,來記錄觀看電視的頻道與時間,或是透過電話訪問,訪查收視戶正在收看的節目。然而這種方式會因為樣本的家庭成員組成、喜歡節目的不同,而影響調察結果,雖然可以透過增加抽樣數量的方式,提高結果的準確度,但是無論再怎麼改善調查結果,都還是無法還原所有收視戶真實的情況。

但是在電視數位化之後,系統業者便能透過機上盒的程式統計收視情況,並自動將資料回傳至伺服器進行統計,如此一來便能確實掌握所有人的真實收視情況,而不會被不準確的抽樣影響,這對資料分析有著相當大的助益。

b06f807ba76a5cc05d61b1671b11f8d2

▲在抽樣統計中,若樣本的數量越大,誤差就會越小,而大數據則是直接將母體做為樣本,因此不會有統計誤差。

比較前後兩者的差別,可以看到新的方式能夠透過自動化的方式,全面性地收集資料,並透過電腦進行高速統計與處理,由於節省了許多成本與時間,因此就不再需要為了現實考量而採用抽樣統計,這就是大數據與傳統資料處理方式的差異,也讓資料更具參考價值,能提供決策者更強而有力的判斷依據。

總結來說,大數據的精神除了資料本身量很龐大之外,以至於分析的對向從樣本題升至母體之外,另一個重點就是透過非傳統的方式,挖掘出資料中尚未被發現的價值。至於該如何收集、挖掘並運用資料,這就是另一門學問了,這個主題就留到下週再一起討論吧。

 

說文解字使用範例:大數據

O:企業經營者可以透過大數據預估消費趨勢。

X:辦公室已經沒有空間擺放大數據的卷宗了。