Big data

Big data 的三種資料分析類型

By | Big data | No Comments

Big data已經熱一陣子了,市面上許多企業紛紛提出各種Big data solutions,究竟這些solutions到底是在解決什麼樣的問題?筆者將近期對於 Big data的觀察心得做一點整理,分享給大家。就資料分析的觀點,筆者認為現今 Big data 面對的問題可以分成三種類型:

 

Type A. Big data 問題跟 Small data 是一樣的

無論資料量級的大小,資料分析重視如何展現資料的特徵。展示特徵的方法首要是對資料進行適當的疏理 (subsetting / summarise),整理出能夠進行資料建模 (modeling) 資料表、具代表意義的指標,或是資料視覺化圖表。儘管資料的問題本質一樣,但是在Big data上,需要分散式資料庫 (distributed database) 上的資料處理工具諸如Hive, impala, teradata …等才能實現。如果想要在R語言的環境下,執行量級較大 (GB層級) 的資料疏理 (Data ETL),可以參考dplyr, data.table, sparkR等套件。

Type B.  Big data 問題等同一大群 Small data 的問題

對於Big data進行分析的資料模型,可以由若干Small data models所組成的元件來表示。在這種情況下,分散式運算 (distributed computing) 是為必要技術。如果想要在R語言的環境下執行平行運算,可以參考pbdMPI, snow, foreach, Rth等套件。

Type C. Big data 問題需要靠特製系統解決

當資料分析模型無法透過分散式運算有效解決計算效率問題,需要經常性/即時性分析整包Big data的問題屬於此類。這需要根據整體資料分析的流程特製化設計解決方案,譬如說推薦系統。如果想在R環境下嘗試輕量資料可以運行的推薦系統演算法,可以參考recommenderlab套件。

這三種資料分析類型,其要求的 Big data 理論、技術、工具不盡相同。如果您是正在尋求所謂Big data solution的企業,筆者建議先檢驗您的資料量級是不是 Big data,接著再思考您面對的資料分析問題是哪一種類型,進而尋求解決方案。

日前一篇對知名資料科學家工具開發專家Hadley Wickham採訪報導中,提到一個有趣的數字,90%的Big data問題屬於Type A,9%的問題屬於Type B,其餘的部分則屬於Type C。姑且不論這數字的精確性,從Data life cycle的觀點,抑或從企業的資料成熟度來看,不妨依循 A -> B -> C 的流程,一步一步尋求解決方案囉。

以統計人的觀點談 Big Data

By | Big data, Data Science | 5 Comments

六月初偕同御言堂總經理劉嘉凱 (CK) 先生以及 Etu 負責人蔣居裕 (Fred) 代表 Data Science Program (DSP) 到交大統計所演講的時候,跟所長黃冠華教授聊到統計所與資訊學院合作開設巨量資料分析學分學程印證了以下想法。

統計是從複雜數據中萃取出有用訊息的學問,在分析巨量資料 (big data) 的過程中,理當扮演舉足輕重的角色。然而,傳統的統計學系訓練學生的方式著重在統計工具的開發與應用上,這並不足以勝任所謂的巨量資料分析。

隨著巨量資料這個議題逐漸火熱,一個新的科學領域:資料科學 (data science) 也隨之而生,相對於統計學專注於分析方法之上,資料科學強調的是以資料解決問題的整體流程,即

1. 在該領域有深厚的專業知識,能夠將欲解決的問題以科學建模來表達。

2. 具備足夠的電腦知識與程式能力,能夠高效率的蒐集、清理、管理巨量資料。

3. 對統計方法有廣泛的瞭解,能夠快速的選用適當的統計方法,甚至是開發新的統計方法來分析資料。

4. 綜合以上三者,能夠以非技術性的語言 (譬如:資料/指標視覺化) 來闡釋分析結果,達成有效率的溝通。

 

資料科學強調整個流程,統計學則強調分析 (Model) 的部分

 

就筆者的認知,統計學的本質和現在所謂的資料科學並無不同。然而,從幾乎所有統計教材都會引用的鳶尾花資料集 (iris data) 當作範例就可以發現,統計人太習慣於從某些領域的提問者中聽取問題、收取已經整理好的資料集 (data frame, 諸如 .txt、.csv 檔),然後再「開始做統計」。什麼時候開始,統計人自詡只需要紙筆與電腦就可以做研究,卻忘了在統計界備受尊崇的 R. A. Fisher 爵士是在農業試驗所中發展出變異數分析、實驗設計法、最大概似估計…。

或許對於一個專精於統計方法的統計人而言,這種習慣並無不妥。但是在現今巨量資料的浪潮上,到處充斥著結構化、半結構化與非結構化的資料 (詳見 Fred 豢養的雲中象)。這類資料跟以往統計教科書裡面經由篩選與處理後的資料完全不同。以企業內部的結構化資料為例,當企業負責人抱著 SQL Database 或 Data Warehouse 裡面滿滿的資料來請統計專家做問題諮詢時,該怎麼回應? 如果是非結構化的圖檔、影像檔,統計專家又該怎麼回應? 就像林禎舜師兄在MLDM Monday演講中提到的一個概念:就現今以資料解決問題的話語權而言,(相對於資訊科學) 統計學的話語權是逐漸式微的 (因為統計人無法處理第一線的資料)。

我的經驗是統計人要拋開傳統教科書對於 data 就是一個data frame 的認知,瞭解 data 的原貌是真實世界的一種記錄方式,它可以是數字、文字、聲音、影像、氣味、建築物…。真真切切的去貼近真實世界、去貼近第一手資料,用最直覺的方式體會所知的統計方法,就會發現這些方法的精神其實可以應用在各式各樣的資料上。

下一篇,將會具體的談到統計人進入Big data / Data science 的建議。