Monthly Archives: 七月 2014

用資料科學迎擊選戰

By | Data Science | No Comments

隨著年底直轄市長/縣市長選舉的逼近,在我看來利用資料學方法規劃選舉策略是很有潛力的。我以沈富雄先生宣布參選參選台北市長後,TVBS 於6月21日所做的民調數據為基礎,再加上台北市統計資料庫查詢系統,利用Gibbs sampling的概念將民調結果的表2-1至表2-6回推成拿不到的原始民調數據,數據大致如下表所示:

表1:台北市長選情民調數據範例

支持者性別年齡地區學歷省籍政黨傾向
連勝文女性30+中山大同高中閩南中立
柯文哲男性50+士林北投大專客家民進黨
柯文哲男性60+士林北投大專閩南中立
柯文哲女性30+松山信義大專閩南民進黨
沈富雄女性40+中山大同高中外省中立
未決定男性50+內湖南港國中其他中立

參考日前由 OSSF 在中研院舉辦的 Data Science with R Workshop (簡報),在介紹Data mining 方法時提到的分類與迴歸樹 (Classification and Regression Trees, CART) 進行分析,如下圖所示:

台北市長選戰決策樹

台北市長選戰決策樹

自左上而右下觀察這棵決策樹,可以發現影響選民支持度最重要的變數終究是政黨偏好,傾向於國民黨者對於連勝文的支持率為 0.69,傾向民進黨者對柯文哲的支持率則為 0.83。至於自稱中立與傾向其他政黨 (包含台聯、親民黨、新黨、無黨聯盟、綠黨與拒答) 者當中,20-29歲的年輕人有很大的比例的支持柯文哲 (0.66),30歲以上的人則依據祖籍、性別的不同對於連勝文、柯文哲、沈富雄各有所好。有趣的是30歲以上、祖籍為閩南、客家的選民中,柯文哲顯然更受到男性支持 (0.54);同樣在30歲以上、祖籍為外省、其他的族群中,連勝文的支持率為34%。至於選民的教育程度、居住地區等訊息屬於相對次要的影響因子(雖然說是次要因子,但仍影響了一成以上的選票),則能顯示諸如:1. 連、柯的鐵票族群細目;2. 沈富雄從連、柯二人手中轉移的潛在選票族群;以及 3. 未表態選民的特徵等訊息。為了不讓決策樹解釋過於冗長難懂,在此保留那些複雜的細節。

回到我想討論的主軸,資料科學有什麼潛力來幫助選舉策略規劃?根據我日前在政治大學談到資料科學與媒體分析的概述:資料科學係指針對特定問題 (在此指某種選舉方針) 規劃資料的收集、萃取、建模、再提供決策的一門學問。再講深入一點,訓練有素的資料科學家能夠針對問題規劃出:1. 該蒐集那些資料、如何蒐集正確的資料; 2. 從幾百筆、幾萬筆、幾千萬筆資料中進行整理、剖析; 3. 透過統計建模從大量的資料中發現洞見,進而提供決策方針。依此定義,資料科學家自然有助於選戰團隊的策略規劃。譬如偵測出各種游移選民的特徵與偏好、鞏固票倉的策略、競選行程路線最佳化…等等,都能夠讓資料科學家佔有一席之地。

對於資料科學家養成內容感興趣的讀者,請參考中研院資訊科學所陳昇瑋老師的專訪。此外,如果想進一步接觸資料科學養成課程的同好近期 TW.R 社群展開了一系列免費的資料科學上手課程,詳見TW.R 臉書頁面以及活動meetup

以統計人的觀點談 Big Data

By | Big data, Data Science | 5 Comments

六月初偕同御言堂總經理劉嘉凱 (CK) 先生以及 Etu 負責人蔣居裕 (Fred) 代表 Data Science Program (DSP) 到交大統計所演講的時候,跟所長黃冠華教授聊到統計所與資訊學院合作開設巨量資料分析學分學程印證了以下想法。

統計是從複雜數據中萃取出有用訊息的學問,在分析巨量資料 (big data) 的過程中,理當扮演舉足輕重的角色。然而,傳統的統計學系訓練學生的方式著重在統計工具的開發與應用上,這並不足以勝任所謂的巨量資料分析。

隨著巨量資料這個議題逐漸火熱,一個新的科學領域:資料科學 (data science) 也隨之而生,相對於統計學專注於分析方法之上,資料科學強調的是以資料解決問題的整體流程,即

1. 在該領域有深厚的專業知識,能夠將欲解決的問題以科學建模來表達。

2. 具備足夠的電腦知識與程式能力,能夠高效率的蒐集、清理、管理巨量資料。

3. 對統計方法有廣泛的瞭解,能夠快速的選用適當的統計方法,甚至是開發新的統計方法來分析資料。

4. 綜合以上三者,能夠以非技術性的語言 (譬如:資料/指標視覺化) 來闡釋分析結果,達成有效率的溝通。

 

資料科學強調整個流程,統計學則強調分析 (Model) 的部分

 

就筆者的認知,統計學的本質和現在所謂的資料科學並無不同。然而,從幾乎所有統計教材都會引用的鳶尾花資料集 (iris data) 當作範例就可以發現,統計人太習慣於從某些領域的提問者中聽取問題、收取已經整理好的資料集 (data frame, 諸如 .txt、.csv 檔),然後再「開始做統計」。什麼時候開始,統計人自詡只需要紙筆與電腦就可以做研究,卻忘了在統計界備受尊崇的 R. A. Fisher 爵士是在農業試驗所中發展出變異數分析、實驗設計法、最大概似估計…。

或許對於一個專精於統計方法的統計人而言,這種習慣並無不妥。但是在現今巨量資料的浪潮上,到處充斥著結構化、半結構化與非結構化的資料 (詳見 Fred 豢養的雲中象)。這類資料跟以往統計教科書裡面經由篩選與處理後的資料完全不同。以企業內部的結構化資料為例,當企業負責人抱著 SQL Database 或 Data Warehouse 裡面滿滿的資料來請統計專家做問題諮詢時,該怎麼回應? 如果是非結構化的圖檔、影像檔,統計專家又該怎麼回應? 就像林禎舜師兄在MLDM Monday演講中提到的一個概念:就現今以資料解決問題的話語權而言,(相對於資訊科學) 統計學的話語權是逐漸式微的 (因為統計人無法處理第一線的資料)。

我的經驗是統計人要拋開傳統教科書對於 data 就是一個data frame 的認知,瞭解 data 的原貌是真實世界的一種記錄方式,它可以是數字、文字、聲音、影像、氣味、建築物…。真真切切的去貼近真實世界、去貼近第一手資料,用最直覺的方式體會所知的統計方法,就會發現這些方法的精神其實可以應用在各式各樣的資料上。

下一篇,將會具體的談到統計人進入Big data / Data science 的建議。