building-risk-banner

資料驅動的變革管理 – 以建築物火災風險地圖為例

By | D4SG | No Comments

昨日受邀到台大新聞系演講,我試著闡述一個核心概念:「資料驅動的變革管理」。

以消防員過勞問題 (根據統計消防員每月工時逾300小時) 為例,直觀地解決問題辦法可能是 (1) 盤點人力缺口,並規劃補充人力方案;(2) 盤點業務工作內容,試圖減少非必要性業務工作。

但是,這種淺層的作法未必能解決問題。畢竟消防員的養成需要時間,現實是員額有缺但補不滿。另一方面,儘管已減少消防員抓蛇補蜜蜂的工作,主要的救護救災工作仍然繁重。

從這樣的觀點來看,這是樣的窘境似乎無解,但是有經驗的資料分析師 (這也是我們在 D4SG 計畫 2016-17 年間的成果) 往往會再往下追尋更深的脈絡:

> 消防員人力不足,是因為業務繁重,大宗是救護與救災工作

> 以火災火警為例,減輕業務量等同於做好火災預防

> 以住宅火災為例,就是做好消防居家訪視 (裝設住警器,保留逃生出口、勿使用易燃裝潢…)

> 目前的居家訪視成效不彰,需要做到精準的居家訪視 (火災風險高的住宅優先訪視)

> 開始定義火災風險指標 (譬如:三年內會發生火災的機率,或是發生需要消防員出勤超過1小時的案件風險)

> 根據風險指標相關因子進行資料盤點

> 進行資料處理與分析,建立建築物火災風險指標模型 (火災風險可能與屋齡、建物面積、居住人數、身處狹小巷弄 … 等因子有關)

> 根據模型建立該區建築物火災風險清冊 (火災風險地圖)

> 從清冊中風險排序較高的建物優先進行居家訪視 (精準訪視)

> 透過有效的防災宣導,降低火災案件數

> 減輕消防員人力不足的問題

這就是基於資料驅動變革管理,簡而言之,消防員人力不足的問題,可以透過建立火災風險清冊,並配合消防居家訪視,達到舒緩的效果。這樣的解決方案的核心就是資料,有足夠的資料才能夠驅動我們依循脈絡持續辯證,才能夠驅動建立資料模型,才能夠驅動變革管理。

 

r-vs-python

從套件的發展談 R 與 Python

By | Data Science | No Comments

昨天到淡江大學參加大數據分析與 R 論壇,與談的過程中陳景祥老師提出了資料分析工具比較的討論議題。本來是想強調智庫驅動徵才要找怎樣的人,一不小心被引導到 R 與 Python 的比較 (後來想來,根本是陳老師在挖坑…)。網路上其實已經很多人討論過這個題目,譬如這篇《數據科學界華山論劍:R與Python巔峰對決》,整理得非常完整,根本就意圖 closed 這系列的討論。

這邊想補充一個會議上沒來得及說清楚的觀點。從資料分析的功能面上,即便 R 跟 Python 如果做一個比較表,也會發現兩邊不分上下,比不出一個所以然。筆者簡單將資料分析的方法分成四大類:Regression, Classification, Clustering and Dimensionality reduction,在下表中列出幾個代表性的演算法,接著再指出 R 與 Python 的對應資料分析套件。

看完這張表格就會理解 R 與 Python,這兩種語言在資料分析工具發展的思維上是有決定性差異的,筆者認為這個差異將決定使用者解決真實問題的方式。對於 R語言來說,各種演算法散落在各種套件當中,所以 R user 在做資料分析的時候,必須要先思考它所面對的問題需要載入怎樣的套件才能解決,如果這個套件提供的演算法仍不夠完善,R user 會先嘗試對該演算法做校正,而不是去思考要不要換其他套件庫。至於 Python user 在做資料分析時,當他載入 scikit-learn 之後,他有超級豐富的武器庫可以去嘗試,當某個演算法效果不如預期時,Python user 會傾向先換別的演算法再試一次看看。

R_Python_packages

從套件功能比較 R 與 Python

再次強調,在演算法的功能面以及模型優化上 R 與 Python 其實都可以做。就筆者自身經驗 R users 在討論資料分析遇到瓶頸的時候會先討論 outlier, overfitting, regularization。而 Python users 在討論的時候會先盤點用過哪些演算法,哪些演算法可以解決某某問題。筆者認為這是這兩種工具發展目的所造成的差異, R 語言是隨著學術研究而發展、Python 則是基於優化資料分析的應用環境。

從企業招募的觀點來說,主管應該要思考的是做資料分析的目的為何,需要招募怎樣特質的資料分析師。詢問筆者該學習 R 或 Python 的學生,則建議思考一下你的個人特質適合,想要橫向或縱向的分配你的技能點。

特色圖片取自:ActiveState

heart-and-brain-on-scale

追求卓越技術之外,資料科學的藝術面

By | Data Science | No Comments

heart-and-brain-on-scale

一月初參加了網路星期二的講者餐敘 (推坑) 活動,跟開拓文教基金會的淑芳姊互相交流社工面對高風險家庭的經驗,她提到真正高度危機的家庭往往無法透過量表精確的反應出來,反倒是社工那通靈般的直覺最有效果,但是這種直覺很難量化、不容易傳承,這也導致服務品質出現斷層,免洗社工的問題惡性循環。

一個已經會上百種武功的資料高手,專注在不斷追求技術精進,但這就像在用百米衝刺的態度在跑看不到終點馬拉松,很容易會迷失在資料的極限中。暮然回首,把直覺量化的想像力,其實是資料科學最不可或缺的,也是我認為從事資料科學工作中最重要的一環。

人心難測,是統計學家最艱難的挑戰。也正因為他艱難,所以統計學家需要跟領域專家合作。在我跟台北市家防中心的合作經驗中,發現到把社工直覺轉成量化方式的例子,譬如社工判斷受害人是否有「疑似身心障礙」這件事。在親密關係暴力是否有「高度再次受暴率」的預測問題上,「疑似身心障礙」比「是否領有身心障礙手冊」的影響力來得重要。這種社工的通靈直覺,竟然在預測模型上起了莫大的作用,其實是給予我們這種只知道玩數據的傢伙很大的震撼。

姑且把這種「只可意會,不可言傳」的感覺,定義成量化指標的能力稱作「資料科學的藝術面」吧!至於這種資料科學的藝術細胞要怎麼培養,我覺得天文學家在這方面的功夫非常了得,好比七個最基本的物理單位當中最有趣的時間單位 (秒)。如何度量「時間」這個概念,最早可能是由「太陽日」的概念開始,又分成白天、晚上,再來是 24 小時,最後定義秒為太陽日的 1/86400,現今採用更精確的銫原子鐘來定義。

從自身的經驗出發,透過不斷地觀察、假設與實驗,逐漸累積成果。光是量化時間,人類就花了數千年,至今尚未到盡頭。從這個觀點來看,量化人心這件事雖然艱難,但也不是一件不可能做到的事,一步一步累積囉。

>> 圖片取自:www.progressiveimpact.org

企業導入資料科學的第一步,分析性思維的資料共享平台

By | Data Science | No Comments

筆者在上一篇「資料科學家的告白:給幼苗們的忠告」中談「人」的部分,本篇分享一下「物」。

在大數據思潮之下,以數據作為論證基礎的意識抬頭,各大企業紛紛尋求資料科學導入方案,急欲將長年累計的數據經驗加以分析,用來改善精進其營運流程,並以此為本規劃未來方針。

然而,資料科學的導入並非一朝一夕,透過幾場教育訓練或是採購一套完整解決方案就真的能解決。筆者從事多年的資料分析與資料科學導入經驗來說,資料科學的第一步是從具備分析性思維的資料共享開始。資料共享的概念不是新玩意,Google drive, Dropbox 就是眾所皆知的解決方案,然而這些產品強調的是檔案或是文件共享,並不真的是資料共享。我們認為好的資料共享平台需要事先完成資料預處理 (data pre-processing),讓資料分析師能夠立即實作,計算結果能在最短時間內產出。另一方面,介接已完成預處理的資料,針對企業營運的重要目標以動態儀表板的方式做呈現,讓量化指標能夠立即反映企業營運的特徵與趨勢。

eva_overview

資料共享平台不只是檔案共享,更要能幫助企業營運。(圖片來源:http://data.dsp.im)

值得一提的是完成預處理的資料必然不是 docx, xlsx, pdf, jpg, png 等文件、影像格式,是能夠透過 API (application programming interface) 的介接轉換成 csv, json, xml 可直接應用於資料分析的格式。這種分析性思維的資料共享平台有幾個特點:

1. 全體員工的資料素養提升

資料科學的核心是「人」而不是「機器」。企業的營運特徵與趨勢經由資料共享平台以動態儀表板的方式傳遞給企業每一個層級的員工,完成預處理的資料讓大家可以輕易地介接使用有助於提升全員的資料素養。

日前跟一位遊戲產業的CEO跟我抱怨,要尋得同時具備領域經驗與資料素養的副手有多麼困難。深入瞭解後發現公司日常的營運報表只有少數幾位高層能夠看到,完整的報表彙整自業務、行銷、技術、客服…等不同部門,製作報表的同仁各自行事,雖有各自專業卻往往見樹不見林。

直到導入了這種資料共享方案,不僅同仁們願意以數據做為決策依據,更進一步強化員工跨部合作的意識。除此之外,讓這位CEO從中提拔了優秀人才。

2. 實務上適應性更高

分析性思維的資料共享機制具有高度適應性 (adaptive),而非預期性 (predictive)。資料科學流程可概分為四個主要步驟:定義目標、資料盤點、資料分析、行動決策。所謂的預期性係指整體流程是穩健可預期的,需求項目相對固定,可以按部就班交辦完成。

實際進行資料分析專案時,穩定的因素其實很難滿足。傳統上的做法是在一個很長的時間跨度內對各個流程做詳細的規劃,盡可能降低不確定的因素。然而,我們往往需要在有限的時間內下決策,敏捷地在四個步驟間進行往返修正顯得極其重要。

分析性思維係指事先準備好一個資料湖泊 (data lake),這是一個匯聚眾多已完成預處理資料集的湖泊,水源可以是來自各部門的內部資料,可以是公司外部的開放資料,也可以是前一次完成分析報告後的重要指標。使用者可以在裡面對資料集做快篩,找出能解決問題的潛在資料集,快速導入資料分析。這樣的機制不僅能夠適應實務上充滿不確定性的狀況,甚至是歡迎變化,透過多次的迭代循環確立更佳的資料科學解決方案。

3. 進階拓展更容易

對於資料分析目標明確有系統化需求的企業,可以透過 API 向資料湖泊介接資料,從事各種應用服務。其好處在於資料 (核心) 與服務 (外殼) 能夠明確切割,便於資料權限控管以及服務的版本更新。

eva_dataviz

分析性思維的資料共享平台三個特點:資料儀表板提升資料素養、資料湖泊提升分析的適應性、API實現進階應用。(圖片來源:http://eva.dsp.im)

現在就開始

我常將資料比喻成食材,資料科學家比喻成廚師,好的資料科學解決方案是秀色可餐且營養兼具的佳餚。正在尋求資料科學解決方案的企業主們,你們要的只是大數據小數據結構化數據非結構化數據都能儲存的「超級冰櫃」,還是能更進一步在煮飯前就先備好料的「智慧冰箱」呢?

資料科學家的告白:給幼苗們的忠告

By | D4SG, Data Science | No Comments

自從領著 DSP智庫驅動 (dsp.im) 資料科學家的頭銜在業界闖蕩以來,最常被問到兩個題目:1. 如何成為一個資料科學家;2. 組織如何導入資料科學。本文想針對有志於跨入資料科學領域的新血們分享筆者在第一個問題上的看法。

圖片取自:https://goo.gl/X2om6e

 

別說學校教的沒有用,是不夠精通不會用

先自述一下自己的背景,國立大學數學系、統計碩、統計博。如果讀者的背景跟筆者類似,而且欲從事資料科學家相關工作,請相信我一句:「在學校所學到主科知識,全部都用得到。」

數理統計、機率論、線性模型、實驗設計、時間序列、多變量、倖存分析、貝氏分析、無母數曲線、資料探勘、機器學習。上述這些都是學校所教授的必修選修科目,筆者在 DSP智庫驅動 所接觸的各種專案中全都被用上,真心不騙。資料科學有一個可愛的地方,儘管它看似一門新興領域,但資料分析面的必備技能是可以在學校就學到的。

不過,這邊要多一個使用說明,耍耍嘴皮子的三腳貓的功夫是派不上用場的,資料科學很真實,它講求一點一滴的累積。唯有完全通透的融會貫通,才有能力把真實問題翻譯成能夠用資料分析解決的科學問題,進而試圖解決問題 (這還不代表真的能夠找到解決方案喔!)。

工具很重要,R語言是首選

今年 (2016) 正好是筆者寫 R語言的第十年,R語言是一個可塑性高的資料分析武器,更是資料科學的完整解決方案。回想從前在學校學 R 的情境,是在老師教完資料分析理論後的 R語言實作 Lab。基本上,從課堂教材出來的習題,資料都「很乾淨」,讓人可以專注用 R 實作資料分析演算法,並理解各種指標是如何呈現在報表上。

真正能夠讓你邁向神奇 R 語言大師的鍛鍊,在課堂上都被巧秒的略過。實地到現場執行資料分析時,那是隱而未見的地雷區,各種神奇的狀況都會出來。在工程面,有資料前處理 (Data preprocessing) 的問題要面對,沒有實際弄髒手做過資料源的串接、篩選、補值,別說你會資料分析。在分析面,最讓人崩潰的是原本用得很順的資料分析函數,偏偏在這份資料上會突然跳 Error,解這種 Bug 是邁向神奇 R 語言大師之路的必經過程。

別只會拿槍,更要拿戰果

想提升知識與技能,無論是實體或線上現在坊間的資料科學相關課程如雨後春筍選擇多多。在增加實戰經驗的部分,則有許多資料大獎賽或是開放資料黑客松可以參加。

如果想要花一些時間、組一個團隊、做一個有影響力的專案,筆者主持了一個 D4SG資料公益計劃 (d4sg.org, 介紹簡報),其中的資料英雄計畫 (D4SG fellowhip) 是跟 GOV/NGO 徵求能產生顯著的影響力、主管積極支持、成果能確實導入組織運作的資料公益提案,以為期三個月的形式媒合熱血的資料英雄與提案組織共同完成。這不僅能解決公共問題,在履歷上添加這份戰果更讓你的資料力不證自明。

身體力行,當一個資料科學傳教士

我對資料科學家的定義是:「用資料解決真實問題的人」。就筆者在幫助企業進行資料科學導入時的經驗,最難的是讓大家相信資料。真實問題可能是由 A君提出,資料在 B, C, D 手中,執行單位則是 E, F, G。這時候必須肩負起資料科學傳教士的職責,面對不同的群眾要能夠信手捻來用對應的語言來做溝通,用前述的知識與戰果讓大家相信資料的力量。當眾人都相信資料力的時候,才會有資料科學家發揮的舞台。

政府開放資料的下一步,以資料驅動的公共治理

By | D4SG | 2 Comments

開放資料,世界第一之後

台灣的政府開放資料 (open government data) 在以開放為原則,不開放為例外的主張之下,2015年,被英國開放知識基金會評比為世界第一。在以量取勝的策略達到成效之後,如何更進一步在政府內部根植開放文化是追求卓越的首要目標。

政府開放資料之所以重要,除了能促進公民與政府之間的資訊對稱之外,更重要的是能利用開放資料創造社會、經濟和環境的價值。這種以開放資料驅動社會價值的過程,參與對象不僅是政府對公民,還包括政府對企業、媒體、非營利組織,甚至是政府內部不同部門。

目前政府開放資料的活化應用大多偏向「訊息揭露」,譬如台鐵時刻表、即時空氣品質等,藉由網站、手機APP供民眾方便查詢。在世界第一之後,筆者認為追求卓越的政府應該思考如何透過開放資料的分析研究創造公共價值進而驅動政策治理。

沒人做我們做–D4SG資料英雄計畫

DSP智庫驅動是筆者與幾位志同道合的朋友共組的公司,旨在提供企業、政府、非營利組織資料科學解決方案。基於激發資料價值、改善社會的熱情,DSP智庫驅動發起D4SG資料英雄計畫 (Data for Social Good Fellowship),媒合台灣環境資訊協會與資訊、新聞背景的資料英雄,利用兩個月的時間,結合行政院環境保護署農委會農業試驗所的開放資料,進行D4SG守護農地計畫,完成一個農地重金屬污染與列管分析專案。

筆者以專業顧問的身份參與D4SG守護農地計畫,幫助環境資訊協會利用數據作倡議,將所關注的農地安全問題佐以政府開放資料,轉譯成可執行的資料分析專案。這份專案報告試圖透過農試所(81年至97年的農地土壤採樣調查資料,共13萬筆表土資料)與環保署(91年至今的管制農地資料)兩個不同政府部門的資料套疊,利用資料科學方法做「快篩」,從那些農試所驗得土壤重金屬超標,但目前環保署仍未管制到的真空地帶找出超標熱區。期盼相關單位能真正地為農地做「診斷」,查證其重金屬污染狀況。

重金屬農地污染分析

以資料科學方法對未列管農地做「快篩」。右圖顯示桃園機場左側多個埤塘附近同時有重金屬超標採樣點 (黃色:農試所資料) 以及農地列管區塊 (環保署資料,紅色:列管中;橘色:解除列管)。然而在桃機右側的南崁溪周邊雖有列管農地,但僅小面積,可能還有很多沒有被列管到。

D4SG守護農地計畫的價值有三:

一直以來,政府的組織架構都是以業務職責區分,在任務分配上便於垂直分工,但缺點是跨部會的資訊流通或是業務合作,受限於法規與責任歸屬上而出現橫向斷層。由環團與資料英雄合作的D4SG守護農地計畫,以跨部會的政府開放資料為基礎,提出以資料科學輔以政策治理的農地重金屬污染快篩模型,不僅促使兩份資料所屬當局的即刻回應,更提供了跨部會溝通與合作的契機。

>> 延伸閱讀

消滅饑餓與貧窮的資料科學

By | D4SG, Data Science | No Comments

英國致力於消滅飢餓與貧窮的慈善機構 Trussell Trust ,整合超過 420 家食物銀行建立合作網路,藉由資料科學方法,將食物募集站與社會福利數據進行交叉分析找出糧食募集與發放的真空地帶。

食物銀行是一群慈善組織,以提供未能解決「三餐」基本需要的人士家庭緊急及短暫的膳食援助為目的。把即期食物捐贈出來,從食物的募集、分類到配送,讓資源獲得最有效的分配與使用。

在英國致力於發放緊急救濟食品的慈善機構 Trussell Trust 說到:「依賴緊急救濟食品度日的人士家庭不斷創下紀錄,光是去年就發放了近百萬份的基本口糧。」這間整合420間食物銀行的慈善機構更進一步指出,貧窮與飢餓的規模不僅不會減少,反將越演越烈。(Link)

藉由資料科學,從食物募集站與社會福利數據的交叉分析有望找出食物銀行營運的真空地帶。由赫爾大學、Coppelia、AAM Associates 等組織所組成的資料科學團隊,透過英國2011年的食物銀行普查資料,預測出急需食物銀行援助的區域。

由英國的食物銀行及資料科學團隊所開發的食物募集與需求地圖,圖片來源:Youtube

關於資料科學在食物銀行上的應用,美國也有類似的案例。知名資料分析公司 APT 協助華盛頓特區食物銀行 (Capital Area Food Bank, CAFB) 建構飢餓熱點地圖,從各個區域的資料挖掘出食物募集與需求的缺口。(Link)

由美國的食物銀行及資料科學團隊所開發的飢餓熱點地圖,圖片來源:CAFB

台灣也有食物銀行,多年來以協助不勝枚舉的弱勢人士與家庭。可惜的是,還沒有看到與運用資料科學優化營運的具體案例。有沒有機會製作一張屬於台灣的食物供需地圖,挖掘出迫切需要援助的弱勢家庭?

這是非常有可能的!透過政府開放資料擷取出全台灣的社會救助資料以及食物銀行的募集與發放場站資料,食物供需地圖的基本雛型就出來了。更進一步,利用空間統計方法建構預測模型,可以找出潛在的高風險區,輔助食物發放站點的設置。

這種資料科學所驅動的公益合作方式蔚為浪潮,由開拓基金會、教育部 ITSA、智庫驅動等組織所發起的 D4SG 計畫 (Data for Social Good, http://d4sg.org) 正是一經典案例。目前已經協助超過40 個非營利組織、20 個政府機關親身體驗資料價值,讓想像力起飛。在資料氾濫的大數據時代,由資料所驅動的革命即將引爆,未來政府、企業、非營利組織與資料科學團隊的合作模式,將成為不可或缺的要素。

今年七月,D4SG 媒合公益組織與資料團隊以長期專案解決真實問題的資料英雄計畫即將展開,目前正在招募資料英雄與公益組織的提案,關心用資料做公益的朋友,不妨多多關注 D4SG 計畫 (http://d4sg.org)

更完整的評論內容,請見五月份的《有物報告》。

資料力做公益:用白板跟鍵盤回饋社會

By | Data Science | 2 Comments

有人用勞力做公益,也有人用財力做公益,如果用資料力來做公益,不知道會擦出怎樣的火花?

身為一個資料玩家,Data for Social Good 的概念一直是我覺得有興趣、有義務來做的東西。在 DSP智庫驅動 的夥伴共同努力之下,今年十月正式發起 Data for Social Good (D4SG) 計畫 (D4SG臉書社團),透過多場實體活動 ([1], [2], [3]) 匯集了好幾間已經有資料,也想要透過資料科學解決真實問題的非營利組織。這些組織的服務對象包含:兒童、老人、身障、環境、教育等等項目。透過與開拓文教基金會合辦「公益加值資料工作坊」的活動,在11/28, 29 週末兩天的時間,來了場 NPO 與資料人的大亂鬥。

以下筆者將以資料人的身份來談談「公益加值資料工作坊」的觀察。

台灣環境資訊協會的淑貞姊的合作是很有趣的經驗,她讓我有機會做了一場「資料科學口譯」。淑貞姊想要透過環保署調查的土地污染數據評量個縣市政府的整治速度,一邊聽她講想法,就一邊將它翻譯成數學模型,定義出簡單直覺的指標,規劃一套嚴謹的資料分析流程。同組善於處理地理圖資的尼斯,就能夠根據統計指標計算出各縣市政府的表現,做出視覺化呈現以及名次排序。

來自瑞信兒童醫療基金會的致緯兄提出的問題真的很特別。以往的企業顧問案接觸的大多是在談怎麼從數據中找出開源節流的方法。但是,瑞信關心的卻是怎麼付出更多的錢,給更多的病童。進行這個專案,就好比做偵探一般,盡一切可能找出病童申請醫療補助人數下降的原因。進行「探索性資料分析」的過程令人印象深刻,大家七嘴八舌的猜測補助人數下降的影響因子,有經驗資料人則試圖把大家的「意見」翻譯成「量化的變數」,以探求補助人數與各種因子之間的關聯性,進而破解謎團。

還有很多引人注目的專案,譬如地球公民基金會期待【水污染監測地圖(以後勁溪為例)】、雙連視障關懷基金會探求【視障按摩師的就業公平機會】、生命線關懷總會想要知道【從1986年開始,求助個案有什麼樣的變化】、台中甘霖基金會關心【失智長者生理數據與長青課程的關係】、企業永續發展協會想要了解【台灣企業對碳揭露議題的表現】。

關於D4SG計畫,先別說回饋社會這麼崇高的話語。對資料人而言,這是一場練功打怪、提升自我價值的好機會,這種場合你可以從 NPO 那裡得到最真實問題跟真誠的回饋,又可以跟眾多深藏不露的高手合作,整個讓人熱血沸騰啊!

資料科學的 Danger Zone

By | Data Science | No Comments

大數據帶來「偽相關」

第二屆資料科學愛好者年會,1300人參與的大拜拜圓滿結束,九月初參加了年會系列活動 資料科學團隊培訓及導入經驗分享會 (我跟Wush有很認真做筆記喔),對於一張關聯圖印象深刻,上吊自殺 vs. 科研經費的相關係數竟高達0.9979 (台大心理的黃從仁老師也有在年會演講中秀出這張圖!),這種八竿子打不著的關聯性,其實不是巧合,而是 Big Data 時代下必然的產物。

現今的大數據世代有個明顯特徵,就是資料氾濫,我們可以很容易地收集到許多不同來源的資料。這張圖就是透過美國數十萬筆開放資料進行一一比對所找出來的特例 (可以到 trievigen.com 找到更多例子)。要說的是,僅僅利用 Data mining 辦法找出資料欄位間的相關性,來作為組織的決策是很危險的。

correlation

「上吊自殺 vs. 科研經費」 (相關係數 = 0.9979)

 

資料科學的 danger zone

Drew Conway 所提出來的 Data Science Venn Diagram 應該是目前在介紹資料科學時,最多人引用的一張圖 (可以數數看這張圖在2014資料科學愛好者年會的演講中出現幾次),其中值得注意的是Hacking Skills 與 Substantive Expertise 的交集為 Danger Zone。白話的說法是「會跑 Data Mining,不表示能下正確決策」。

 


danger-zone

圖解資料科學,紅色部分為資料科學的danger zone

 

舉一個例子,利用 R 語言隨機生成 10 萬組 1999 – 2009 年的亂數資料,拿這 10 萬組資料和自殺數據去計算相關係數。這 10 萬個相關係數平均值為 0,有 9 萬個相關係數介於 [-0.5, 0.5],其中有 8 個相關係數高於 0.90,只有一組也的相關係數高於0.95 (想知道模擬怎麼做,可以參考筆者的R code),如下圖所示:

 

linechart

「上吊自殺 vs. 模擬數據」 (從10萬筆亂數資料中取出相關性最高者,相關係數 = 0.9618)

 

也就是說,透過不斷地產生亂數資料,大約每 10 萬次就可以找到一組和上吊自殺資料有強烈相關的模擬資料。即便你手上的數據和上吊自殺的數據完全無關,只要資料來源夠多,你就會有很高的機率找到強烈相關,這種現象在大數據時代將會頻繁的發生。這種相關性,稱 偽相關 (spurious correlations),是經典的資料科學Danger Zone,它可以大幅改善預測模型的精準度 (強相關可以做精準預測),但卻完全無法幫助企業進行決策,反而有可能會幫倒忙。

只有成功,才會成為案例

偽相關 跟著名的「啤酒與尿布」、「颶風與草莓夾心酥」有什麼不一樣?從技術的觀點來說,他們是一樣的,他們都是透過 Data Mining 從巨量資料中,比對兩兩資料欄位所找出來的強烈相關。但是啤酒與尿布成為人人傳頌的案例,自殺與科研經費卻只會被當作笑話看。透過筆者的模擬示範,可以預期數據來源越多,發現強烈偽相關的頻率越高。

部份教科書寫到這邊通常會再次強調「相關不等於因果,多想兩分鐘,別看到相關就開槍」,然後就到此為止,謝謝大家。究竟該怎麼驗證 Data Mining 到的相關性是否能作為商業策略的因果關係?辦法是有的,而且只需要上過一個學期的統計課就會的東西,給一個關鍵字 AB Test

筆者即將要在 DSP 開課 (模型思考團訓班) 的主題就是講AB Test,有興趣可以來聽聽喔!

工商服務:筆者參與規劃的資料科學課程 XD