Category Archives: D4SG

building-risk-banner

資料驅動的變革管理 – 以建築物火災風險地圖為例

By | D4SG | No Comments

昨日受邀到台大新聞系演講,我試著闡述一個核心概念:「資料驅動的變革管理」。

以消防員過勞問題 (根據統計消防員每月工時逾300小時) 為例,直觀地解決問題辦法可能是 (1) 盤點人力缺口,並規劃補充人力方案;(2) 盤點業務工作內容,試圖減少非必要性業務工作。

但是,這種淺層的作法未必能解決問題。畢竟消防員的養成需要時間,現實是員額有缺但補不滿。另一方面,儘管已減少消防員抓蛇補蜜蜂的工作,主要的救護救災工作仍然繁重。

從這樣的觀點來看,這是樣的窘境似乎無解,但是有經驗的資料分析師 (這也是我們在 D4SG 計畫 2016-17 年間的成果) 往往會再往下追尋更深的脈絡:

> 消防員人力不足,是因為業務繁重,大宗是救護與救災工作

> 以火災火警為例,減輕業務量等同於做好火災預防

> 以住宅火災為例,就是做好消防居家訪視 (裝設住警器,保留逃生出口、勿使用易燃裝潢…)

> 目前的居家訪視成效不彰,需要做到精準的居家訪視 (火災風險高的住宅優先訪視)

> 開始定義火災風險指標 (譬如:三年內會發生火災的機率,或是發生需要消防員出勤超過1小時的案件風險)

> 根據風險指標相關因子進行資料盤點

> 進行資料處理與分析,建立建築物火災風險指標模型 (火災風險可能與屋齡、建物面積、居住人數、身處狹小巷弄 … 等因子有關)

> 根據模型建立該區建築物火災風險清冊 (火災風險地圖)

> 從清冊中風險排序較高的建物優先進行居家訪視 (精準訪視)

> 透過有效的防災宣導,降低火災案件數

> 減輕消防員人力不足的問題

這就是基於資料驅動變革管理,簡而言之,消防員人力不足的問題,可以透過建立火災風險清冊,並配合消防居家訪視,達到舒緩的效果。這樣的解決方案的核心就是資料,有足夠的資料才能夠驅動我們依循脈絡持續辯證,才能夠驅動建立資料模型,才能夠驅動變革管理。

 

資料科學家的告白:給幼苗們的忠告

By | D4SG, Data Science | No Comments

自從領著 DSP智庫驅動 (dsp.im) 資料科學家的頭銜在業界闖蕩以來,最常被問到兩個題目:1. 如何成為一個資料科學家;2. 組織如何導入資料科學。本文想針對有志於跨入資料科學領域的新血們分享筆者在第一個問題上的看法。

圖片取自:https://goo.gl/X2om6e

 

別說學校教的沒有用,是不夠精通不會用

先自述一下自己的背景,國立大學數學系、統計碩、統計博。如果讀者的背景跟筆者類似,而且欲從事資料科學家相關工作,請相信我一句:「在學校所學到主科知識,全部都用得到。」

數理統計、機率論、線性模型、實驗設計、時間序列、多變量、倖存分析、貝氏分析、無母數曲線、資料探勘、機器學習。上述這些都是學校所教授的必修選修科目,筆者在 DSP智庫驅動 所接觸的各種專案中全都被用上,真心不騙。資料科學有一個可愛的地方,儘管它看似一門新興領域,但資料分析面的必備技能是可以在學校就學到的。

不過,這邊要多一個使用說明,耍耍嘴皮子的三腳貓的功夫是派不上用場的,資料科學很真實,它講求一點一滴的累積。唯有完全通透的融會貫通,才有能力把真實問題翻譯成能夠用資料分析解決的科學問題,進而試圖解決問題 (這還不代表真的能夠找到解決方案喔!)。

工具很重要,R語言是首選

今年 (2016) 正好是筆者寫 R語言的第十年,R語言是一個可塑性高的資料分析武器,更是資料科學的完整解決方案。回想從前在學校學 R 的情境,是在老師教完資料分析理論後的 R語言實作 Lab。基本上,從課堂教材出來的習題,資料都「很乾淨」,讓人可以專注用 R 實作資料分析演算法,並理解各種指標是如何呈現在報表上。

真正能夠讓你邁向神奇 R 語言大師的鍛鍊,在課堂上都被巧秒的略過。實地到現場執行資料分析時,那是隱而未見的地雷區,各種神奇的狀況都會出來。在工程面,有資料前處理 (Data preprocessing) 的問題要面對,沒有實際弄髒手做過資料源的串接、篩選、補值,別說你會資料分析。在分析面,最讓人崩潰的是原本用得很順的資料分析函數,偏偏在這份資料上會突然跳 Error,解這種 Bug 是邁向神奇 R 語言大師之路的必經過程。

別只會拿槍,更要拿戰果

想提升知識與技能,無論是實體或線上現在坊間的資料科學相關課程如雨後春筍選擇多多。在增加實戰經驗的部分,則有許多資料大獎賽或是開放資料黑客松可以參加。

如果想要花一些時間、組一個團隊、做一個有影響力的專案,筆者主持了一個 D4SG資料公益計劃 (d4sg.org, 介紹簡報),其中的資料英雄計畫 (D4SG fellowhip) 是跟 GOV/NGO 徵求能產生顯著的影響力、主管積極支持、成果能確實導入組織運作的資料公益提案,以為期三個月的形式媒合熱血的資料英雄與提案組織共同完成。這不僅能解決公共問題,在履歷上添加這份戰果更讓你的資料力不證自明。

身體力行,當一個資料科學傳教士

我對資料科學家的定義是:「用資料解決真實問題的人」。就筆者在幫助企業進行資料科學導入時的經驗,最難的是讓大家相信資料。真實問題可能是由 A君提出,資料在 B, C, D 手中,執行單位則是 E, F, G。這時候必須肩負起資料科學傳教士的職責,面對不同的群眾要能夠信手捻來用對應的語言來做溝通,用前述的知識與戰果讓大家相信資料的力量。當眾人都相信資料力的時候,才會有資料科學家發揮的舞台。

政府開放資料的下一步,以資料驅動的公共治理

By | D4SG | 2 Comments

開放資料,世界第一之後

台灣的政府開放資料 (open government data) 在以開放為原則,不開放為例外的主張之下,2015年,被英國開放知識基金會評比為世界第一。在以量取勝的策略達到成效之後,如何更進一步在政府內部根植開放文化是追求卓越的首要目標。

政府開放資料之所以重要,除了能促進公民與政府之間的資訊對稱之外,更重要的是能利用開放資料創造社會、經濟和環境的價值。這種以開放資料驅動社會價值的過程,參與對象不僅是政府對公民,還包括政府對企業、媒體、非營利組織,甚至是政府內部不同部門。

目前政府開放資料的活化應用大多偏向「訊息揭露」,譬如台鐵時刻表、即時空氣品質等,藉由網站、手機APP供民眾方便查詢。在世界第一之後,筆者認為追求卓越的政府應該思考如何透過開放資料的分析研究創造公共價值進而驅動政策治理。

沒人做我們做–D4SG資料英雄計畫

DSP智庫驅動是筆者與幾位志同道合的朋友共組的公司,旨在提供企業、政府、非營利組織資料科學解決方案。基於激發資料價值、改善社會的熱情,DSP智庫驅動發起D4SG資料英雄計畫 (Data for Social Good Fellowship),媒合台灣環境資訊協會與資訊、新聞背景的資料英雄,利用兩個月的時間,結合行政院環境保護署農委會農業試驗所的開放資料,進行D4SG守護農地計畫,完成一個農地重金屬污染與列管分析專案。

筆者以專業顧問的身份參與D4SG守護農地計畫,幫助環境資訊協會利用數據作倡議,將所關注的農地安全問題佐以政府開放資料,轉譯成可執行的資料分析專案。這份專案報告試圖透過農試所(81年至97年的農地土壤採樣調查資料,共13萬筆表土資料)與環保署(91年至今的管制農地資料)兩個不同政府部門的資料套疊,利用資料科學方法做「快篩」,從那些農試所驗得土壤重金屬超標,但目前環保署仍未管制到的真空地帶找出超標熱區。期盼相關單位能真正地為農地做「診斷」,查證其重金屬污染狀況。

重金屬農地污染分析

以資料科學方法對未列管農地做「快篩」。右圖顯示桃園機場左側多個埤塘附近同時有重金屬超標採樣點 (黃色:農試所資料) 以及農地列管區塊 (環保署資料,紅色:列管中;橘色:解除列管)。然而在桃機右側的南崁溪周邊雖有列管農地,但僅小面積,可能還有很多沒有被列管到。

D4SG守護農地計畫的價值有三:

一直以來,政府的組織架構都是以業務職責區分,在任務分配上便於垂直分工,但缺點是跨部會的資訊流通或是業務合作,受限於法規與責任歸屬上而出現橫向斷層。由環團與資料英雄合作的D4SG守護農地計畫,以跨部會的政府開放資料為基礎,提出以資料科學輔以政策治理的農地重金屬污染快篩模型,不僅促使兩份資料所屬當局的即刻回應,更提供了跨部會溝通與合作的契機。

>> 延伸閱讀

消滅饑餓與貧窮的資料科學

By | D4SG, Data Science | No Comments

英國致力於消滅飢餓與貧窮的慈善機構 Trussell Trust ,整合超過 420 家食物銀行建立合作網路,藉由資料科學方法,將食物募集站與社會福利數據進行交叉分析找出糧食募集與發放的真空地帶。

食物銀行是一群慈善組織,以提供未能解決「三餐」基本需要的人士家庭緊急及短暫的膳食援助為目的。把即期食物捐贈出來,從食物的募集、分類到配送,讓資源獲得最有效的分配與使用。

在英國致力於發放緊急救濟食品的慈善機構 Trussell Trust 說到:「依賴緊急救濟食品度日的人士家庭不斷創下紀錄,光是去年就發放了近百萬份的基本口糧。」這間整合420間食物銀行的慈善機構更進一步指出,貧窮與飢餓的規模不僅不會減少,反將越演越烈。(Link)

藉由資料科學,從食物募集站與社會福利數據的交叉分析有望找出食物銀行營運的真空地帶。由赫爾大學、Coppelia、AAM Associates 等組織所組成的資料科學團隊,透過英國2011年的食物銀行普查資料,預測出急需食物銀行援助的區域。

由英國的食物銀行及資料科學團隊所開發的食物募集與需求地圖,圖片來源:Youtube

關於資料科學在食物銀行上的應用,美國也有類似的案例。知名資料分析公司 APT 協助華盛頓特區食物銀行 (Capital Area Food Bank, CAFB) 建構飢餓熱點地圖,從各個區域的資料挖掘出食物募集與需求的缺口。(Link)

由美國的食物銀行及資料科學團隊所開發的飢餓熱點地圖,圖片來源:CAFB

台灣也有食物銀行,多年來以協助不勝枚舉的弱勢人士與家庭。可惜的是,還沒有看到與運用資料科學優化營運的具體案例。有沒有機會製作一張屬於台灣的食物供需地圖,挖掘出迫切需要援助的弱勢家庭?

這是非常有可能的!透過政府開放資料擷取出全台灣的社會救助資料以及食物銀行的募集與發放場站資料,食物供需地圖的基本雛型就出來了。更進一步,利用空間統計方法建構預測模型,可以找出潛在的高風險區,輔助食物發放站點的設置。

這種資料科學所驅動的公益合作方式蔚為浪潮,由開拓基金會、教育部 ITSA、智庫驅動等組織所發起的 D4SG 計畫 (Data for Social Good, http://d4sg.org) 正是一經典案例。目前已經協助超過40 個非營利組織、20 個政府機關親身體驗資料價值,讓想像力起飛。在資料氾濫的大數據時代,由資料所驅動的革命即將引爆,未來政府、企業、非營利組織與資料科學團隊的合作模式,將成為不可或缺的要素。

今年七月,D4SG 媒合公益組織與資料團隊以長期專案解決真實問題的資料英雄計畫即將展開,目前正在招募資料英雄與公益組織的提案,關心用資料做公益的朋友,不妨多多關注 D4SG 計畫 (http://d4sg.org)

更完整的評論內容,請見五月份的《有物報告》。