讀數一格 » Data Science

從套件的發展談 R 與 Python

Johnson — Sat, 18 Mar 2017 08:30:44 +0000

昨天到淡江大學參加大數據分析與 R 論壇，與談的過程中陳景祥老師提出了資料分析工具比較的討論議題。本來是想強調智庫驅動徵才要找怎樣的人，一不小心被引導到 R 與 Python 的比較 (後來想來，根本是陳老師在挖坑…)。網路上其實已經很多人討論過這個題目，譬如這篇《數據科學界華山論劍：R與Python巔峰對決》，整理得非常完整，根本就意圖 closed 這系列的討論。

這邊想補充一個會議上沒來得及說清楚的觀點。從資料分析的功能面上，即便 R 跟 Python 如果做一個比較表，也會發現兩邊不分上下，比不出一個所以然。筆者簡單將資料分析的方法分成四大類：Regression, Classification, Clustering and Dimensionality reduction，在下表中列出幾個代表性的演算法，接著再指出 R 與 Python 的對應資料分析套件。

看完這張表格就會理解 R 與 Python，這兩種語言在資料分析工具發展的思維上是有決定性差異的，筆者認為這個差異將決定使用者解決真實問題的方式。對於 R語言來說，各種演算法散落在各種套件當中，所以 R user 在做資料分析的時候，必須要先思考它所面對的問題需要載入怎樣的套件才能解決，如果這個套件提供的演算法仍不夠完善，R user 會先嘗試對該演算法做校正，而不是去思考要不要換其他套件庫。至於 Python user 在做資料分析時，當他載入 scikit-learn 之後，他有超級豐富的武器庫可以去嘗試，當某個演算法效果不如預期時，Python user 會傾向先換別的演算法再試一次看看。

從套件功能比較 R 與 Python

再次強調，在演算法的功能面以及模型優化上 R 與 Python 其實都可以做。就筆者自身經驗 R users 在討論資料分析遇到瓶頸的時候會先討論 outlier, overfitting, regularization。而 Python users 在討論的時候會先盤點用過哪些演算法，哪些演算法可以解決某某問題。筆者認為這是這兩種工具發展目的所造成的差異， R 語言是隨著學術研究而發展、Python 則是基於優化資料分析的應用環境。

從企業招募的觀點來說，主管應該要思考的是做資料分析的目的為何，需要招募怎樣特質的資料分析師。詢問筆者該學習 R 或 Python 的學生，則建議思考一下你的個人特質適合，想要橫向或縱向的分配你的技能點。

特色圖片取自：ActiveState

追求卓越技術之外，資料科學的藝術面

Johnson — Tue, 24 Jan 2017 04:45:13 +0000

一月初參加了網路星期二的講者餐敘 (推坑) 活動，跟開拓文教基金會的淑芳姊互相交流社工面對高風險家庭的經驗，她提到真正高度危機的家庭往往無法透過量表精確的反應出來，反倒是社工那通靈般的直覺最有效果，但是這種直覺很難量化、不容易傳承，這也導致服務品質出現斷層，免洗社工的問題惡性循環。

一個已經會上百種武功的資料高手，專注在不斷追求技術精進，但這就像在用百米衝刺的態度在跑看不到終點馬拉松，很容易會迷失在資料的極限中。暮然回首，把直覺量化的想像力，其實是資料科學最不可或缺的，也是我認為從事資料科學工作中最重要的一環。

人心難測，是統計學家最艱難的挑戰。也正因為他艱難，所以統計學家需要跟領域專家合作。在我跟台北市家防中心的合作經驗中，發現到把社工直覺轉成量化方式的例子，譬如社工判斷受害人是否有「疑似身心障礙」這件事。在親密關係暴力是否有「高度再次受暴率」的預測問題上，「疑似身心障礙」比「是否領有身心障礙手冊」的影響力來得重要。這種社工的通靈直覺，竟然在預測模型上起了莫大的作用，其實是給予我們這種只知道玩數據的傢伙很大的震撼。

姑且把這種「只可意會，不可言傳」的感覺，定義成量化指標的能力稱作「資料科學的藝術面」吧！至於這種資料科學的藝術細胞要怎麼培養，我覺得天文學家在這方面的功夫非常了得，好比七個最基本的物理單位當中最有趣的時間單位 (秒)。如何度量「時間」這個概念，最早可能是由「太陽日」的概念開始，又分成白天、晚上，再來是 24 小時，最後定義秒為太陽日的 1/86400，現今採用更精確的銫原子鐘來定義。

從自身的經驗出發，透過不斷地觀察、假設與實驗，逐漸累積成果。光是量化時間，人類就花了數千年，至今尚未到盡頭。從這個觀點來看，量化人心這件事雖然艱難，但也不是一件不可能做到的事，一步一步累積囉。

>> 圖片取自：www.progressiveimpact.org

企業導入資料科學的第一步，分析性思維的資料共享平台

Johnson — Tue, 20 Sep 2016 04:53:01 +0000

筆者在上一篇「資料科學家的告白：給幼苗們的忠告」中談「人」的部分，本篇分享一下「物」。

在大數據思潮之下，以數據作為論證基礎的意識抬頭，各大企業紛紛尋求資料科學導入方案，急欲將長年累計的數據經驗加以分析，用來改善精進其營運流程，並以此為本規劃未來方針。

然而，資料科學的導入並非一朝一夕，透過幾場教育訓練或是採購一套完整解決方案就真的能解決。筆者從事多年的資料分析與資料科學導入經驗來說，資料科學的第一步是從具備分析性思維的資料共享開始。資料共享的概念不是新玩意，Google drive, Dropbox 就是眾所皆知的解決方案，然而這些產品強調的是檔案或是文件共享，並不真的是資料共享。我們認為好的資料共享平台需要事先完成資料預處理 (data pre-processing)，讓資料分析師能夠立即實作，計算結果能在最短時間內產出。另一方面，介接已完成預處理的資料，針對企業營運的重要目標以動態儀表板的方式做呈現，讓量化指標能夠立即反映企業營運的特徵與趨勢。

資料共享平台不只是檔案共享，更要能幫助企業營運。(圖片來源：http://data.dsp.im)

值得一提的是完成預處理的資料必然不是 docx, xlsx, pdf, jpg, png 等文件、影像格式，是能夠透過 API (application programming interface) 的介接轉換成 csv, json, xml 可直接應用於資料分析的格式。這種分析性思維的資料共享平台有幾個特點：

1. 全體員工的資料素養提升

資料科學的核心是「人」而不是「機器」。企業的營運特徵與趨勢經由資料共享平台以動態儀表板的方式傳遞給企業每一個層級的員工，完成預處理的資料讓大家可以輕易地介接使用有助於提升全員的資料素養。

日前跟一位遊戲產業的CEO跟我抱怨，要尋得同時具備領域經驗與資料素養的副手有多麼困難。深入瞭解後發現公司日常的營運報表只有少數幾位高層能夠看到，完整的報表彙整自業務、行銷、技術、客服…等不同部門，製作報表的同仁各自行事，雖有各自專業卻往往見樹不見林。

直到導入了這種資料共享方案，不僅同仁們願意以數據做為決策依據，更進一步強化員工跨部合作的意識。除此之外，讓這位CEO從中提拔了優秀人才。

2. 實務上適應性更高

分析性思維的資料共享機制具有高度適應性 (adaptive)，而非預期性 (predictive)。資料科學流程可概分為四個主要步驟：定義目標、資料盤點、資料分析、行動決策。所謂的預期性係指整體流程是穩健可預期的，需求項目相對固定，可以按部就班交辦完成。

實際進行資料分析專案時，穩定的因素其實很難滿足。傳統上的做法是在一個很長的時間跨度內對各個流程做詳細的規劃，盡可能降低不確定的因素。然而，我們往往需要在有限的時間內下決策，敏捷地在四個步驟間進行往返修正顯得極其重要。

分析性思維係指事先準備好一個資料湖泊 (data lake)，這是一個匯聚眾多已完成預處理資料集的湖泊，水源可以是來自各部門的內部資料，可以是公司外部的開放資料，也可以是前一次完成分析報告後的重要指標。使用者可以在裡面對資料集做快篩，找出能解決問題的潛在資料集，快速導入資料分析。這樣的機制不僅能夠適應實務上充滿不確定性的狀況，甚至是歡迎變化，透過多次的迭代循環確立更佳的資料科學解決方案。

3. 進階拓展更容易

對於資料分析目標明確有系統化需求的企業，可以透過 API 向資料湖泊介接資料，從事各種應用服務。其好處在於資料 (核心) 與服務 (外殼) 能夠明確切割，便於資料權限控管以及服務的版本更新。

分析性思維的資料共享平台三個特點：資料儀表板提升資料素養、資料湖泊提升分析的適應性、API實現進階應用。(圖片來源：http://eva.dsp.im)

現在就開始

我常將資料比喻成食材，資料科學家比喻成廚師，好的資料科學解決方案是秀色可餐且營養兼具的佳餚。正在尋求資料科學解決方案的企業主們，你們要的只是大數據小數據結構化數據非結構化數據都能儲存的「超級冰櫃」，還是能更進一步在煮飯前就先備好料的「智慧冰箱」呢？

資料科學家的告白：給幼苗們的忠告

Johnson — Tue, 16 Aug 2016 05:33:50 +0000

自從領著 DSP智庫驅動 (dsp.im) 資料科學家的頭銜在業界闖蕩以來，最常被問到兩個題目：1. 如何成為一個資料科學家；2. 組織如何導入資料科學。本文想針對有志於跨入資料科學領域的新血們分享筆者在第一個問題上的看法。

圖片取自：https://goo.gl/X2om6e

別說學校教的沒有用，是不夠精通不會用

先自述一下自己的背景，國立大學數學系、統計碩、統計博。如果讀者的背景跟筆者類似，而且欲從事資料科學家相關工作，請相信我一句：「在學校所學到主科知識，全部都用得到。」

數理統計、機率論、線性模型、實驗設計、時間序列、多變量、倖存分析、貝氏分析、無母數曲線、資料探勘、機器學習。上述這些都是學校所教授的必修選修科目，筆者在 DSP智庫驅動所接觸的各種專案中全都被用上，真心不騙。資料科學有一個可愛的地方，儘管它看似一門新興領域，但資料分析面的必備技能是可以在學校就學到的。

不過，這邊要多一個使用說明，耍耍嘴皮子的三腳貓的功夫是派不上用場的，資料科學很真實，它講求一點一滴的累積。唯有完全通透的融會貫通，才有能力把真實問題翻譯成能夠用資料分析解決的科學問題，進而試圖解決問題 (這還不代表真的能夠找到解決方案喔！)。

工具很重要，R語言是首選

今年 (2016) 正好是筆者寫 R語言的第十年，R語言是一個可塑性高的資料分析武器，更是資料科學的完整解決方案。回想從前在學校學 R 的情境，是在老師教完資料分析理論後的 R語言實作 Lab。基本上，從課堂教材出來的習題，資料都「很乾淨」，讓人可以專注用 R 實作資料分析演算法，並理解各種指標是如何呈現在報表上。

真正能夠讓你邁向神奇 R 語言大師的鍛鍊，在課堂上都被巧秒的略過。實地到現場執行資料分析時，那是隱而未見的地雷區，各種神奇的狀況都會出來。在工程面，有資料前處理 (Data preprocessing) 的問題要面對，沒有實際弄髒手做過資料源的串接、篩選、補值，別說你會資料分析。在分析面，最讓人崩潰的是原本用得很順的資料分析函數，偏偏在這份資料上會突然跳 Error，解這種 Bug 是邁向神奇 R 語言大師之路的必經過程。

別只會拿槍，更要拿戰果

想提升知識與技能，無論是實體或線上現在坊間的資料科學相關課程如雨後春筍選擇多多。在增加實戰經驗的部分，則有許多資料大獎賽或是開放資料黑客松可以參加。

如果想要花一些時間、組一個團隊、做一個有影響力的專案，筆者主持了一個 D4SG資料公益計劃 (d4sg.org, 介紹簡報)，其中的資料英雄計畫 (D4SG fellowhip) 是跟 GOV/NGO 徵求能產生顯著的影響力、主管積極支持、成果能確實導入組織運作的資料公益提案，以為期三個月的形式媒合熱血的資料英雄與提案組織共同完成。這不僅能解決公共問題，在履歷上添加這份戰果更讓你的資料力不證自明。

身體力行，當一個資料科學傳教士

我對資料科學家的定義是：「用資料解決真實問題的人」。就筆者在幫助企業進行資料科學導入時的經驗，最難的是讓大家相信資料。真實問題可能是由 A君提出，資料在 B, C, D 手中，執行單位則是 E, F, G。這時候必須肩負起資料科學傳教士的職責，面對不同的群眾要能夠信手捻來用對應的語言來做溝通，用前述的知識與戰果讓大家相信資料的力量。當眾人都相信資料力的時候，才會有資料科學家發揮的舞台。

消滅饑餓與貧窮的資料科學

Johnson — Sun, 08 May 2016 03:45:56 +0000

英國致力於消滅飢餓與貧窮的慈善機構 Trussell Trust ，整合超過 420 家食物銀行建立合作網路，藉由資料科學方法，將食物募集站與社會福利數據進行交叉分析找出糧食募集與發放的真空地帶。

食物銀行是一群慈善組織，以提供未能解決「三餐」基本需要的人士家庭緊急及短暫的膳食援助為目的。把即期食物捐贈出來，從食物的募集、分類到配送，讓資源獲得最有效的分配與使用。

在英國致力於發放緊急救濟食品的慈善機構 Trussell Trust 說到：「依賴緊急救濟食品度日的人士家庭不斷創下紀錄，光是去年就發放了近百萬份的基本口糧。」這間整合420間食物銀行的慈善機構更進一步指出，貧窮與飢餓的規模不僅不會減少，反將越演越烈。(Link)

藉由資料科學，從食物募集站與社會福利數據的交叉分析有望找出食物銀行營運的真空地帶。由赫爾大學、Coppelia、AAM Associates 等組織所組成的資料科學團隊，透過英國2011年的食物銀行普查資料，預測出急需食物銀行援助的區域。

由英國的食物銀行及資料科學團隊所開發的食物募集與需求地圖，圖片來源：Youtube

關於資料科學在食物銀行上的應用，美國也有類似的案例。知名資料分析公司 APT 協助華盛頓特區食物銀行 (Capital Area Food Bank, CAFB) 建構飢餓熱點地圖，從各個區域的資料挖掘出食物募集與需求的缺口。(Link)

由美國的食物銀行及資料科學團隊所開發的飢餓熱點地圖，圖片來源：CAFB

台灣也有食物銀行，多年來以協助不勝枚舉的弱勢人士與家庭。可惜的是，還沒有看到與運用資料科學優化營運的具體案例。有沒有機會製作一張屬於台灣的食物供需地圖，挖掘出迫切需要援助的弱勢家庭？

這是非常有可能的！透過政府開放資料擷取出全台灣的社會救助資料以及食物銀行的募集與發放場站資料，食物供需地圖的基本雛型就出來了。更進一步，利用空間統計方法建構預測模型，可以找出潛在的高風險區，輔助食物發放站點的設置。

這種資料科學所驅動的公益合作方式蔚為浪潮，由開拓基金會、教育部 ITSA、智庫驅動等組織所發起的 D4SG 計畫 (Data for Social Good, http://d4sg.org) 正是一經典案例。目前已經協助超過40 個非營利組織、20 個政府機關親身體驗資料價值，讓想像力起飛。在資料氾濫的大數據時代，由資料所驅動的革命即將引爆，未來政府、企業、非營利組織與資料科學團隊的合作模式，將成為不可或缺的要素。

今年七月，D4SG 媒合公益組織與資料團隊以長期專案解決真實問題的資料英雄計畫即將展開，目前正在招募資料英雄與公益組織的提案，關心用資料做公益的朋友，不妨多多關注 D4SG 計畫 (http://d4sg.org)。

更完整的評論內容，請見五月份的《有物報告》。

資料力做公益：用白板跟鍵盤回饋社會

Johnson — Tue, 08 Dec 2015 03:03:38 +0000

有人用勞力做公益，也有人用財力做公益，如果用資料力來做公益，不知道會擦出怎樣的火花？

身為一個資料玩家，Data for Social Good 的概念一直是我覺得有興趣、有義務來做的東西。在 DSP智庫驅動的夥伴共同努力之下，今年十月正式發起 Data for Social Good (D4SG) 計畫 (D4SG臉書社團)，透過多場實體活動 ([1], [2], [3]) 匯集了好幾間已經有資料，也想要透過資料科學解決真實問題的非營利組織。這些組織的服務對象包含：兒童、老人、身障、環境、教育等等項目。透過與開拓文教基金會合辦「公益加值資料工作坊」的活動，在11/28, 29 週末兩天的時間，來了場 NPO 與資料人的大亂鬥。

以下筆者將以資料人的身份來談談「公益加值資料工作坊」的觀察。

跟台灣環境資訊協會的淑貞姊的合作是很有趣的經驗，她讓我有機會做了一場「資料科學口譯」。淑貞姊想要透過環保署調查的土地污染數據評量個縣市政府的整治速度，一邊聽她講想法，就一邊將它翻譯成數學模型，定義出簡單直覺的指標，規劃一套嚴謹的資料分析流程。同組善於處理地理圖資的尼斯，就能夠根據統計指標計算出各縣市政府的表現，做出視覺化呈現以及名次排序。

來自瑞信兒童醫療基金會的致緯兄提出的問題真的很特別。以往的企業顧問案接觸的大多是在談怎麼從數據中找出開源節流的方法。但是，瑞信關心的卻是怎麼付出更多的錢，給更多的病童。進行這個專案，就好比做偵探一般，盡一切可能找出病童申請醫療補助人數下降的原因。進行「探索性資料分析」的過程令人印象深刻，大家七嘴八舌的猜測補助人數下降的影響因子，有經驗資料人則試圖把大家的「意見」翻譯成「量化的變數」，以探求補助人數與各種因子之間的關聯性，進而破解謎團。

還有很多引人注目的專案，譬如地球公民基金會期待【水污染監測地圖（以後勁溪為例）】、雙連視障關懷基金會探求【視障按摩師的就業公平機會】、生命線關懷總會想要知道【從1986年開始，求助個案有什麼樣的變化】、台中甘霖基金會關心【失智長者生理數據與長青課程的關係】、企業永續發展協會想要了解【台灣企業對碳揭露議題的表現】。

關於D4SG計畫，先別說回饋社會這麼崇高的話語。對資料人而言，這是一場練功打怪、提升自我價值的好機會，這種場合你可以從 NPO 那裡得到最真實問題跟真誠的回饋，又可以跟眾多深藏不露的高手合作，整個讓人熱血沸騰啊！

資料科學的 Danger Zone

Johnson — Sun, 20 Sep 2015 14:08:59 +0000

大數據帶來「偽相關」

第二屆資料科學愛好者年會，1300人參與的大拜拜圓滿結束，九月初參加了年會系列活動資料科學團隊培訓及導入經驗分享會 (我跟Wush有很認真做筆記喔)，對於一張關聯圖印象深刻，上吊自殺 vs. 科研經費的相關係數竟高達0.9979 (台大心理的黃從仁老師也有在年會演講中秀出這張圖！)，這種八竿子打不著的關聯性，其實不是巧合，而是 Big Data 時代下必然的產物。

現今的大數據世代有個明顯特徵，就是資料氾濫，我們可以很容易地收集到許多不同來源的資料。這張圖就是透過美國數十萬筆開放資料進行一一比對所找出來的特例 (可以到 trievigen.com 找到更多例子)。要說的是，僅僅利用 Data mining 辦法找出資料欄位間的相關性，來作為組織的決策是很危險的。

「上吊自殺 vs. 科研經費」 (相關係數 = 0.9979)

資料科學的 danger zone

Drew Conway 所提出來的 Data Science Venn Diagram 應該是目前在介紹資料科學時，最多人引用的一張圖 (可以數數看這張圖在2014資料科學愛好者年會的演講中出現幾次)，其中值得注意的是Hacking Skills 與 Substantive Expertise 的交集為 Danger Zone。白話的說法是「會跑 Data Mining，不表示能下正確決策」。

圖解資料科學，紅色部分為資料科學的danger zone

舉一個例子，利用 R 語言隨機生成 10 萬組 1999 – 2009 年的亂數資料，拿這 10 萬組資料和自殺數據去計算相關係數。這 10 萬個相關係數平均值為 0，有 9 萬個相關係數介於 [-0.5, 0.5]，其中有 8 個相關係數高於 0.90，只有一組也的相關係數高於0.95 (想知道模擬怎麼做，可以參考筆者的R code)，如下圖所示：

「上吊自殺 vs. 模擬數據」 (從10萬筆亂數資料中取出相關性最高者，相關係數 = 0.9618)

也就是說，透過不斷地產生亂數資料，大約每 10 萬次就可以找到一組和上吊自殺資料有強烈相關的模擬資料。即便你手上的數據和上吊自殺的數據完全無關，只要資料來源夠多，你就會有很高的機率找到強烈相關，這種現象在大數據時代將會頻繁的發生。這種相關性，稱 偽相關 (spurious correlations)，是經典的資料科學Danger Zone，它可以大幅改善預測模型的精準度 (強相關可以做精準預測)，但卻完全無法幫助企業進行決策，反而有可能會幫倒忙。

只有成功，才會成為案例

偽相關 跟著名的「啤酒與尿布」、「颶風與草莓夾心酥」有什麼不一樣？從技術的觀點來說，他們是一樣的，他們都是透過 Data Mining 從巨量資料中，比對兩兩資料欄位所找出來的強烈相關。但是啤酒與尿布成為人人傳頌的案例，自殺與科研經費卻只會被當作笑話看。透過筆者的模擬示範，可以預期數據來源越多，發現強烈偽相關的頻率越高。

部份教科書寫到這邊通常會再次強調「相關不等於因果，多想兩分鐘，別看到相關就開槍」，然後就到此為止，謝謝大家。究竟該怎麼驗證 Data Mining 到的相關性是否能作為商業策略的因果關係？辦法是有的，而且只需要上過一個學期的統計課就會的東西，給一個關鍵字 AB Test。

筆者即將要在 DSP 開課 (模型思考團訓班) 的主題就是講AB Test，有興趣可以來聽聽喔！

工商服務：筆者參與規劃的資料科學課程 XD

資料科學教育：啟動新世代的數據力量

Johnson — Tue, 18 Aug 2015 08:21:12 +0000

台灣史上第一次的資料科學政府團訓班，由DSP 智庫驅動、國家發展委員會及開拓文教基金會聯合主辦，在班主任行政院張善政副院長的帶領下，橫跨20個中央部會共36名成員體驗了一場用資料論政策的工作坊 (2015 8/6, 7, 13, 14)。欲知詳情，請參考DSP網站上的精彩回顧。

這場活化政府的資料思維活動之前，今年七月 DSP 智庫驅動與政治大學-ITSA社群運算與巨量資料跨校資源中心在政大替大專碩博生打造了一場資料科學夏令營 (2015 6/30, 7/1, 2, 3)[1, 2]。學生來自全台12所大學將近20種不同系所，包含資訊科學、統計學、商學、傳播學、社會學及其他領域，是一場貨真價實的跨領域工作坊。

《公共政策與治理 – 資料思考工作坊》專案實作一隅

身為工作坊規劃者之一，分享一點活動設計的理念，供有意從事資料科學推廣教育的朋友做參考。以學生為主的夏令營，設計主軸環繞在完整的資料科學流程 (Data Science Process)，從資料思考 (Data thinking) 開始，藉由資料盤點、資料剖析 (Data understanding) 來提出問題，進而規劃出具有數據論證基礎的資料科學應用 (Data product)。對於欲將資料科學血液注入政府架構的各部會菁英們，更加強資料科學導入的策略指導 (Data strategy) 以及政府資料、開放資料 (Open data) 的真實應用案例分享。

由於資料分析是一系列的串聯流程，需要不同領域的專家通力合作。我們設計了小組專案活動，將學員依跨部會、跨科系、跨領域、跨專業的方式進行分組，協同合作完成一場微型資料科學專案。安排的講者除了分享資料科學相關知識以及真實案例之外，還得身兼小組專案指導員，提供建議與技術的協助。

魔鬼總是藏在細節裡，真的走過幾遭才能體會當中的艱辛。近來資料科學的教育訓練嚴然是政府、企業、NGO、NPO 欲導入以數據輔佐決策的重要模式。今年9/2 (三) 由國立政治大學、淡江大學與DSP 智庫驅動聯合主辦了一場《資料科學教學經驗分享會》，這場活動邀請各方從事資料科學教育的老師一同分享課程設計、教學方法、補助工具等等的經驗談，也邀請到實際參與課程的學生分享他們的學習歷程，歡迎有意從事相關領域教學或研究的大專教師以及同好共襄盛舉。

台北市長負面競選效益分析

Johnson — Tue, 21 Oct 2014 09:34:09 +0000

為了響應李慕約發起的「五十天五十個選舉圖表」，我認領了若干張圖表，我的第一張圖就是關於負面競選。

台灣的選舉過程中負面選舉總是媒體主要追逐的焦點，透過社群媒體發布的候選人負面內容以及民調支持度進行台北市長選戰關聯性分析，發現負面消息對於柯文哲與連勝文兩位候選人的支持度有截然不同的影響。約莫選前60-70天 (9/16 – 9/30) 左右，社群媒體上無論是反對連勝文或是反對柯文哲的內容對於兩位候選人的民調支持度影響不大 (不到1個百分點)。近期 (10/1 – 10/16) 而言，負面競選對支持度就有明顯的影響。反對連勝文的內容在社群媒體散發的越多，連勝文的民調支持度越低，此外柯文哲的支持度也會隨之下降，推測批連會使得未決定支持者的游離選民不願意投票有關。當反對柯文哲的言論散發越多時，連柯兩人的支持度都會隨之上升，推測批柯會使得雙方隱性的支持者願意浮上檯面有關。

本次分析的資料來源分為民意調查資料以及臉書使用者資料兩部分。民調資料取自於維基百科，利用LOESS法預測9/16-10/16每一天候選人的民調支持度。臉書資料則是透過林克傳說收集百萬使用者的公開資料，得到支持/反對候選人內容的社群覆蓋率 (即支持/反對內容出現在一個人的塗鴉牆之平均機率)。

原始資料、分析程式、分析結果都公布在我的github上。