三月, 2014 | 讀數一格

三月 27 2014

服貿事件 X 資料科學

By Johnson | Data Science | 12 Comments

近期服貿議題越演越烈，自318學生佔領國會，324 學生攻佔行政院與強制驅離事件發生後。我以為身為一個統計人，應該用自己的專長來關心這個議題。有鑑於此，我問自己一個問題：抗議現場的情況與各家媒體報導的真實性為何？

事實上，討論真實性這種虛無飄渺的概念並不容易，所以我退而求其次考慮比較能夠量化的問題，即報導之間的關聯性。

有了這個想法之後，我蒐集了g0v.today提供的現場文字轉播資料，學生族群常用的PTT服貿版資料，以及幾家新聞的報導資料進行初步分析，3/25號晚上在臉書上發布了以下這張實驗性分析圖，並且徵求夥伴幫忙擷取各家媒體更完整的服貿報導資料。

由 Johnson Hsieh 貼文。

這兩天，感謝很多人熱心的幫忙。無論是資料的提供、文本挖掘技術的交流還是媒體分析經驗的分享等等 (感謝Ronny, Marsan, 文心, Toley and 家齊)。我用更嚴謹的方法得到了以下關聯性分析結果，

先說圖怎麼看，曲線的粗細表示報導來源之間的相關性強度。再說我的主要發現：

蘋果日報與所有報導來源都有高度的關聯性
報導來源可以分成左右兩群，右半邊是一般的媒體報導，左半邊則是蘋果日報與民間報導。
儘管PTT與現場文字轉播的關聯性在所有報導來源中是最高的。但是，PTT與各大新聞媒體的關聯性都偏低。

至於分析方法，簡單來說就是以關鍵字找相似度。我用R當作主要分析工具，參考家齊與嘉葳參與Taiwan R user group在MLDM Monday meetup關於文本挖掘的演講 (1 & 2) 進行文本分析，分析出各家媒體報導的關鍵字詞頻，再利用我做生物統計最熟悉的相似度指標來計算各家報導的關聯性。

最後，我是打算用作研究的態度來玩這個題目。所以必須談談現在遇到的困難之處，希望有人能給點意見。最主要的困難點在於：「現場文字播報忠實的呈現現場結果，但相較一般新聞報導而言，有口語化過度的問題」。口語化的問題必然與媒體使用的文字有所不同，這個效應與媒體選擇性報導的差異混淆在一起。解決的辦法目前想嘗試：

確實移除口語化關鍵字之後，再計算相似度 (部分完成)
加入民間媒體進行分析，ex: 台大新聞E論壇 (周末動工)

對於上述分析有問題，或是我的後續研究有所建議者，不吝指教，謝謝。

三月 26 2014

統計指標與謊言

By Johnson | Data Science | 13 Comments

美國著名文豪馬克‧吐溫留下一段經典名句：「謊言有三種：謊言、該死的謊言與統計數字 (There are three kinds of lies: lies, damned lies, and statistics.）。」目的在於諷刺那些使用統計數據支持卻毫無說服力的報告，以及貶低反對立場的統計結論。我想要用一個發生在台灣的真實案例來呼應馬克‧吐溫的哲言。

以下是2012年3月27日自由時報的頭條新聞，主要是說明2010年度最窮的5%家庭平均年所得僅4.6萬元，對比最富的5%家庭平均年所得429.4萬元，差距達到93倍，比去年的75倍差距來得更高。

自由時報-貧富差距飆至93倍歷史新高 http://www.libertytimes.com.tw/2012/new/mar/27/today-t3.htm

再看一則當時經建會主委尹啟銘先生的文章，時間是在上一則新聞過後的兩天 (3/29) 。主要是在闡述國際上常用的是五等分法，即最窮與最富的20%來比較，得貧富差距為6.19倍，相比去年的6.34倍來得低。至於使用最窮與最富的5%來衡量貧富差距（二十等分法）在國際上缺乏理論的根據和無公信力作基礎，因此國際上幾乎無人採用。

尹啟銘-讓國人正確了解當前貧富差距, http://www.ndc.gov.tw/m1.aspx?sNo=0016735

事實上，這種爭論每年都會登上新聞版面，譬如自由時報2013/06/10的頭版新聞

自由時報-最富5％VS.最窮5％所得差距逾96倍 http://www.libertytimes.com.tw/2013/new/jun/10/today-t2.htm

再如TVBS在2014/01/09的影音版新聞

貧富差距擴大？逾9成民眾：嚴重！http://news.tvbs.com.tw/entry/517145

平平都是相同來源的每戶年平均所得資料，究竟怎麼一回事？如何從這種裡用統計指標 (statistical index) 各說各話的情勢中明辨是非，是我所關心的問題。從我整理自上述新聞以及官方公佈的家庭收支調查報告勉強可以看出一點端倪。

年度(萬元)	94年	95年	96年	97年	98年	99年	100年
最低5%	7.2	6.9	7.2	6.9	5.1	4.6	4.8
最低20%	29.8	30.4	31.2	30.4	28.2	28.9	29.6
最高20%	180	183	187	184	179	187	183
最高5%	397	402	435	451	383	432	464

看得出來嗎？除了2009年 (民國98年) 國際金融危機之外，最低20%與最高20%的家庭收入2005年以來大致上並無太大的改變。但是最低5%在2009年之後明顯的下降，最高5%則有明顯的上升趨勢。

最後，我參考美國每戶收入的直方圖，再根據二十等分位的統計指標來回推台灣在2005與2011年的每戶年平均收入分布圖。先看下圖的右半部 (富人部分)，可以發現藍色 (2011年) 的圖形的右邊拖著一條比紅色 (2005年) 圖形要高的尾巴；再看左半部 (窮人部分)，雖然有一點不明顯，不過還是可以發現藍色比紅色圖形更靠左邊。與其追究政府官員還是新聞報導的統計指標孰是孰非，我以為透過這張分布圖來回答更加明確。這邊用統計人的角度murmur一下，有關單位不要只公布統計指標，Data Open吧。

台灣每戶年平均收入猜測

我寫這篇文章的主要目的，不在於討論台灣社會貧富差距 (這類的討論真的很多，光是用幾等分法來衡量貧富差距就吵不完了)，而是在於呼應馬克‧吐溫的哲言。要知道，同樣的資料集可以產生各種不同的統計指標，每一種統計指標都有獨特的意義以及適用的時機。統計指標並沒有好壞之分，可惡的是因為立場的不同，而使用特定指標來做為宣傳工作的壞蛋。

三月 19 2014

資料科學之我見

By Johnson | Data Science | No Comments

任何時代都有資料科學的問題，最早的資料科學可以追溯到統治者在處理軍役戶政以及農業畜牧的問題上，經典的例子就是人口調查與農產品改良試驗。接著數據分析被應用到工業界中，譬如提高產能與改善良率的統計方法。同時，經濟學、社會學、生命科學…也開始透過統計方法來描述現象、驗證假說。近來計算機科學發展成熟，資料儲存的成本降低，從大數據中萃取有用資訊的演算技術逐漸受到重視，這種從大數據中尋找挖掘可供決策的規則就是所謂的資料探勘 (Data mining)。事實上，從古到今資料科學的本質並沒有不同，改變的只是因應人類活動型態的轉變，使得數據的收集方式及其分析方法跟著轉變罷了。現在Big Data很熱門，卻也陷入Big的迷思，忘了資料科學的本質其實是在Data上。

談到Data，必須先說明資料如何收集。一般來說可以分成top- down與bottom-up兩種。所謂的top-down係指企業主在資料收集前，有既定的問題想要解答，譬如某樂利杯咖啡的企業想要訂定飲品的優惠行銷策略，這時候必須透過收集各個分店每種飲品在各種時間與季節的銷售數據，甚至是特殊優惠活動時飲品的銷售記錄等等資料，進行數據分析以回答問題。另一種 bottom-up是從既有資料中尋找規則，譬如從前述飲品的銷售數據中，歸納出那些飲品組合最受到消費者喜愛，讓企業達到飲品事先推薦、飲品銷售預測等等目的。當然，資料的收集並不侷限是top-down或是bottom-up，而是兩者上上下下的循環，藉由不斷的調整為企業創造最大的利益。以上例子，可以被應用在一間小店上，也可以用在全台展店數百家的企業上，甚至可以用在全球五大洲擁有數千間連鎖分店的企業之上。對於資料科學而言，無論資料規模的大小，透過Data來解決問題的本質是始終不變的。差別僅在於時代的進步，資料收集的方式比以往方便也更加多元。當然相對於可以在中小規模的數據上使用的統計方法，套到大數據時會有運算效率不彰的問題，但我認為這是技術上的問題，並不影響基本的統計思維。

data science word cloud, made by Marina Yuan

把問題收斂，如果企業主想要利用Data來 (無論是Big Data, Middle Data 還是 Small Data) 提升企業的營運，該怎麼做？第一步多半是想找一位精通資料科學的專業人才吧。但是當他們想要這麼做時，卻發現找不到這種人才。真的是這樣嗎？

我以為資料科學基本的流程是這樣子的：

列出企業想要透過Data解決的問題
記錄所有可能有助於找出答案的Data
從Data中萃取出規則以回答問題

每段流程都是獨門的學問，能夠同時精通三者的人才真的是少之又少，能夠識別這種人才的企業更是寥寥無幾。何不從上述三段流程各別尋找對應的人才呢？企業主需要的可能是一位資料科學專家，也可以是一個實力堅強的資料科學團隊。從具有實務經驗的人才庫中尋找第一階段的人選；從具有資料倉儲經驗的人才庫中尋找第二階段的人選；再從具備資料分析能力的人才庫中尋找第三階段的人選。而我所參與的 Data Science Program (DSP) 課程設計的目標，除了各自培養三個階段的人才之外，同時也注重這三種人才的交流與整合。其中DSP團訓班課程設計的目的就是把這三種人才放在一個團隊裡面，透過各種資料科學面向的課程以及team project的實戰方式，整合出一個完整的資料科學團隊。再補充兩個概念。第一，上述三段流程並不完全是由上至下來執行，而是需要團隊成員彼此不斷的交流與溝通才能成就出良好的分析結果。第二，已經具備上述三種之中任一種職能的人，透過團訓的過程培養第二、第三種職能並不困難。

總之，我想要強調的有兩點：1. 現階段的資料科學正處於Big Data的浪潮上，Big的確是當前資料的主要特徵，但是核心主角仍然落在Data上，透過數據的深度分析，將數據轉化成可供企業決策的資訊與知識，才是資料科學中心思想。2. 資料科學這門領域既深且廣，能完全精通此道者無疑是萬中選一的逸才。不過，若能透過資料科學團隊的合作方式，也不失為一種降低資料科學門檻的方法。

Monthly Archives: 三月 2014

服貿事件 X 資料科學

統計指標與謊言

資料科學之我見

近期文章

近期迴響

彙整

分類

其它

Monthly Archives: 三月 2014

服貿事件 X 資料科學

分享此文：

統計指標與謊言

分享此文：

資料科學之我見

分享此文：

近期文章

近期迴響

彙整

分類

其它