<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>讀數一格 &#187; Data mining</title>
	<atom:link href="https://readata.org/tag/data-mining/feed/" rel="self" type="application/rss+xml" />
	<link>https://readata.org</link>
	<description>傾聽數據的聲音</description>
	<lastBuildDate>Wed, 13 May 2020 18:15:32 +0000</lastBuildDate>
	<language>zh-TW</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.35</generator>
	<item>
		<title>用資料科學迎擊選戰</title>
		<link>https://readata.org/taipei-election-analysis/</link>
		<comments>https://readata.org/taipei-election-analysis/#comments</comments>
		<pubDate>Wed, 23 Jul 2014 12:46:09 +0000</pubDate>
		<dc:creator><![CDATA[Johnson]]></dc:creator>
				<category><![CDATA[Data Science]]></category>
		<category><![CDATA[CART]]></category>
		<category><![CDATA[Data mining]]></category>
		<category><![CDATA[data science]]></category>
		<category><![CDATA[poll analysis]]></category>

		<guid isPermaLink="false">http://readata.org/?p=144</guid>
		<description><![CDATA[隨著年底直轄市長/縣市長選舉的逼近，在我看來利用資料學方法規...]]></description>
				<content:encoded><![CDATA[<p>隨著年底直轄市長/縣市長選舉的逼近，在我看來<span style="color: #333399;">利用資料學方法規劃選舉策略</span>是很有潛力的。我以沈富雄先生宣布參選參選台北市長後，TVBS 於6月21日所做的<a href="http://home.tvbs.com.tw/static/FILE_DB/PCH/201406/20140623181600986.pdf" target="_blank">民調數據</a>為基礎，再加上<a href="http://163.29.37.101/pxweb2007-tp/dialog/statfile9.asp" target="_blank">台北市統計資料庫查詢系統</a>，利用<a href="http://en.wikipedia.org/wiki/Gibbs_sampling" target="_blank">Gibbs sampling</a>的概念將民調結果的表2-1至表2-6回推成<del>拿不到的</del>原始民調數據，數據大致如下表所示：</p>
<p>表1：台北市長選情民調數據範例<br />

<table id="tablepress-3" class="tablepress tablepress-id-3">
<thead>
<tr class="row-1 odd">
	<th class="column-1">支持者</th><th class="column-2">性別</th><th class="column-3">年齡</th><th class="column-4">地區</th><th class="column-5">學歷</th><th class="column-6">省籍</th><th class="column-7">政黨傾向</th>
</tr>
</thead>
<tbody class="row-hover">
<tr class="row-2 even">
	<td class="column-1">連勝文</td><td class="column-2">女性</td><td class="column-3">30+</td><td class="column-4">中山大同</td><td class="column-5">高中</td><td class="column-6">閩南</td><td class="column-7">中立</td>
</tr>
<tr class="row-3 odd">
	<td class="column-1">柯文哲</td><td class="column-2">男性</td><td class="column-3">50+</td><td class="column-4">士林北投</td><td class="column-5">大專</td><td class="column-6">客家</td><td class="column-7">民進黨</td>
</tr>
<tr class="row-4 even">
	<td class="column-1">柯文哲</td><td class="column-2">男性</td><td class="column-3">60+</td><td class="column-4">士林北投</td><td class="column-5">大專</td><td class="column-6">閩南</td><td class="column-7">中立</td>
</tr>
<tr class="row-5 odd">
	<td class="column-1">柯文哲</td><td class="column-2">女性</td><td class="column-3">30+</td><td class="column-4">松山信義</td><td class="column-5">大專</td><td class="column-6">閩南</td><td class="column-7">民進黨</td>
</tr>
<tr class="row-6 even">
	<td class="column-1">沈富雄</td><td class="column-2">女性</td><td class="column-3">40+</td><td class="column-4">中山大同</td><td class="column-5">高中</td><td class="column-6">外省</td><td class="column-7">中立</td>
</tr>
<tr class="row-7 odd">
	<td class="column-1">未決定</td><td class="column-2">男性</td><td class="column-3">50+</td><td class="column-4">內湖南港</td><td class="column-5">國中</td><td class="column-6">其他</td><td class="column-7">中立</td>
</tr>
</tbody>
</table>
<!-- #tablepress-3 from cache -->
<p>參考日前由 OSSF 在中研院舉辦的 <a href="http://www.openfoundry.org/tw/activities/details/428-Data-Science-with-R-Workshop" target="_blank">Data Science with R Workshop</a> (<a href="http://johnsonhsieh.github.io/DSR_workshop/index.html#42" target="_blank">簡報</a>)，在介紹Data mining 方法時提到的分類與迴歸樹 (<a href="http://www.stat.cmu.edu/~cshalizi/350/lectures/22/lecture-22.pdf" target="_blank">Classiﬁcation and Regression Trees, CART</a>) 進行分析，如下圖所示：</p>
<div id="attachment_177" style="width: 710px" class="wp-caption aligncenter"><a href="http://readata.org/wp-content/uploads/2014/07/election-tree1.png"><img class="size-large wp-image-177" src="http://readata.org/wp-content/uploads/2014/07/election-tree1-1024x671.png" alt="台北市長選戰決策樹" width="700" height="458" /></a><p class="wp-caption-text">台北市長選戰決策樹</p></div>
<p>自左上而右下觀察這棵決策樹，可以發現影響選民支持度最重要的變數終究是政黨偏好，傾向於國民黨者對於連勝文的支持率為 0.69，傾向民進黨者對柯文哲的支持率則為 0.83。至於自稱中立與傾向其他政黨 (包含台聯、親民黨、新黨、無黨聯盟、綠黨與拒答) 者當中，20-29歲的年輕人有很大的比例的支持柯文哲 (0.66)，30歲以上的人則依據祖籍、性別的不同對於連勝文、柯文哲、沈富雄各有所好。有趣的是30歲以上、祖籍為閩南、客家的選民中，柯文哲顯然更受到男性支持 (0.54)；同樣在30歲以上、祖籍為外省、其他的族群中，連勝文的支持率為34%。至於選民的教育程度、居住地區等訊息屬於相對次要的影響因子(雖然說是次要因子，但仍影響了一成以上的選票)，則能顯示諸如：1. 連、柯的鐵票族群細目；2. 沈富雄從連、柯二人手中轉移的潛在選票族群；以及 3. 未表態選民的特徵等訊息。為了不讓決策樹解釋過於冗長難懂，在此保留那些複雜的細節。</p>
<p>回到我想討論的主軸，資料科學有什麼潛力來幫助選舉策略規劃？根據我日前在政治大學談到<a title="資料科學與媒體報導關聯性分析" href="http://readata.org/portfolio/data-science-and-ecfa/" target="_blank">資料科學與媒體分析</a>的概述：資料科學係指針對特定問題 (在此指某種選舉方針) 規劃資料的收集、萃取、建模、再提供決策的一門學問。再講深入一點，訓練有素的資料科學家能夠針對問題規劃出：1. 該蒐集那些資料、如何蒐集正確的資料； 2. 從幾百筆、幾萬筆、幾千萬筆資料中進行整理、剖析； 3. 透過統計建模從大量的資料中發現洞見，進而提供決策方針。依此定義，資料科學家自然有助於選戰團隊的策略規劃。譬如偵測出各種游移選民的特徵與偏好、鞏固票倉的策略、競選行程路線最佳化&#8230;等等，都能夠讓資料科學家佔有一席之地。</p>
<p>對於資料科學家養成內容感興趣的讀者，請參考中研院資訊科學所陳昇瑋老師的<a href="http://techorange.com/2014/07/16/self-trained-data-scientist/" target="_blank">專訪</a>。此外，如果想進一步接觸資料科學養成課程的同好近期 TW.R 社群展開了一系列免費的資料科學上手課程，詳見<a href="https://www.facebook.com/Tw.R.User" target="_blank">TW.R 臉書頁面</a>以及活動<a href="http://www.meetup.com/Taiwan-R/" target="_blank">meetup</a>。</p>
]]></content:encoded>
			<wfw:commentRss>https://readata.org/taipei-election-analysis/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
