<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>讀數一格 &#187; text mining</title>
	<atom:link href="https://readata.org/tag/text-mining/feed/" rel="self" type="application/rss+xml" />
	<link>https://readata.org</link>
	<description>傾聽數據的聲音</description>
	<lastBuildDate>Wed, 13 May 2020 18:15:32 +0000</lastBuildDate>
	<language>zh-TW</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.35</generator>
	<item>
		<title>服貿事件 X 資料科學</title>
		<link>https://readata.org/ecfa-and-data-science/</link>
		<comments>https://readata.org/ecfa-and-data-science/#comments</comments>
		<pubDate>Thu, 27 Mar 2014 08:46:57 +0000</pubDate>
		<dc:creator><![CDATA[Johnson]]></dc:creator>
				<category><![CDATA[Data Science]]></category>
		<category><![CDATA[data science]]></category>
		<category><![CDATA[ecfa]]></category>
		<category><![CDATA[R]]></category>
		<category><![CDATA[text mining]]></category>

		<guid isPermaLink="false">http://readata.org/?p=44</guid>
		<description><![CDATA[近期服貿議題越演越烈，自318學生佔領國會，324 學生攻佔...]]></description>
				<content:encoded><![CDATA[<p>近期服貿議題越演越烈，自318學生佔領國會，324 學生攻佔行政院與強制驅離事件發生後。我以為身為一個統計人，應該用自己的專長來關心這個議題。有鑑於此，我問自己一個問題：<strong>抗議現場的情況與各家媒體報導的真實性為何</strong>？</p>
<p>事實上，討論真實性這種虛無飄渺的概念並不容易，所以我退而求其次考慮比較能夠量化的問題，即<strong>報導之間的關聯性</strong>。</p>
<p><span style="line-height: 1.5;">有了這個想法之後，我蒐集了<a href="http://g0v.today">g0v.today</a>提供的現場文字轉播資料，學生族群常用的<a href="http://www.ptt.cc/bbs/FuMouDiscuss/">PTT服貿版</a>資料，以及幾家新聞的報導資料進行初步分析，</span>3/25號晚上在臉書上發布了以下這張實驗性分析圖，並且徵求夥伴幫忙擷取各家媒體更完整的服貿報導資料。</p>
<div id="fb-root"></div>
<p><script>// <![CDATA[
(function(d, s, id) { var js, fjs = d.getElementsByTagName(s)[0]; if (d.getElementById(id)) return; js = d.createElement(s); js.id = id; js.src = "//connect.facebook.net/zh_TW/all.js#xfbml=1"; fjs.parentNode.insertBefore(js, fjs); }(document, 'script', 'facebook-jssdk'));
// ]]&gt;</script></p>
<div class="fb-post" data-href="https://www.facebook.com/photo.php?fbid=10201657755867776&amp;set=a.1092542035856.2014576.1295675938&amp;type=1" data-width="466">
<div class="fb-xfbml-parse-ignore">由 <a href="https://www.facebook.com/JJHsieh">Johnson Hsieh</a> <a href="https://www.facebook.com/photo.php?fbid=10201657755867776&amp;set=a.1092542035856.2014576.1295675938&amp;type=1">貼文</a>。</div>
</div>
<dl class="wp-caption aligncenter" style="width: 308px;">
<dt class="wp-caption-dt"></dt>
</dl>
<p>&nbsp;</p>
<p>這兩天，感謝很多人熱心的幫忙。無論是資料的提供、文本挖掘技術的交流還是媒體分析經驗的分享等等 (感謝<a href="http://newsdiff.g0v.ronny.tw/" target="_blank">Ronny</a>, <a href="http://piposay.com" target="_blank">Marsan</a>, 文心, <a href="http://www.insight-post.tw/" target="_blank">Toley</a> and <a href="https://www.facebook.com/numerinfo">家齊</a>)。我用更嚴謹的方法得到了以下關聯性分析結果，</p>
<p><a href="http://readata.org/wp-content/uploads/2014/03/myplot1.png"><img class="aligncenter size-large wp-image-46" src="http://readata.org/wp-content/uploads/2014/03/myplot1-1024x859.png" alt="服貿事件報導關係圖" width="474" height="397" /></a><br />
先說圖怎麼看，曲線的粗細表示報導來源之間的相關性強度。再說我的主要發現：</p>
<ol>
<li><span style="line-height: 1.5;">蘋果日報與所有報導來源都有高度的關聯性</span></li>
<li><span style="line-height: 1.5;">報導來源可以分成左右兩群，右半邊是一般的媒體報導，左半邊則是蘋果日報與民間報導。</span></li>
<li><span style="line-height: 1.5;">儘管PTT與現場文字轉播的關聯性在所有報導來源中是最高的。但是，PTT與各大新聞媒體的關聯性都偏低。</span></li>
</ol>
<p>至於分析方法，簡單來說就是以關鍵字找相似度。我用<a href="http://www.r-project.org/" target="_blank">R</a>當作主要分析工具，參考家齊與嘉葳參與<a href="https://www.facebook.com/Tw.R.User">Taiwan R user group</a>在<a href="http://www.meetup.com/Taiwan-R/events/">MLDM Monday meetup</a>關於文本挖掘的演講 (<a href="https://www.youtube.com/watch?v=TcMao3r6jYY" target="_blank">1</a> &amp; <a href="http://rstudio-pubs-static.s3.amazonaws.com/12422_b2b48bb2da7942acaca5ace45bd8c60c.html" target="_blank">2</a>) 進行文本分析，分析出各家媒體報導的關鍵字詞頻，再利用我做生物統計最熟悉的相似度指標來計算各家報導的關聯性。</p>
<p><span style="line-height: 1.5;">最後，我是打算用作研究的態度來玩這個題目。所以必須談談現在遇到的困難之處，希望有人能給點意見。最主要的困難點在於：「</span><span style="line-height: 1.5;">現場文字播報忠實的呈現現場結果，但相較一般新聞報導而言，有口語化過度的問題」。口語化的問題必然與媒體使用的文字有所不同，這個效應與</span><span style="line-height: 1.5;">媒體選擇性報導的差異混淆在一起。解決的辦法目前想嘗試：<br />
</span></p>
<ol>
<li><span style="line-height: 1.5;">確實移除口語化關鍵字之後，再計算相似度 (部分完成)</span></li>
<li>加入民間媒體進行分析，ex: <a href="https://www.facebook.com/NtuNewsEForum/notes" target="_blank">台大新聞E論壇</a> (周末動工)</li>
</ol>
<p>對於上述分析有問題，或是我的後續研究有所建議者，不吝指教，謝謝。</p>
]]></content:encoded>
			<wfw:commentRss>https://readata.org/ecfa-and-data-science/feed/</wfw:commentRss>
		<slash:comments>12</slash:comments>
		</item>
	</channel>
</rss>
