<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>讀數一格 &#187; R</title>
	<atom:link href="https://readata.org/tag/r/feed/" rel="self" type="application/rss+xml" />
	<link>https://readata.org</link>
	<description>傾聽數據的聲音</description>
	<lastBuildDate>Wed, 13 May 2020 18:15:32 +0000</lastBuildDate>
	<language>zh-TW</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.35</generator>
	<item>
		<title>從套件的發展談 R 與 Python</title>
		<link>https://readata.org/r-vs-python/</link>
		<comments>https://readata.org/r-vs-python/#comments</comments>
		<pubDate>Sat, 18 Mar 2017 08:30:44 +0000</pubDate>
		<dc:creator><![CDATA[Johnson]]></dc:creator>
				<category><![CDATA[Data Science]]></category>
		<category><![CDATA[data science]]></category>
		<category><![CDATA[Python]]></category>
		<category><![CDATA[R]]></category>

		<guid isPermaLink="false">http://readata.org/?p=410</guid>
		<description><![CDATA[昨天到淡江大學參加大數據分析與 R 論壇，與談的過程中陳景祥...]]></description>
				<content:encoded><![CDATA[<p>昨天到淡江大學參加大數據分析與 R 論壇，與談的過程中陳景祥老師提出了資料分析工具比較的討論議題。本來是想強調智庫驅動徵才要找怎樣的人，一不小心被引導到 R 與 Python 的比較 (後來想來，根本是陳老師在挖坑&#8230;)。網路上其實已經很多人討論過這個題目，譬如這篇《<a href="http://www.bigdatafinance.tw/index.php/tech/methodology/193-r-python" target="_blank">數據科學界華山論劍：R與Python巔峰對決</a>》，整理得非常完整，根本就意圖 closed 這系列的討論。</p>
<p>這邊想補充一個會議上沒來得及說清楚的觀點。從資料分析的功能面上，即便 R 跟 Python 如果做一個比較表，也會發現兩邊不分上下，比不出一個所以然。筆者簡單將資料分析的方法分成四大類：Regression, Classification, Clustering and Dimensionality reduction，在下表中列出幾個代表性的演算法，接著再指出 R 與 Python 的對應資料分析套件。</p>
<p>看完這張表格就會理解 R 與 Python，這兩種語言在資料分析工具發展的思維上是有決定性差異的，筆者認為這個差異將決定使用者解決真實問題的方式。對於 R語言來說，各種演算法散落在各種套件當中，所以 R user 在做資料分析的時候，必須要先思考它所面對的問題需要載入怎樣的套件才能解決，如果這個套件提供的演算法仍不夠完善，R user 會先嘗試對該演算法做校正，而不是去思考要不要換其他套件庫。至於 Python user 在做資料分析時，當他載入 scikit-learn 之後，他有超級豐富的武器庫可以去嘗試，當某個演算法效果不如預期時，Python user 會傾向先換別的演算法再試一次看看。</p>
<div id="attachment_420" style="width: 1588px" class="wp-caption aligncenter"><a href="http://readata.org/wp-content/uploads/2017/03/R_Python_packages.png"><img class="wp-image-420 size-full" src="http://readata.org/wp-content/uploads/2017/03/R_Python_packages.png" alt="R_Python_packages" width="1578" height="1222" /></a><p class="wp-caption-text">從套件功能比較 R 與 Python</p></div>
<p>再次強調，在演算法的功能面以及模型優化上 R 與 Python 其實都可以做。就筆者自身經驗 R users 在討論資料分析遇到瓶頸的時候會先討論 outlier, overfitting, regularization。而 Python users 在討論的時候會先盤點用過哪些演算法，哪些演算法可以解決某某問題。筆者認為這是這兩種工具發展目的所造成的差異， R 語言是隨著學術研究而發展、Python 則是基於優化資料分析的應用環境。</p>
<p>從企業招募的觀點來說，主管應該要思考的是做資料分析的目的為何，需要招募怎樣特質的資料分析師。詢問筆者該學習 R 或 Python 的學生，則建議思考一下你的個人特質適合，想要橫向或縱向的分配你的技能點。</p>
<p>特色圖片取自：<a href="http://www.activestate.com/blog/2016/02/r-vs-python-false-dichotomy" target="_blank">ActiveState</a></p>
]]></content:encoded>
			<wfw:commentRss>https://readata.org/r-vs-python/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Big data 的三種資料分析類型</title>
		<link>https://readata.org/three-type-problem-for-big-data-analytics/</link>
		<comments>https://readata.org/three-type-problem-for-big-data-analytics/#comments</comments>
		<pubDate>Tue, 04 Aug 2015 03:47:47 +0000</pubDate>
		<dc:creator><![CDATA[Johnson]]></dc:creator>
				<category><![CDATA[Big data]]></category>
		<category><![CDATA[R]]></category>

		<guid isPermaLink="false">http://readata.org/?p=244</guid>
		<description><![CDATA[Big data已經熱一陣子了，市面上許多企業紛紛提出各種B...]]></description>
				<content:encoded><![CDATA[<p>Big data已經熱一陣子了，市面上許多企業紛紛提出各種Big data solutions，究竟這些solutions到底是在解決什麼樣的問題？筆者將近期對於 Big data的觀察心得做一點整理，分享給大家。就資料分析的觀點，筆者認為現今 Big data 面對的問題可以分成三種類型：</p>
<div id="attachment_245" style="width: 490px" class="wp-caption aligncenter"><img class="wp-image-245" src="http://readata.org/wp-content/uploads/2015/08/big-data-analysitc-problem-1024x683.png" alt="three-types-of-big-data-analytics-problem" width="480" height="320" /><p class="wp-caption-text"><a href="http://www.freepik.com/free-vector/chemistry-infographic-free-vector_711146.htm">Designed by Freepik</a></p></div>
<p>&nbsp;</p>
<h3>Type A. Big data 問題跟 Small data 是一樣的</h3>
<p>無論資料量級的大小，資料分析重視如何展現資料的特徵。展示特徵的方法首要是對資料進行適當的疏理 (subsetting / summarise)，整理出能夠進行資料建模 (modeling) 資料表、具代表意義的指標，或是資料視覺化圖表。儘管資料的問題本質一樣，但是在Big data上，需要分散式資料庫 (distributed database) 上的資料處理工具諸如Hive, impala, teradata &#8230;等才能實現。如果想要在R語言的環境下，執行量級較大 (GB層級) 的資料疏理 (Data ETL)，可以參考<a href="https://cran.rstudio.com/web/packages/dplyr/vignettes/introduction.html">dplyr</a>, <a href="http://datatable.r-forge.r-project.org/datatable-intro.pdf">data.table</a>, <a href="http://people.apache.org/~pwendell/spark-releases/latest/sparkr.html#sparkr-dataframes">sparkR</a>等套件。</p>
<h3>Type B.  Big data 問題等同一大群 Small data 的問題</h3>
<p>對於Big data進行分析的資料模型，可以由若干Small data models所組成的元件來表示。在這種情況下，分散式運算 (distributed computing) 是為必要技術。如果想要在R語言的環境下執行<a href="https://cran.r-project.org/web/views/HighPerformanceComputing.html">平行運算</a>，可以參考pbdMPI, snow, foreach, <a href="http://heather.cs.ucdavis.edu/~matloff/rth.html">Rth</a>等套件。</p>
<h3>Type C. Big data 問題需要靠特製系統解決</h3>
<p>當資料分析模型無法透過分散式運算有效解決計算效率問題，需要經常性/即時性分析整包Big data的問題屬於此類。這需要根據整體資料分析的流程特製化設計解決方案，譬如說<a href="http://link.springer.com/article/10.1007%2Fs10844-013-0276-1">推薦系統</a>。如果想在R環境下嘗試輕量資料可以運行的推薦系統演算法，可以參考<a href="https://cran.r-project.org/web/packages/recommenderlab/vignettes/recommenderlab.pdf">recommenderlab</a>套件。</p>
<p>這三種資料分析類型，其要求的 Big data 理論、技術、工具不盡相同。如果您是正在尋求所謂Big data solution的企業，筆者建議先檢驗您的資料量級是不是 Big data，接著再思考您面對的資料分析問題是哪一種類型，進而尋求解決方案。</p>
<p>日前一篇對知名資料科學家工具開發專家<a href="https://en.wikipedia.org/wiki/Hadley_Wickham">Hadley Wickham</a>的<a href="https://peadarcoyle.wordpress.com/2015/08/02/interview-with-a-data-scientist-hadley-wickham/">採訪報導</a>中，提到一個有趣的數字，90%的Big data問題屬於Type A，9%的問題屬於Type B，其餘的部分則屬於Type C。姑且不論這數字的精確性，從<a href="https://image.slidesharecdn.com/datascience101-141025092104-conversion-gate02/95/data-science101-28-638.jpg?cb=1414450574">Data life cycle</a>的觀點，抑或從企業的資料成熟度來看，不妨依循 A -&gt; B -&gt; C 的流程，一步一步尋求解決方案囉。</p>
]]></content:encoded>
			<wfw:commentRss>https://readata.org/three-type-problem-for-big-data-analytics/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>服貿事件 X 資料科學</title>
		<link>https://readata.org/ecfa-and-data-science/</link>
		<comments>https://readata.org/ecfa-and-data-science/#comments</comments>
		<pubDate>Thu, 27 Mar 2014 08:46:57 +0000</pubDate>
		<dc:creator><![CDATA[Johnson]]></dc:creator>
				<category><![CDATA[Data Science]]></category>
		<category><![CDATA[data science]]></category>
		<category><![CDATA[ecfa]]></category>
		<category><![CDATA[R]]></category>
		<category><![CDATA[text mining]]></category>

		<guid isPermaLink="false">http://readata.org/?p=44</guid>
		<description><![CDATA[近期服貿議題越演越烈，自318學生佔領國會，324 學生攻佔...]]></description>
				<content:encoded><![CDATA[<p>近期服貿議題越演越烈，自318學生佔領國會，324 學生攻佔行政院與強制驅離事件發生後。我以為身為一個統計人，應該用自己的專長來關心這個議題。有鑑於此，我問自己一個問題：<strong>抗議現場的情況與各家媒體報導的真實性為何</strong>？</p>
<p>事實上，討論真實性這種虛無飄渺的概念並不容易，所以我退而求其次考慮比較能夠量化的問題，即<strong>報導之間的關聯性</strong>。</p>
<p><span style="line-height: 1.5;">有了這個想法之後，我蒐集了<a href="http://g0v.today">g0v.today</a>提供的現場文字轉播資料，學生族群常用的<a href="http://www.ptt.cc/bbs/FuMouDiscuss/">PTT服貿版</a>資料，以及幾家新聞的報導資料進行初步分析，</span>3/25號晚上在臉書上發布了以下這張實驗性分析圖，並且徵求夥伴幫忙擷取各家媒體更完整的服貿報導資料。</p>
<div id="fb-root"></div>
<p><script>// <![CDATA[
(function(d, s, id) { var js, fjs = d.getElementsByTagName(s)[0]; if (d.getElementById(id)) return; js = d.createElement(s); js.id = id; js.src = "//connect.facebook.net/zh_TW/all.js#xfbml=1"; fjs.parentNode.insertBefore(js, fjs); }(document, 'script', 'facebook-jssdk'));
// ]]&gt;</script></p>
<div class="fb-post" data-href="https://www.facebook.com/photo.php?fbid=10201657755867776&amp;set=a.1092542035856.2014576.1295675938&amp;type=1" data-width="466">
<div class="fb-xfbml-parse-ignore">由 <a href="https://www.facebook.com/JJHsieh">Johnson Hsieh</a> <a href="https://www.facebook.com/photo.php?fbid=10201657755867776&amp;set=a.1092542035856.2014576.1295675938&amp;type=1">貼文</a>。</div>
</div>
<dl class="wp-caption aligncenter" style="width: 308px;">
<dt class="wp-caption-dt"></dt>
</dl>
<p>&nbsp;</p>
<p>這兩天，感謝很多人熱心的幫忙。無論是資料的提供、文本挖掘技術的交流還是媒體分析經驗的分享等等 (感謝<a href="http://newsdiff.g0v.ronny.tw/" target="_blank">Ronny</a>, <a href="http://piposay.com" target="_blank">Marsan</a>, 文心, <a href="http://www.insight-post.tw/" target="_blank">Toley</a> and <a href="https://www.facebook.com/numerinfo">家齊</a>)。我用更嚴謹的方法得到了以下關聯性分析結果，</p>
<p><a href="http://readata.org/wp-content/uploads/2014/03/myplot1.png"><img class="aligncenter size-large wp-image-46" src="http://readata.org/wp-content/uploads/2014/03/myplot1-1024x859.png" alt="服貿事件報導關係圖" width="474" height="397" /></a><br />
先說圖怎麼看，曲線的粗細表示報導來源之間的相關性強度。再說我的主要發現：</p>
<ol>
<li><span style="line-height: 1.5;">蘋果日報與所有報導來源都有高度的關聯性</span></li>
<li><span style="line-height: 1.5;">報導來源可以分成左右兩群，右半邊是一般的媒體報導，左半邊則是蘋果日報與民間報導。</span></li>
<li><span style="line-height: 1.5;">儘管PTT與現場文字轉播的關聯性在所有報導來源中是最高的。但是，PTT與各大新聞媒體的關聯性都偏低。</span></li>
</ol>
<p>至於分析方法，簡單來說就是以關鍵字找相似度。我用<a href="http://www.r-project.org/" target="_blank">R</a>當作主要分析工具，參考家齊與嘉葳參與<a href="https://www.facebook.com/Tw.R.User">Taiwan R user group</a>在<a href="http://www.meetup.com/Taiwan-R/events/">MLDM Monday meetup</a>關於文本挖掘的演講 (<a href="https://www.youtube.com/watch?v=TcMao3r6jYY" target="_blank">1</a> &amp; <a href="http://rstudio-pubs-static.s3.amazonaws.com/12422_b2b48bb2da7942acaca5ace45bd8c60c.html" target="_blank">2</a>) 進行文本分析，分析出各家媒體報導的關鍵字詞頻，再利用我做生物統計最熟悉的相似度指標來計算各家報導的關聯性。</p>
<p><span style="line-height: 1.5;">最後，我是打算用作研究的態度來玩這個題目。所以必須談談現在遇到的困難之處，希望有人能給點意見。最主要的困難點在於：「</span><span style="line-height: 1.5;">現場文字播報忠實的呈現現場結果，但相較一般新聞報導而言，有口語化過度的問題」。口語化的問題必然與媒體使用的文字有所不同，這個效應與</span><span style="line-height: 1.5;">媒體選擇性報導的差異混淆在一起。解決的辦法目前想嘗試：<br />
</span></p>
<ol>
<li><span style="line-height: 1.5;">確實移除口語化關鍵字之後，再計算相似度 (部分完成)</span></li>
<li>加入民間媒體進行分析，ex: <a href="https://www.facebook.com/NtuNewsEForum/notes" target="_blank">台大新聞E論壇</a> (周末動工)</li>
</ol>
<p>對於上述分析有問題，或是我的後續研究有所建議者，不吝指教，謝謝。</p>
]]></content:encoded>
			<wfw:commentRss>https://readata.org/ecfa-and-data-science/feed/</wfw:commentRss>
		<slash:comments>12</slash:comments>
		</item>
	</channel>
</rss>
