<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>讀數一格 &#187; Big data</title>
	<atom:link href="https://readata.org/category/big-data/feed/" rel="self" type="application/rss+xml" />
	<link>https://readata.org</link>
	<description>傾聽數據的聲音</description>
	<lastBuildDate>Wed, 13 May 2020 18:15:32 +0000</lastBuildDate>
	<language>zh-TW</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.35</generator>
	<item>
		<title>Big data 的三種資料分析類型</title>
		<link>https://readata.org/three-type-problem-for-big-data-analytics/</link>
		<comments>https://readata.org/three-type-problem-for-big-data-analytics/#comments</comments>
		<pubDate>Tue, 04 Aug 2015 03:47:47 +0000</pubDate>
		<dc:creator><![CDATA[Johnson]]></dc:creator>
				<category><![CDATA[Big data]]></category>
		<category><![CDATA[R]]></category>

		<guid isPermaLink="false">http://readata.org/?p=244</guid>
		<description><![CDATA[Big data已經熱一陣子了，市面上許多企業紛紛提出各種B...]]></description>
				<content:encoded><![CDATA[<p>Big data已經熱一陣子了，市面上許多企業紛紛提出各種Big data solutions，究竟這些solutions到底是在解決什麼樣的問題？筆者將近期對於 Big data的觀察心得做一點整理，分享給大家。就資料分析的觀點，筆者認為現今 Big data 面對的問題可以分成三種類型：</p>
<div id="attachment_245" style="width: 490px" class="wp-caption aligncenter"><img class="wp-image-245" src="http://readata.org/wp-content/uploads/2015/08/big-data-analysitc-problem-1024x683.png" alt="three-types-of-big-data-analytics-problem" width="480" height="320" /><p class="wp-caption-text"><a href="http://www.freepik.com/free-vector/chemistry-infographic-free-vector_711146.htm">Designed by Freepik</a></p></div>
<p>&nbsp;</p>
<h3>Type A. Big data 問題跟 Small data 是一樣的</h3>
<p>無論資料量級的大小，資料分析重視如何展現資料的特徵。展示特徵的方法首要是對資料進行適當的疏理 (subsetting / summarise)，整理出能夠進行資料建模 (modeling) 資料表、具代表意義的指標，或是資料視覺化圖表。儘管資料的問題本質一樣，但是在Big data上，需要分散式資料庫 (distributed database) 上的資料處理工具諸如Hive, impala, teradata &#8230;等才能實現。如果想要在R語言的環境下，執行量級較大 (GB層級) 的資料疏理 (Data ETL)，可以參考<a href="https://cran.rstudio.com/web/packages/dplyr/vignettes/introduction.html">dplyr</a>, <a href="http://datatable.r-forge.r-project.org/datatable-intro.pdf">data.table</a>, <a href="http://people.apache.org/~pwendell/spark-releases/latest/sparkr.html#sparkr-dataframes">sparkR</a>等套件。</p>
<h3>Type B.  Big data 問題等同一大群 Small data 的問題</h3>
<p>對於Big data進行分析的資料模型，可以由若干Small data models所組成的元件來表示。在這種情況下，分散式運算 (distributed computing) 是為必要技術。如果想要在R語言的環境下執行<a href="https://cran.r-project.org/web/views/HighPerformanceComputing.html">平行運算</a>，可以參考pbdMPI, snow, foreach, <a href="http://heather.cs.ucdavis.edu/~matloff/rth.html">Rth</a>等套件。</p>
<h3>Type C. Big data 問題需要靠特製系統解決</h3>
<p>當資料分析模型無法透過分散式運算有效解決計算效率問題，需要經常性/即時性分析整包Big data的問題屬於此類。這需要根據整體資料分析的流程特製化設計解決方案，譬如說<a href="http://link.springer.com/article/10.1007%2Fs10844-013-0276-1">推薦系統</a>。如果想在R環境下嘗試輕量資料可以運行的推薦系統演算法，可以參考<a href="https://cran.r-project.org/web/packages/recommenderlab/vignettes/recommenderlab.pdf">recommenderlab</a>套件。</p>
<p>這三種資料分析類型，其要求的 Big data 理論、技術、工具不盡相同。如果您是正在尋求所謂Big data solution的企業，筆者建議先檢驗您的資料量級是不是 Big data，接著再思考您面對的資料分析問題是哪一種類型，進而尋求解決方案。</p>
<p>日前一篇對知名資料科學家工具開發專家<a href="https://en.wikipedia.org/wiki/Hadley_Wickham">Hadley Wickham</a>的<a href="https://peadarcoyle.wordpress.com/2015/08/02/interview-with-a-data-scientist-hadley-wickham/">採訪報導</a>中，提到一個有趣的數字，90%的Big data問題屬於Type A，9%的問題屬於Type B，其餘的部分則屬於Type C。姑且不論這數字的精確性，從<a href="https://image.slidesharecdn.com/datascience101-141025092104-conversion-gate02/95/data-science101-28-638.jpg?cb=1414450574">Data life cycle</a>的觀點，抑或從企業的資料成熟度來看，不妨依循 A -&gt; B -&gt; C 的流程，一步一步尋求解決方案囉。</p>
]]></content:encoded>
			<wfw:commentRss>https://readata.org/three-type-problem-for-big-data-analytics/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>以統計人的觀點談 Big Data</title>
		<link>https://readata.org/statistician-in-big-data/</link>
		<comments>https://readata.org/statistician-in-big-data/#comments</comments>
		<pubDate>Thu, 03 Jul 2014 06:20:29 +0000</pubDate>
		<dc:creator><![CDATA[Johnson]]></dc:creator>
				<category><![CDATA[Big data]]></category>
		<category><![CDATA[Data Science]]></category>
		<category><![CDATA[data science]]></category>
		<category><![CDATA[Statistics]]></category>

		<guid isPermaLink="false">http://readata.org/?p=128</guid>
		<description><![CDATA[六月初偕同御言堂總經理劉嘉凱 (CK) 先生以及 Etu 負...]]></description>
				<content:encoded><![CDATA[<p>六月初偕同御言堂總經理劉嘉凱 (CK) 先生以及 Etu 負責人蔣居裕 (Fred) 代表 Data Science Program (<a href="datasci.co" target="_blank">DSP</a>) 到<a title="資料科學計劃的成果與展望" href="http://readata.org/portfolio/%e8%b3%87%e6%96%99%e7%a7%91%e5%ad%b8%e8%a8%88%e5%8a%83%e7%9a%84%e6%88%90%e6%9e%9c%e8%88%87%e5%b1%95%e6%9c%9b/">交大統計所演講</a>的時候，跟所長黃冠華教授聊到統計所與資訊學院合作開設<a href="http://www.stat.nctu.edu.tw/data/super_pages.php?ID=data1">巨量資料分析學分學程</a>印證了以下想法。</p>
<p>統計是從複雜數據中萃取出有用訊息的學問，在分析巨量資料 (big data) 的過程中，理當扮演舉足輕重的角色。然而，傳統的統計學系訓練學生的方式著重在統計工具的開發與應用上，這並不足以勝任所謂的巨量資料分析。</p>
<p>隨著巨量資料這個議題逐漸火熱，一個新的科學領域：資料科學 (data science) 也隨之而生，相對於統計學專注於分析方法之上，資料科學強調的是以資料解決問題的整體流程，即</p>
<p>1. 在該領域有深厚的專業知識，能夠將欲解決的問題以科學建模來表達。</p>
<p>2. 具備足夠的電腦知識與程式能力，能夠高效率的蒐集、清理、管理巨量資料。</p>
<p>3. 對統計方法有廣泛的瞭解，能夠快速的選用適當的統計方法，甚至是開發新的統計方法來分析資料。</p>
<p>4. 綜合以上三者，能夠以非技術性的語言 (譬如：資料/指標視覺化) 來闡釋分析結果，達成有效率的溝通。</p>
<p>&nbsp;</p>
<div style="width: 437px" class="wp-caption aligncenter"><img src="http://image.slidesharecdn.com/random-140515065048-phpapp02/95/slide-15-638.jpg" alt="" width="427" height="320" /><p class="wp-caption-text">資料科學強調整個流程，統計學則強調分析 (Model) 的部分</p></div>
<p>&nbsp;</p>
<p>就筆者的認知，統計學的本質和現在所謂的資料科學並無不同。然而，從幾乎所有統計教材都會引用的鳶尾花資料集 (<a href="http://en.wikipedia.org/wiki/Iris_flower_data_set" target="_blank">iris data</a>) 當作範例就可以發現，統計人太習慣於從某些領域的提問者中聽取問題、收取已經整理好的資料集 (data frame, 諸如 .txt、.csv 檔)，然後再「開始做統計」。什麼時候開始，統計人自詡只需要紙筆與電腦就可以做研究，卻忘了在統計界備受尊崇的 <a href="http://en.wikipedia.org/wiki/Ronald_Fisher" target="_blank">R. A. Fisher</a> 爵士是在農業試驗所中發展出變異數分析、實驗設計法、最大概似估計&#8230;。</p>
<p>或許對於一個專精於統計方法的統計人而言，這種習慣並無不妥。但是在現今巨量資料的浪潮上，到處充斥著結構化、半結構化與非結構化的資料 (詳見 <a href="http://fredbigdata.blogspot.tw/2012/08/blog-post.html" target="_blank">Fred 豢養的雲中象</a>)。這類資料跟以往統計教科書裡面經由篩選與處理後的資料完全不同。以企業內部的結構化資料為例，當企業負責人抱著 SQL Database 或 Data Warehouse 裡面滿滿的資料來請統計專家做問題諮詢時，該怎麼回應? 如果是非結構化的圖檔、影像檔，統計專家又該怎麼回應? 就像林禎舜師兄在<a href="http://www.meetup.com/Taiwan-R/" target="_blank">MLDM Monday</a>的<a href="https://www.youtube.com/watch?v=NVzkDQNpU7w" target="_blank">演講</a>中提到的一個概念：就現今以資料解決問題的話語權而言，(相對於資訊科學) 統計學的話語權是逐漸式微的 (因為統計人無法處理第一線的資料)。</p>
<p>我的經驗是統計人要拋開傳統教科書對於 data 就是一個data frame 的認知，瞭解 data 的原貌是真實世界的一種記錄方式，它可以是數字、文字、聲音、影像、氣味、建築物&#8230;。真真切切的去貼近真實世界、去貼近第一手資料，用最直覺的方式體會所知的統計方法，就會發現這些方法的精神其實可以應用在各式各樣的資料上。</p>
<p>下一篇，將會具體的談到統計人進入Big data / Data science 的建議。</p>
]]></content:encoded>
			<wfw:commentRss>https://readata.org/statistician-in-big-data/feed/</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
	</channel>
</rss>
