<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>讀數一格 &#187; Statistics</title>
	<atom:link href="https://readata.org/tag/statistics/feed/" rel="self" type="application/rss+xml" />
	<link>https://readata.org</link>
	<description>傾聽數據的聲音</description>
	<lastBuildDate>Wed, 13 May 2020 18:15:32 +0000</lastBuildDate>
	<language>zh-TW</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.35</generator>
	<item>
		<title>以統計人的觀點談 Big Data</title>
		<link>https://readata.org/statistician-in-big-data/</link>
		<comments>https://readata.org/statistician-in-big-data/#comments</comments>
		<pubDate>Thu, 03 Jul 2014 06:20:29 +0000</pubDate>
		<dc:creator><![CDATA[Johnson]]></dc:creator>
				<category><![CDATA[Big data]]></category>
		<category><![CDATA[Data Science]]></category>
		<category><![CDATA[data science]]></category>
		<category><![CDATA[Statistics]]></category>

		<guid isPermaLink="false">http://readata.org/?p=128</guid>
		<description><![CDATA[六月初偕同御言堂總經理劉嘉凱 (CK) 先生以及 Etu 負...]]></description>
				<content:encoded><![CDATA[<p>六月初偕同御言堂總經理劉嘉凱 (CK) 先生以及 Etu 負責人蔣居裕 (Fred) 代表 Data Science Program (<a href="datasci.co" target="_blank">DSP</a>) 到<a title="資料科學計劃的成果與展望" href="http://readata.org/portfolio/%e8%b3%87%e6%96%99%e7%a7%91%e5%ad%b8%e8%a8%88%e5%8a%83%e7%9a%84%e6%88%90%e6%9e%9c%e8%88%87%e5%b1%95%e6%9c%9b/">交大統計所演講</a>的時候，跟所長黃冠華教授聊到統計所與資訊學院合作開設<a href="http://www.stat.nctu.edu.tw/data/super_pages.php?ID=data1">巨量資料分析學分學程</a>印證了以下想法。</p>
<p>統計是從複雜數據中萃取出有用訊息的學問，在分析巨量資料 (big data) 的過程中，理當扮演舉足輕重的角色。然而，傳統的統計學系訓練學生的方式著重在統計工具的開發與應用上，這並不足以勝任所謂的巨量資料分析。</p>
<p>隨著巨量資料這個議題逐漸火熱，一個新的科學領域：資料科學 (data science) 也隨之而生，相對於統計學專注於分析方法之上，資料科學強調的是以資料解決問題的整體流程，即</p>
<p>1. 在該領域有深厚的專業知識，能夠將欲解決的問題以科學建模來表達。</p>
<p>2. 具備足夠的電腦知識與程式能力，能夠高效率的蒐集、清理、管理巨量資料。</p>
<p>3. 對統計方法有廣泛的瞭解，能夠快速的選用適當的統計方法，甚至是開發新的統計方法來分析資料。</p>
<p>4. 綜合以上三者，能夠以非技術性的語言 (譬如：資料/指標視覺化) 來闡釋分析結果，達成有效率的溝通。</p>
<p>&nbsp;</p>
<div style="width: 437px" class="wp-caption aligncenter"><img src="http://image.slidesharecdn.com/random-140515065048-phpapp02/95/slide-15-638.jpg" alt="" width="427" height="320" /><p class="wp-caption-text">資料科學強調整個流程，統計學則強調分析 (Model) 的部分</p></div>
<p>&nbsp;</p>
<p>就筆者的認知，統計學的本質和現在所謂的資料科學並無不同。然而，從幾乎所有統計教材都會引用的鳶尾花資料集 (<a href="http://en.wikipedia.org/wiki/Iris_flower_data_set" target="_blank">iris data</a>) 當作範例就可以發現，統計人太習慣於從某些領域的提問者中聽取問題、收取已經整理好的資料集 (data frame, 諸如 .txt、.csv 檔)，然後再「開始做統計」。什麼時候開始，統計人自詡只需要紙筆與電腦就可以做研究，卻忘了在統計界備受尊崇的 <a href="http://en.wikipedia.org/wiki/Ronald_Fisher" target="_blank">R. A. Fisher</a> 爵士是在農業試驗所中發展出變異數分析、實驗設計法、最大概似估計&#8230;。</p>
<p>或許對於一個專精於統計方法的統計人而言，這種習慣並無不妥。但是在現今巨量資料的浪潮上，到處充斥著結構化、半結構化與非結構化的資料 (詳見 <a href="http://fredbigdata.blogspot.tw/2012/08/blog-post.html" target="_blank">Fred 豢養的雲中象</a>)。這類資料跟以往統計教科書裡面經由篩選與處理後的資料完全不同。以企業內部的結構化資料為例，當企業負責人抱著 SQL Database 或 Data Warehouse 裡面滿滿的資料來請統計專家做問題諮詢時，該怎麼回應? 如果是非結構化的圖檔、影像檔，統計專家又該怎麼回應? 就像林禎舜師兄在<a href="http://www.meetup.com/Taiwan-R/" target="_blank">MLDM Monday</a>的<a href="https://www.youtube.com/watch?v=NVzkDQNpU7w" target="_blank">演講</a>中提到的一個概念：就現今以資料解決問題的話語權而言，(相對於資訊科學) 統計學的話語權是逐漸式微的 (因為統計人無法處理第一線的資料)。</p>
<p>我的經驗是統計人要拋開傳統教科書對於 data 就是一個data frame 的認知，瞭解 data 的原貌是真實世界的一種記錄方式，它可以是數字、文字、聲音、影像、氣味、建築物&#8230;。真真切切的去貼近真實世界、去貼近第一手資料，用最直覺的方式體會所知的統計方法，就會發現這些方法的精神其實可以應用在各式各樣的資料上。</p>
<p>下一篇，將會具體的談到統計人進入Big data / Data science 的建議。</p>
]]></content:encoded>
			<wfw:commentRss>https://readata.org/statistician-in-big-data/feed/</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
	</channel>
</rss>
