Monthly Archives: 八月 2015

資料科學教育:啟動新世代的數據力量

By | Data Science | No Comments

台灣史上第一次的資料科學政府團訓班,由DSP 智庫驅動、國家發展委員會及開拓文教基金會聯合主辦,在班主任 行政院張善政副院長的帶領下,橫跨20個中央部會共36名成員體驗了一場用資料論政策的工作坊 (2015 8/6, 7, 13, 14)。欲知詳情,請參考DSP網站上的精彩回顧

這場活化政府的資料思維活動之前,今年七月 DSP 智庫驅動與政治大學-ITSA社群運算與巨量資料跨校資源中心在政大替大專碩博生打造了一場資料科學夏令營 (2015 6/30, 7/1, 2, 3)[1, 2]。學生來自全台12所大學將近20種不同系所,包含資訊科學、統計學、商學、傳播學、社會學及其他領域,是一場貨真價實的跨領域工作坊。

《公共政策與治理 – 資料思考工作坊》專案實作一隅

《公共政策與治理 – 資料思考工作坊》專案實作一隅

身為工作坊規劃者之一,分享一點活動設計的理念,供有意從事資料科學推廣教育的朋友做參考。以學生為主的夏令營,設計主軸環繞在完整的資料科學流程 (Data Science Process),從資料思考 (Data thinking) 開始,藉由資料盤點、資料剖析 (Data understanding) 來提出問題,進而規劃出具有數據論證基礎的資料科學應用 (Data product)。對於欲將資料科學血液注入政府架構的各部會菁英們,更加強資料科學導入的策略指導 (Data strategy) 以及政府資料、開放資料 (Open data) 的真實應用案例分享。

由於資料分析是一系列的串聯流程,需要不同領域的專家通力合作。我們設計了小組專案活動,將學員依跨部會、跨科系、跨領域、跨專業的方式進行分組,協同合作完成一場微型資料科學專案。安排的講者除了分享資料科學相關知識以及真實案例之外,還得身兼小組專案指導員,提供建議與技術的協助。

魔鬼總是藏在細節裡,真的走過幾遭才能體會當中的艱辛。近來資料科學的教育訓練嚴然是政府、企業、NGO、NPO 欲導入以數據輔佐決策的重要模式。今年9/2 (三) 由國立政治大學、淡江大學與DSP 智庫驅動聯合主辦了一場《資料科學教學經驗分享會》,這場活動邀請各方從事資料科學教育的老師一同分享課程設計、教學方法、補助工具等等的經驗談,也邀請到實際參與課程的學生分享他們的學習歷程,歡迎有意從事相關領域教學或研究的大專教師以及同好共襄盛舉。

Big data 的三種資料分析類型

By | Big data | No Comments

Big data已經熱一陣子了,市面上許多企業紛紛提出各種Big data solutions,究竟這些solutions到底是在解決什麼樣的問題?筆者將近期對於 Big data的觀察心得做一點整理,分享給大家。就資料分析的觀點,筆者認為現今 Big data 面對的問題可以分成三種類型:

 

Type A. Big data 問題跟 Small data 是一樣的

無論資料量級的大小,資料分析重視如何展現資料的特徵。展示特徵的方法首要是對資料進行適當的疏理 (subsetting / summarise),整理出能夠進行資料建模 (modeling) 資料表、具代表意義的指標,或是資料視覺化圖表。儘管資料的問題本質一樣,但是在Big data上,需要分散式資料庫 (distributed database) 上的資料處理工具諸如Hive, impala, teradata …等才能實現。如果想要在R語言的環境下,執行量級較大 (GB層級) 的資料疏理 (Data ETL),可以參考dplyr, data.table, sparkR等套件。

Type B.  Big data 問題等同一大群 Small data 的問題

對於Big data進行分析的資料模型,可以由若干Small data models所組成的元件來表示。在這種情況下,分散式運算 (distributed computing) 是為必要技術。如果想要在R語言的環境下執行平行運算,可以參考pbdMPI, snow, foreach, Rth等套件。

Type C. Big data 問題需要靠特製系統解決

當資料分析模型無法透過分散式運算有效解決計算效率問題,需要經常性/即時性分析整包Big data的問題屬於此類。這需要根據整體資料分析的流程特製化設計解決方案,譬如說推薦系統。如果想在R環境下嘗試輕量資料可以運行的推薦系統演算法,可以參考recommenderlab套件。

這三種資料分析類型,其要求的 Big data 理論、技術、工具不盡相同。如果您是正在尋求所謂Big data solution的企業,筆者建議先檢驗您的資料量級是不是 Big data,接著再思考您面對的資料分析問題是哪一種類型,進而尋求解決方案。

日前一篇對知名資料科學家工具開發專家Hadley Wickham採訪報導中,提到一個有趣的數字,90%的Big data問題屬於Type A,9%的問題屬於Type B,其餘的部分則屬於Type C。姑且不論這數字的精確性,從Data life cycle的觀點,抑或從企業的資料成熟度來看,不妨依循 A -> B -> C 的流程,一步一步尋求解決方案囉。