Monthly Archives: 八月 2016

資料科學家的告白:給幼苗們的忠告

By | D4SG, Data Science | No Comments

自從領著 DSP智庫驅動 (dsp.im) 資料科學家的頭銜在業界闖蕩以來,最常被問到兩個題目:1. 如何成為一個資料科學家;2. 組織如何導入資料科學。本文想針對有志於跨入資料科學領域的新血們分享筆者在第一個問題上的看法。

圖片取自:https://goo.gl/X2om6e

 

別說學校教的沒有用,是不夠精通不會用

先自述一下自己的背景,國立大學數學系、統計碩、統計博。如果讀者的背景跟筆者類似,而且欲從事資料科學家相關工作,請相信我一句:「在學校所學到主科知識,全部都用得到。」

數理統計、機率論、線性模型、實驗設計、時間序列、多變量、倖存分析、貝氏分析、無母數曲線、資料探勘、機器學習。上述這些都是學校所教授的必修選修科目,筆者在 DSP智庫驅動 所接觸的各種專案中全都被用上,真心不騙。資料科學有一個可愛的地方,儘管它看似一門新興領域,但資料分析面的必備技能是可以在學校就學到的。

不過,這邊要多一個使用說明,耍耍嘴皮子的三腳貓的功夫是派不上用場的,資料科學很真實,它講求一點一滴的累積。唯有完全通透的融會貫通,才有能力把真實問題翻譯成能夠用資料分析解決的科學問題,進而試圖解決問題 (這還不代表真的能夠找到解決方案喔!)。

工具很重要,R語言是首選

今年 (2016) 正好是筆者寫 R語言的第十年,R語言是一個可塑性高的資料分析武器,更是資料科學的完整解決方案。回想從前在學校學 R 的情境,是在老師教完資料分析理論後的 R語言實作 Lab。基本上,從課堂教材出來的習題,資料都「很乾淨」,讓人可以專注用 R 實作資料分析演算法,並理解各種指標是如何呈現在報表上。

真正能夠讓你邁向神奇 R 語言大師的鍛鍊,在課堂上都被巧秒的略過。實地到現場執行資料分析時,那是隱而未見的地雷區,各種神奇的狀況都會出來。在工程面,有資料前處理 (Data preprocessing) 的問題要面對,沒有實際弄髒手做過資料源的串接、篩選、補值,別說你會資料分析。在分析面,最讓人崩潰的是原本用得很順的資料分析函數,偏偏在這份資料上會突然跳 Error,解這種 Bug 是邁向神奇 R 語言大師之路的必經過程。

別只會拿槍,更要拿戰果

想提升知識與技能,無論是實體或線上現在坊間的資料科學相關課程如雨後春筍選擇多多。在增加實戰經驗的部分,則有許多資料大獎賽或是開放資料黑客松可以參加。

如果想要花一些時間、組一個團隊、做一個有影響力的專案,筆者主持了一個 D4SG資料公益計劃 (d4sg.org, 介紹簡報),其中的資料英雄計畫 (D4SG fellowhip) 是跟 GOV/NGO 徵求能產生顯著的影響力、主管積極支持、成果能確實導入組織運作的資料公益提案,以為期三個月的形式媒合熱血的資料英雄與提案組織共同完成。這不僅能解決公共問題,在履歷上添加這份戰果更讓你的資料力不證自明。

身體力行,當一個資料科學傳教士

我對資料科學家的定義是:「用資料解決真實問題的人」。就筆者在幫助企業進行資料科學導入時的經驗,最難的是讓大家相信資料。真實問題可能是由 A君提出,資料在 B, C, D 手中,執行單位則是 E, F, G。這時候必須肩負起資料科學傳教士的職責,面對不同的群眾要能夠信手捻來用對應的語言來做溝通,用前述的知識與戰果讓大家相信資料的力量。當眾人都相信資料力的時候,才會有資料科學家發揮的舞台。