追求卓越技術之外,資料科學的藝術面

追求卓越技術之外,資料科學的藝術面

heart-and-brain-on-scale

heart-and-brain-on-scale

一月初參加了網路星期二的講者餐敘 (推坑) 活動,跟開拓文教基金會的淑芳姊互相交流社工面對高風險家庭的經驗,她提到真正高度危機的家庭往往無法透過量表精確的反應出來,反倒是社工那通靈般的直覺最有效果,但是這種直覺很難量化、不容易傳承,這也導致服務品質出現斷層,免洗社工的問題惡性循環。

一個已經會上百種武功的資料高手,專注在不斷追求技術精進,但這就像在用百米衝刺的態度在跑看不到終點馬拉松,很容易會迷失在資料的極限中。暮然回首,把直覺量化的想像力,其實是資料科學最不可或缺的,也是我認為從事資料科學工作中最重要的一環。

人心難測,是統計學家最艱難的挑戰。也正因為他艱難,所以統計學家需要跟領域專家合作。在我跟台北市家防中心的合作經驗中,發現到把社工直覺轉成量化方式的例子,譬如社工判斷受害人是否有「疑似身心障礙」這件事。在親密關係暴力是否有「高度再次受暴率」的預測問題上,「疑似身心障礙」比「是否領有身心障礙手冊」的影響力來得重要。這種社工的通靈直覺,竟然在預測模型上起了莫大的作用,其實是給予我們這種只知道玩數據的傢伙很大的震撼。

姑且把這種「只可意會,不可言傳」的感覺,定義成量化指標的能力稱作「資料科學的藝術面」吧!至於這種資料科學的藝術細胞要怎麼培養,我覺得天文學家在這方面的功夫非常了得,好比七個最基本的物理單位當中最有趣的時間單位 (秒)。如何度量「時間」這個概念,最早可能是由「太陽日」的概念開始,又分成白天、晚上,再來是 24 小時,最後定義秒為太陽日的 1/86400,現今採用更精確的銫原子鐘來定義。

從自身的經驗出發,透過不斷地觀察、假設與實驗,逐漸累積成果。光是量化時間,人類就花了數千年,至今尚未到盡頭。從這個觀點來看,量化人心這件事雖然艱難,但也不是一件不可能做到的事,一步一步累積囉。

>> 圖片取自:www.progressiveimpact.org

Leave a Reply