算法工程師與數據科學家的差異-講座心得|思維增長EP38

前陣子聽到《尹相志 — 算法工程師與數據科學家之間的距離 (DATA)》的講座,數據科學家在意什麼?如何運用數據?如何成為好的數據科學家?這篇隨筆記錄一下講座的數據思維和模型思維。

▍思維增長是什麼?
這裡記錄各種有趣的生活小知識,不限於商業上的經濟學、或工作上的心理成長。

▍誰適合看這篇文章?
✔ 對於思維增長、數據科學、數據思維有興趣的朋友

一、數據科學講座在聊什麼

尹相志講師目前是亞洲資採技術長 / Deepbelief.ai人工智慧科學家,在網路上也有超多的講座影片和經歷。

看完這支影片我認為有三大收穫:

  1. 如何運用數據?
  2. 如何看待模型?
  3. 如何團隊協作?

二、如何運用數據,以電信業為例

Q:「電信業如何預設客戶會離開?」

電信業的數據很龐大,如果是要預設下個月有哪些客戶會走,每個月的歷史紀錄大概要到隔月的 5–8 號才會拿到,接著數據科學家進行資料解析整理,再丟進模型產生名單可能就 15 號了,而現在因為個資法,出來的只有 Key 值,因此需要再送回電信公司進行身分比對、傳到各客戶單位,大概就 20 號了。

先說結論,客戶在合約 24 個月時會不會離開,需要第 18 個月就要知道(提前 6 個月讓行銷能夠提前進行推廣、挽留、續約)。

以電信業來說,客戶離開有兩個原因:

  1. 不想跟現有電信業有往來,想換別家電信
  2. 單純沒繳每月租金而被停號(風險客戶)

那若要分析電信客戶,客戶資料怎麼抓:

  1. 員工號碼:要先排除掉,因為基本上不會走
  2. 未開卡:一定會走,也不需要分析
  3. 三個月內的:因為帳戶超過 3 個月才會有業績獎金,因此有些是假業績
  4. 企業用戶:模型要預測通話行為會不會影響留下的意願,而企業用戶的個人行為不會影響會不會留存,因為是由採購決定的

小結:有些模型產出的結論是已知事實,因此我們必須先扣除無用數據,要懂產業 Knowhow,才能把問題解決掉。


三、如何看待模型

在多數商業問題內,可控的模型、可監控的參數是重要的,若全部透過神經網路,黑盒子發現問題的時機點通常較慢,因為最大的風險是不知道模型什麼時候會失效。

普通的模型和好的模型差在哪?可以從法醫跟名醫差別來聯想:

  • 法醫:根據身體傷亡,對死者進行人身鑑別、外傷鑑定、遺體解剖等,準確率很高。
  • 名醫:根據身體現況,進行病理預測,準確率不一定高,但有價值。

仰賴模型前有幾個準則:

  • 預測一群人的數值,比預測一個人精準
  • 預測相對數值,比預測絕對數值精準
  • 定義分析目標永遠要做最小拆解
  • 不要迷信端到端的模型,適時採取兩步驟策略
  • 謹記 80–20 法則,80% 銷售來自於 20% 商品

小結:準確的模型不一定有用,我們應該追求模型帶來多少效益;模型重點不在於完全精準,而是要能夠改變未來,讓公司降低損失、提高獲利。


四、如何團隊協作

算法工程師和數據科學家的差異是,前者只要做好模型讓他們使用,但後者不僅要會模型,更要懂產業 Knowhow,藉由問對的問題、挖掘對的方向、把問題解決掉。

以不同產業的團隊協作例子:

  • 零售業:模型不只是要預測銷售量,還要加入物流時間,確保存貨能在正確時間抵達,不會造成過多或缺貨。
  • 電信業:模型不只是要知道客戶會什麼時候不續約,還要結合業務團隊,在適當時機點挽留客戶。

做數據科學,需要準備的心態:

  1. 數據處理:永遠都會遇到髒數據,需要從中找出潛在解法,甚至跟客戶說明如何蒐集正確的數據也是一種貢獻。
  2. 時間觀念:要確保大家溝通的情境是同一個時間點,例如「業績很低」究竟是哪個月的業績,若沒有對齊時間,就無法得到正確推論。
  3. 產業差異:電信、保險、金融這種長生命週期才有機會長時間建模分析,電商產業需要用手邊即時數據進行判斷處理。

小結:每個產業都有複雜的商業邏輯和對應的 Knowhow,當我們覺得問題很簡單或數據很奇怪,很有可能是我們根本不懂產業 Insight。


五、總結

若對《思維增長日記》有興趣,可以再往前翻:

分享文章至: