黑客松Hackathon的概念是讓hacker在48 小時內像極限馬拉松一樣,燃燒自己的頭腦與體力,想出一個好的題目並利用code demo出來。而後衍生出了許許多多各式的競賽主題,如:Datathon (Data + Hackathon)、Eduathon (Education + Hackathon)。從去年二月開始轉換跑道後,我參與過多次 Hackathon,有得過獎、也曾在初賽被刷掉,但每次的經驗都讓我開闊眼界、成長不少,成為Business Analyst後,更是讓我確認Hackathon是個很棒的練功房!甚至還有機會賺錢?因此我想分享我認為你要參加Hackathon的原因,尤其是想轉換跑道或是剛學習資料科學的你。

2019 Open Data Contest Silver Prize。圖/Ryan2019 Open Data Contest Silver Prize。圖/Ryan

找工作之前要先有工作經驗!

應徵時,公司都會希望應徵者有工作經驗,因此除了實習之外,Hackathon也是一種在學習階段可以累積經驗的辦法。有些比賽是報名後到現場組團、公布題目,兩天內生出一個Demo,但更多的是,先提出想法、提案,報名初賽,審核篩選後再到現場做最後修改與上台簡報的準備,因此從報名討論構想到發表提案,中間通常有2–3個月的時間實作,競賽結束後,若可以根據評審的回饋,加以修改、完善,不論得獎與否,都會是能為履歷增色的好作品。

現在,程式語言的使用能力不斷被強調,Hackathon也因應而起的被舉辦,如果你願意的話,幾乎每個月都能找到一場來參加!在找工作或實習之餘,你也可以利用Hackathon訓練下述能力。

提出一個被接受的商業提案

商業分析師的主要職責就是在釐清、定義問題後,透過分析資料發現重要insights,並提供一個在商業上可行、資源上可達成、時效上可延長的解決方案給主管和公司參考。

而競賽的評分條件都常包含技術可行性、商業價值,且Hackathon的籌辦單位或評審,經常都是業界的前輩,提供企業內部的資料與待解決的問題,希望能從與會者的創意與提案獲得靈感或是解決方案,回過頭來加以利用,因此實際工作的內容有許多重疊的地方。

正如實際工作上的資源限制,我們提案前也必須盤點資源,提出一個團隊夥伴(合作單位)在時間內可以完成、能力許可的方案,並能滿足評審(主管、公司)需求,提案通過後(初審),製作MVP(Minimum Viable Product,最小可行性產品)驗證想法。

帶你領略不同的業界資料

想要分析前,需要先有資料。在學習的過程中,不論是線上或是實體課程,老師通常會將資料清理成乾淨、structured table讓你能方便使用,但在現實生活中,資料能有多亂就會有多亂,錯誤方式百百種,如:人工填表失誤、機器故障、甚至提供API的單位本身就沒有好好清理過,因此Hackathon的資料能讓你更有機會體驗清理業界資料的實際過程,觀察、清理、分析。

舉例來說,我曾參加過痞客邦舉辦的Hackathon,清理超過6GB的部落格文章檔案,這次的經驗以前,我只處理過MB等級的檔案,不懂分批處理的概念,直接透過Python讀取就讓電腦當機……。另外,最近Datathon,其他團隊分享處理發票資料的難度,因為每個商家的就算品項相同,名稱也可能不同,如:統一純喫茶、純喫茶,或是同樣的商品有許多名稱,如:紅茶、好喝紅茶、古早味紅茶,甚至還有一些會讓電腦容易誤會的品項名稱,如:鮮奶、牛奶、牛奶多多、鮮奶茶,處理繁複。

砥礪分析技術的磨刀石

Kaggle 上的比賽可以查到tutorial,線上課程可以跟著老師的步驟,但在工作上時常碰到不可預期的錯誤、瓶頸,又或者沒有前例可以參考,需要從零開始發想,因此在個別發想題目的黑客松裡,可以測試自己平常累積的技術、能力,嘗試解決問題,可能是模型的選擇、feature的調整等等,就像以前籃球比賽時,學長都會說:

比賽只能發揮練球 80%的實力,因此平常就應該針對比賽的各種狀況訓練

舉例而言,近期參加了Datathon,為了定義人流的大小,我們將發票數量當成參,並乘上一個隨著距離下降的方程式,再將這個變數正規化,作為Kmeans的重要feature,關於作法的細節可以參考我的個人網站。

另外,我認為兩天的黑客松實作並不會讓coding能力有突飛性的成長,但卻可以意識到自己的不足、與檢核自己近期的努力,並在與評審的互動中、講評獲得重要的回饋。此外,也可以透過其他參賽者的簡報、交流,看看別人的想法與實踐的過程,開闊眼!

回饋永遠是重要的

或許你會覺得參加技術黑客松的都是大神?(其實得獎的才是),但身為初心者更應該參加。經驗不豐富或入行不久,是不是常常有了做side project的念頭,卻不知從何開始?Hackathon有主題和方向,能夠幫助我們聚焦發想範圍,製作Demo的時候,透過評審、現場與會者的反應、回饋,能更有意識的發現自己作品的商用化的困難或技術上的不足,重新檢視再繼續努力,如果有機會,甚至可以認識到許多志同道合的朋友,幫助自己在資料科學領域中發展,找到工作!

最後,祝福各位資料乾淨無比!