名家觀點/別讓大數據變玄學

大數據這詞近幾年在台灣蔚為風潮,明明是個經世致用之學,不知為什麼成了玄學,許多首長及專家談了又談,從其潛力、妙用,談到如何幫企業賺錢,改造社會,以及如何成為台灣產業發展的契機,但就是沒什麼人老老實實地分享他們做了什麼、怎麼做、又造成什麼實質的影響。就像網路上廣為流傳的一幅漫畫,形容大數據就像青少年對性的態度(teenager sex): 「每個人都在談,其實沒有人知道怎麼做;大家以為其他人都在做,所以只好宣稱自己也很懂」。個人近幾年投身資料科學/大數據的推廣,各種因大數據而生的怪現狀看得特別多,且讓我來談談。一是「詞的誤用」。對於詞彙的懵懂,最容易表現在詞的誤用上頭,例如「這個問題可以用大數據來解決」、「用大數據分析就可以知道為什麼民間薪資倒退」是十分常見的說法。事實上,大數據是一個領域,是許多科學學門及技術的集合,並不是一個特定的技術或工具。我們不會說「這個問題應該用電腦來解決」,因為電腦科學這領域太廣,說了等於沒說,而會說「機器學習(或訊號處理) 裡頭的什麼方法可以用來解決此問題」。大數據是個比電腦科學更大的領域(還包含統計學及領域知識等),把領域詞作為技術詞來用,代表說話的人並不瞭解大數據的內涵。二是「詞的誤解」。大數據指的是因應過去技術平台無法處理大量、快速產生、無結構性或需要即時回應的資料所衍生的新一代技術的集合。並不是數據量要大,要海量,才能有價值。有人曾問我「是否因為台灣太小,產生的數據量不夠大,所以無法推展大數據?」並不是的,大數據所包含的科學及技術,並不妨礙小數據或中數據的使用,且衍生的價值與資料量並沒有直接關係,不應以資料量的規模來評估資料分析的潛力。三是「放話就贏了」。一些公司在媒體發新聞稿,表示公司成功導入大數據改善企業體質/流程/產品/行銷等等;但記者想要進一步採訪細節時拒訪,邀請技術分享時不願出面,同時私底下尋訪資料分析專家來幫忙。起因可能是在台灣並沒有技術分享的風氣,因此只要出面喊話,就等於搶先同業一步,反正就跟某些標示為有機的食品一樣,事實無從查證。我們說要效法矽谷的創業環境,卻完全沒有學到那邊的分享風氣,例如常可看到Google、 Facebook、 Airbnb、 Uber等矽谷科技公司員工出來分享他們在大數據應用的進展,國內偶有分享場次,場場爆滿。上回我邀請Google深度學習專家在中研院演講,800張票3分鐘內索取一空;但這幾年從來沒有見到國內大型公司願意讓他們的員工出來做實質的技術分享。大數據是個經世致用之學,若對你來說仍是個虛無飄緲,好像很厲害,什麼都可以解決,或好像要投資個幾億元幾千萬元才能有回收,建議換個老師/顧問吧。好老師及壞老師怎麼辨別?很簡單,用「細節測試法」:請對方列出他在數據分析專案內親身進行的成功/失敗步驟,列不出20項具體細節者,所謂的功力大概不是從別人的書上學來,就是從下屬繼承而來的。(作者為中央研究院資訊科學研究所研究員、台灣資料科學協會理事長陳昇瑋)

新聞出處---http://udn.com/news/story/7238/1548141





創作者介紹

黃麗玲

f3mattie19738 發表在 痞客邦 PIXNET 留言(0) 人氣()