2014年6月12日 星期四

2014 2015 左永安顧問 安永經營管理商學院 EMBA 台灣百大講師之首 職能基準 職能認證課程 共通核心職能 TTQS 人力資源 創業百萬小學堂 台灣大學 和君 品牌 創新研發中心 品質 卓越經營 Big Data Amazon Web Services(AWS)



每次有人談論甚麼是 Big Data,幾乎都有人會引述這一名句。業界人人都在談 Big Data,媒體也在天天報導,於是人人都相信不能不搞 Big Data ── 不過怎麼搞,卻不是很多人在提。其實數據挖掘、商業智能並非新鮮事物,Big Data 只是更大規模地進行,而且原理更可以簡單得,連一個普通大學生都做得到。今期專訪了由香港專業教育學院幾位年青學生和講師組成的 Data-HK 團隊,讓讀者了解一下甚麼是真正的 Big Data。
Data-HK 是由一班 IVE 學生組成的團隊,黃俊彦講師則是他們的顧問。
Data-HK 是由一班 IVE 學生組成的團隊,黃俊彦講師(藍衣)則是他們的顧問。


“Big Data is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it too.”── Dan Ariely.


大數據分析人人都做得到
數據爆發增長、零散數據、即時數據分析、社交輿情收集、垃圾數據……關乎 Big Data 的報導,幾乎都會涉及很多科技名詞,很多人都產生一種印象,就是 Big Data 是很高深的科技,而且投資很大、很難用。但這種觀念完全是錯的,透過簡單工具收集網路上的免費數據,把數據整合為有價值的數據庫作綜合分析,分析亦只需從 Amazon 租用運算能力,實際用到的資金可能連一千港元都不到!
匪夷所思?其實不然。如果不是有實際活生生案例在前,筆者可能還有疑惑,但當香港專業教育學院(李惠利)分校的黃俊彦講師和一班 IVE 同學,實際向筆者展示他們的 Big Data 應用專案時,卻又不得不承認 Big Data 並不是大家想像中那麼複雜。「其實數據全部都是公開的,統計的方法也簡單得很,一直只是沒人去做,或是沒法大規模去做。有了 Amazon Web Services(AWS)後,其實人人都做得到!」黃俊彦說。

統計 IT 招聘廣告關鍵字
曾任職於某大招聘網站的黃俊彦講師,來到 IVE 教書後仍然關心 IT 就業的問題。「IVE 不同於一般大學,很強調學生畢業後能否立即投入業界工作,很看重畢業學生的就業率。如果教一些他們根本用不著,或是市場上沒有僱主有興趣的技能,只是浪費學生時間,所以我們一定要清楚僱主想找哪些技術專才,哪種技術之間的配合最受僱主歡迎,然後按此來編排教學計劃。」他說。
因為有如此實際的要求,因此黃俊彦用 Big Data 來研究 IT 就業市場。他用簡單的程式語言編寫了一套軟件,原理跟 Google 的網路蜘蛛差不多,在香港各大主流招聘網站自動模擬人手點擊,再機械讀取所有 IT 工種的招聘廣告,收集所有出現過的名詞。收集到的資料會放到數據庫中量化分析,從而分析 IT 就業市場現況。
IVE 和黃俊彦講師開發的香港 IT 工廣告數據挖掘報告,可交叉分析各種招聘條件,協助學生就業。
IVE 和黃俊彦講師開發的香港 IT 工廣告數據挖掘報告,可交叉分析各種招聘條件,協助學生就業。

量化分析原理簡單
「其實只是很簡單的計算數目而已,招聘網站全部是公開的,只是無人會走去逐個廣告計數。我可以答到你,有多少工作需要 JAVA、多少需要在中環上班、多少需要大學證書。原來大多數的 IT 工作都要識 JAVA,你能有客觀答案向學生證明要學 JAVA,而不是空口叫他們『不能不學』。而且還可以交叉分析,除了 JAVA 你還要學甚麼?舉個例子,原來招聘 App 開發的公司,一般都會同時要求應職者懂得開發手機網頁。如果你只教學生寫 App 卻不教他寫網頁,那不是害苦他了嗎?」黃俊彦說。
黃俊彦指出,Big Data 只是巨大規模的數據分析工作而已,說穿了就跟以前做數據分析無大分別,分別只在規模大得太多,一般人就算想分析都無辦法。以該 IT 就業分析的專案為例,兩年來收集分析的招聘廣告數量多達數十萬則,平均每 3 小時更新一次。如果靠人手去做,根本就不可能,但原理卻絕不複雜──只是數關鍵字出現過多少次罷了。

運算時間是實際關鍵
傳統統計學往往要靠隨機收集一定數量的樣本,再以此數字投映放大來得出統計結果,實際準確與否其實也難以證明。而 Big Data 卻令統計數據不再只是實驗室數字,而是真正血淋淋的實際數據。因為數據非常貼近真實,因此用以分析趨勢也更加準確,但衍生的新問題反而已不在於準確性,而是運算時間。
Big Data 著眼的是短期的準確分析,如果分析時間超出時效,那根本無實際意義。黃俊彦以天氣預測為例,只要天文台掌握到所有氣象數據,要準確預測明天的天氣其實不會太難,但問題是如果要用 10 天時間才能以現有的運算資源得出明天的天氣預測,那根本就毫無意義。Big Data 的問題除了在於數據量,用多少時間資源運算也是很重要的,而這問題的答案就是「平行運算」。
黃俊彦以天氣預測為例,如果要用 10 天時間才能得出明天的天氣預測,那根本就毫無意義。
黃俊彦以天氣預測為例,如果要用 10 天時間才能得出明天的天氣預測,那根本就毫無意義。

平行運算攤分運算時間
「我敢說,如果沒有『雲端運算』技術,Big Data 分析的概念也根本不存在!」黃俊彦指出,不是沒有人想過統計所有數據去做分析,但以過去的電腦技術去做的話,也只有超級電腦才做得到,成本太驚人,根本就不切實際。而「平行運算」技術的出現,就令超級電腦變得普及化,而像 AWS 這種按需的雲端運算服務,更令 Big Data 分析完全平民化,任何人都做得到。
平行運算的概念是,如果一個運算工作用一部電腦要用 100 小時才能完成,那改用 100 部電腦一齊做,就可以用 1 小時便能完成。套回天氣預報的例子,如果要用 10 天時間才能分析到明天的天氣,那就用 10 部電腦去分析好了,準確預測明天天氣也變得可能。

Big Data 分析入場費:120 元
假如一個超級電腦等同 100 台普通電腦,那 100 台電腦的成本卻肯定比一台超級電腦來得便宜。可能有讀者會問,添購 100 台電腦的成本同樣不菲,為了一個運算工作而買 100 台電腦也一樣是不切實際。而這就是為何說像 AWS 這類 IaaS 運算能力按需供應商,是實現 Big Data 普及化的重要推手。
黃俊彦表示,Data-HK 收集香港政府在 Data One 上開放的各種開放數據,數據量龐大得嚇怕人,每日的數據多達 2GB。「免費把數據給你用又如何?給你 100TB 的數據,你根本也無從入手做分析。我們試過用一部值 5 萬元、現行運算能力已是高水平的電腦去做分析,但根本唔夠記憶體去運行!最後改為在 AWS 架立一個平台去做,250GB 記憶體、80 粒 CPU,結果只需兩小時便完成分析,成本卻只是 120 元!」
黃俊彦認為,AWS 的出現是令 Big Data 分析能普及化的重要關鍵。
黃俊彦認為,AWS 的出現是令 Big Data 分析能普及化的重要關鍵。

大數據是大衛手中石塊
數據是公開的,運算能力的入場費也便宜得一般人也負擔得起,那 Big Data 的實行能力已得到確認,反而拿來分析甚麼事會比較有意義,就是想搞 Big Data 分析的人該要思考的。其實並不是大公司大機構才需要 Big Data 去協助發展,事實上中小機構只要能掌握 Big Data,隨時可以做《聖經》中打倒巨人歌利亞的大衛。
Data-HK 其中一個專案就是分析香港中學文憑試的英文考試。這個專案已制作了一個免費的手機應用,大家上 App Store 和 Google Play Store 都下載得到。專案做的事其實很簡單,就是集合 22 年來會考、A Level 和 DSE 文憑試的英文科公開試試卷,以自然語言分析技術,計算出一個常用字庫。
「有些人以為英文科要考得好,需要背誦很多英文生字,但其實根本不是。你可以試著去問任何一個坊間的補習天王,看他們誰可以答到你,哪一個英文生字出現最多?Be 的哪一個形態出現得最多?是過去式還是現在式?他們答不到,但我答得到!原來只要掌握好日常字庫的出現形態,比背誦大量生字更實際。這都是 Big Data 分析的力量。」黃俊彦說。

大數據是中小企的競爭力來源
從這實際案例來看,你會發現任何一個普通的英文科老師,都可以有比得上英文科補習天王的競爭力。以前要靠經驗,甚至可能是內幕渠道才能預測到今年的試題,但用 Big Data 卻任何人都有機會預測得到。如果你是一家小型補習社卻掌握了數據,當然有更大機會打贏大補習社,如果套用到任何一門行業也同樣有機會出現打倒巨人的大衛。
「以前可能只有大機構才有這樣的運算能力,他們自然可以用這樣的數據分析優勢來保持壟斷優勢。但當平行運算出現後,人人都有條件搞 Big Data 分析。用一部電腦,單是分析一份試卷都要用上幾小時,但用 AWS 就兩小時已經完成 22 年所有試卷的分析。問題只在於機構是否想得到怎樣去做,要分析甚麼數據而已。」黃俊彦說。

非公開數據才是真正關鍵
看到這兒,相信很多人都躍躍欲試。是的,Big Data 原來可以很簡單,但前題是你能掌握到有價值的數據,與及有基本的 IT 技術去做分析。Big Data 其中一個實際難題是數據非常零散,你要懂得在哪兒找到你想要的數據,才有可能做到分析。舉個例子,原來藍鰭吞拿魚只在大西洋和地中海出現,如果你在印度洋裡找便很難找得到,如果你要找美人魚更可能完全找不到,因為不存在的東西永遠都不存在。
換言之,如果你要搞 Big Data 分析,首先你要確定在哪兒能得到你想要的數據。舉個實例,Data-HK 的 IT 工種分析專案,就只能分析 IT 工作需要的技能,但如果你想知道「IT 創業需要甚麼技能」,你是不能在其中得到真實答案的。
黃俊彦表示,如果風險投資者能夠公開他們收過的計劃書,他便能用同一招式計算計劃書出現過的關鍵字,為學生給出「IT 創業趨勢報告」,但問題正在於這些數據不是公開的。
黃俊彦坦承,要做 Big Data 分析之前,先要確保自己知道在哪兒找到需要的數據。
黃俊彦坦承,要做 Big Data 分析之前,先要確保自己知道在哪兒找到需要的數據。

數據是內功、技術是招式
掌握到多少屬於自己擁有的數據,並能把它們作有效的分析,就是未來機構以 Big Data 增加競爭力時的關鍵所在。公開的數據誰人也能做分析,但機構內部數據卻是只限機構自己才能分析。而這正是為何說,掌握愈多數據便愈有競爭力。
數據多寡就像武俠小說世界的「內功」,你有多少數據就有多少內力。而 IT 技術就是「武功招式」,你要懂得編寫一套系統去收集有用數據,寫一套系統去分開數據做平行運算和綜合結果。武林高手總不能每次都借人內力,整理收集屬於自己的數據庫自然刻不容緩。反而技術層面不難解決,除了聘請具有 Big Data 視野的開發人才外,坊間也有不同方案針對 Big Data 分析市場,但是否能滿足機構的期望倒是看各自的實際情況了。

沒有留言:

張貼留言