其他

轉載《香港經濟日報》【張Sir講數】專欄文章——(三)大數據要講質量

2017-05-25 易研数据
 

來源:《香港經濟日報》

 

亞太區互聯網研究聯盟主席

香港源大數據首席顧問

張榮顯 博士



全文如下:


大數據的價值,可以體現在其可實時記錄累積可計算可追蹤可重複利用的特徵上,於是很多人就自然而然地對大數據形成了一個刻板印象:數據愈多愈好,數據量足夠大的話,就可以做結論。


數據是否愈多愈好呢?Google.org曾經推出過一個線上的流感預測平台 -- Google流感疫情趨勢 (Google Flu Trend, GFT),其操作原理是使用經過匯總網民在Google搜索與流感相關的5,000萬個關鍵字,通過算法計算來預估流感疫情,並與美國疾病預防控制中心(Centers for Disease Control and Prevention,CDC)的已知流感發病率監測報告做對比。有學者研究發現,從2004年到2009年,GFT上的數據與CDC的數據驚人地一致;於是出現一些論調,認為利用算法便可以得出與CDC一致性的預測結果,我們從此無需再尋找現象背後的原因,只需要知道兩者之間有統計相關性就可以。


後來,有學者發現,2013年的GFT預測數據兩倍於CDC的報告數據。從初期高度的一致,到後期出現的倍數誤差,學者認為很有可能是關鍵字中出現過多的垃圾信息所致,因為很多關鍵字看似與流感相關,但實際上却無甚關聯,也就是「僞相關」。例如,當中出現「美國高中籃球比賽」和「流感」相關搜索頻率和時間分布十分匹配,於是導致籃球擁躉容易被當作流感患者。或許基於此原因,GFT已經在2016年停止在網上發佈預測數據。


當前,在文本大數據領域利用關鍵字來進行數據搜集和分析,是最普遍的做法。例如很多輿情監測及品牌監測的圖表分析結果(常見的是詞雲圖)和報告,都是基於關鍵字來實現。張Sir根據多年來的實戰經驗,實在要作出呼籲,在使用「關鍵字」時,必須小心進行多番測試,盡可能建立一套嚴謹的數據清洗機制,以確保後續分析的工作,是基於高質量的數據集,而不是混雜了大量不相關的垃圾(噪音)數據。


順便舉個例子。在特首選舉期間,張Sir也跟風與團隊一起,對網民在網上發表的候選人意見進行了系統性的數據收集、清洗及分析。過程中,在利用關鍵字時,我們採取「概念」的做法,例如把某候選人的名字視為一個概念,其涵蓋的關鍵字可包括綽號或「花名」。同時,亦要通過重覆檢測,排除其他有可能誤判為香港特首選舉及與某候選人相關的噪音,再在大數據挖掘平台上進行有監測性的清理,以確保最終用以分析的數據,具有高度的代表性及相關性


還是那一句,大數據不是鬥「大」,數據質量才關鍵。


點擊以下鏈接閱讀原文:《香港經濟日報》專家專欄文章——【張Sir講數】之三:大數據要講質量


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存