轉載《香港經濟日報》【張Sir講數】專欄文章——（三）大數據要講質量

其他

轉載《香港經濟日報》【張Sir講數】專欄文章——（三）大數據要講質量

2017-05-25 易研数据

來源：《香港經濟日報》

亞太區互聯網研究聯盟主席

香港源大數據首席顧問

張榮顯博士

全文如下：

大數據的價值，可以體現在其可實時記錄、累積、可計算、可追蹤和可重複利用的特徵上，於是很多人就自然而然地對大數據形成了一個刻板印象：數據愈多愈好，數據量足夠大的話，就可以做結論。

數據是否愈多愈好呢？Google.org曾經推出過一個線上的流感預測平台 -- Google流感疫情趨勢 (Google Flu Trend, GFT），其操作原理是使用經過匯總網民在Google搜索與流感相關的5,000萬個關鍵字，通過算法計算來預估流感疫情，並與美國疾病預防控制中心（Centers for Disease Control and Prevention，CDC）的已知流感發病率監測報告做對比。有學者研究發現，從2004年到2009年，GFT上的數據與CDC的數據驚人地一致；於是出現一些論調，認為利用算法便可以得出與CDC一致性的預測結果，我們從此無需再尋找現象背後的原因，只需要知道兩者之間有統計相關性就可以。

後來，有學者發現，2013年的GFT預測數據兩倍於CDC的報告數據。從初期高度的一致，到後期出現的倍數誤差，學者認為很有可能是關鍵字中出現過多的垃圾信息所致，因為很多關鍵字看似與流感相關，但實際上却無甚關聯，也就是「僞相關」。例如，當中出現「美國高中籃球比賽」和「流感」相關搜索頻率和時間分布十分匹配，於是導致籃球擁躉容易被當作流感患者。或許基於此原因，GFT已經在2016年停止在網上發佈預測數據。

當前，在文本大數據領域利用關鍵字來進行數據搜集和分析，是最普遍的做法。例如很多輿情監測及品牌監測的圖表分析結果（常見的是詞雲圖）和報告，都是基於關鍵字來實現。張Sir根據多年來的實戰經驗，實在要作出呼籲，在使用「關鍵字」時，必須小心進行多番測試，盡可能建立一套嚴謹的數據清洗機制，以確保後續分析的工作，是基於高質量的數據集，而不是混雜了大量不相關的垃圾(噪音)數據。

順便舉個例子。在特首選舉期間，張Sir也跟風與團隊一起，對網民在網上發表的候選人意見進行了系統性的數據收集、清洗及分析。過程中，在利用關鍵字時，我們採取「概念」的做法，例如把某候選人的名字視為一個概念，其涵蓋的關鍵字可包括綽號或「花名」。同時，亦要通過重覆檢測，排除其他有可能誤判為香港特首選舉及與某候選人相關的噪音，再在大數據挖掘平台上進行有監測性的清理，以確保最終用以分析的數據，具有高度的代表性及相關性。

還是那一句，大數據不是鬥「大」，數據質量才關鍵。

點擊以下鏈接閱讀原文：《香港經濟日報》專家專欄文章——【張Sir講數】之三：大數據要講質量

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

豪放女乘客扯掉裤子当场“硬要”，的哥乖乖“束手就擒”……

为什么京东员工强烈推荐京东plus会员不要直接在平台上买东西？

别太贪婪，这些技能让你一辈子满足