其他

轉載《香港經濟日報》【張Sir講數】專欄文章——(四)大數據要講結構化

2017-06-06 易研数据
 

來源:《香港經濟日報》

 

亞太區互聯網研究聯盟主席

香港源大數據首席顧問

張榮顯 博士


在「大數據」(big data)一詞尚未成為坊間熱詞之前,其實各種各樣的數據已經無處不在,例如常見的是政府定期公布的人口及經濟數據,如出生率、失業率、GDP等,這些乃通過登記和調查等方法收集回來後再進行加工計算處理的數據。再來是各行各業的顧客、貨品和交易數據,如電商平臺上形形色色的商品資料、價格、交易數量及金額;又如通訊領域的通話時長、信用卡的卡主和交易明細等等,這些多數是行爲的結果所産生出來的數據


自從進入互聯網時代,人們在網絡上的一舉一動,如一個滑鼠點擊或一個鍵盤字母的敲打,都被記錄在提供網頁的伺服器的日誌裡,形成了龐大的實時不斷積累的數據;當人們走進圖書館借書或去機場檢查行李,處於什麼位置或出現在那裡,都逃不過RFIDGSP定位技術CCTV攝像機的法眼,大量的數據因此而生成。如果以上數據反映著人們的行為,那麼,每天在社交媒體上點一個讃、發一聲歎息、上載一張食相圖或拍一段閱後即焚的生活短片,就是用數據描繪了人們的喜怒哀樂狀況


從上面提到的加工數據到最後的社交數據,用「大數據」時代的術語來形容的話,就是從「結構化」到「非結構化」的數據


所謂「結構化」數據,就是那些可以整整齊齊、有條不紊地排列起來的數據。舉個簡單的例子,幾乎人人都見過的Excel表格,裏面的每一筆資料都有固定的欄位、固定的格式、固定的順序甚至是固定的長度。比如一個簡單的員工資料表,包括幾百位員工的編號、姓名、性別、出生日期、薪酬等等,都是以行和欄交叉組成的儲存格記錄下來,這些資料可以用數字來表示,幷且可以進行加减乘除的計算。對於「非結構化」數據而言,顧名思義,它是「沒有」結構形態的,例如在Facebook上發一段讚歎某菜色的文字,配上幾張垂涎欲滴的精美照片,它既沒有欄位,也沒有固定格式,更不能馬上轉換成數字而進行算術計算


為什麼我們需要搞清楚數據的結構形態呢?這涉及到要讓大數據發揮作用和產生價值的問題。首先是能否把雜亂無章、亂作一團的數據整理成井然有序的數據,這樣,我們就可以按照一定的規則或算法來進行後續的處理和分析。過去,很多數據都是在既定的規則下先設計好各種格式,然後把收集回來的數據填充上去,例如商業智能(BI)産生的報表和儀錶盤(dashboard)數據。然而,大數據時代,那些網絡使用日誌、傳感器收集的定位及影像資料、社交媒體上的文字、圖片及影片,是隨時隨地、實時地、不可預測地湧現,此時,必須通過收集後再整理成結構化的方式,才能真真正正地把數據活起來


把大數據「結構化」,就是為數據創造價值奠下基礎。


查看張博士往期文章:

《香港經濟日報》-【張Sir講數】大數據要講質量

《香港經濟日報》-【張Sir講數】大數據要講身段

《香港經濟日報》-【張Sir講數】大數據要講價值

香港《信報》-綠色低碳的智慧城市之夢

香港《信報》-智慧城市應以人為本

香港《信報》-智慧城市與大數據



點擊下方“閱讀原文”查看:《香港經濟日報》-【張sir講數】大數據要講結構化


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存