大數據需要你的基本理解(一)
來源:黃潔慧 資深傳媒人、慧科大數據分析顧問 2021.03.08
在大數據中,應如何理解「熱度」及「受歡迎」呢?
首先得明白,這兩個是不同的概念。「熱議」是中性指標,純粹反映關注和討論程度 – 對了,你留意到了,「關注」和「討論」本身又是兩個概念:我把自己跟自家烹調的愛心牛扒照片,放上社交媒體,收穫了50個LIKE和70個心心,那些是「關注」,是社媒友好甲乙丙路過的一剎那表態,但「討論」牽涉內容,是當覺得有限表情符號不足以抒心中所想時,透過行動(留言)表達想法。這當中需要更多投入,也包含更多內涵。許多人只給LIKE不留言,同樣地,留言者亦不一定補上表情符號;還有第三類反應,以SHARE (分享)轉發帖文(連帶留言一同轉發),作為參與議論的方式。
回到上段最初:所以,「熱度」不只是多少LIKE、多少嬲嬲、多少心心的簡單數指頭,而是整體網上互動行為的反映;同時,基於投入程度的深淺不一,單純以1:1:1的比例去理解EMOJI、留言、分享這三種用戶,也顯然不準確。舉例說,明星A自拍性感照,收穫了1500 LIKE、150留言、50分享;高官B說了一句話,收穫了600 EMOJI、480留言、200分享;以互動總量計,明星A得數1700,高官B得數1280,難道說,明星A的「性感照」,比高官B的言論更熱議、更惹火嗎?顯然不能這樣比較。以學術語言說,明星性感照引起更多的EMOJI反應,只屬「weak ties」,投入程度不及花時間打幾行留言。
這就是為甚麼計算「熱度」時,不能只簡單把互動量加上,否則數據所反映的意義必有偏差,以之比較、指標用途,也必然有誤。解決方法,是由統計學專家根據過往數據,建立運算程式,以求更準確反映三種不同互動形式綜合呈現的熱議程度。
這就跟我們平日所理解的大數據不同了。我們許多人平日所理解的大數據,只是一堆原始數字,最大特色只是數量足夠多、足夠「大」而已。但這種理解實際上忽略了社交用戶不同行為的特質,及其背後反映的含義,有機會造成誤讀。說到這裡,我想起一個近期常見例子。
近年,數據新聞成為新興報道種類,這除了歸因於大數據應用漸次普及外,也因為有平台開放資源,讓編輯獲取數據更便利。其中一個常用數據,就是網絡熱搜次數。去年七月底,特區政府為應對疫情,實施全日禁堂食,引起熱議,有網民認為措施令打工仔很為難,戲言「要識光合作用先維到生」。有傳媒捉著相關留言,用「堂食」及「光合作用」到網絡搜索引擎查看,得出熱度急升的結論。
表面看,這結論很符合一般人的認知,事實上,我相信當天人人的社交平台都被禁堂食消息洗版。然而,當我翻查慧科大數據庫時,卻發現「禁堂食」是熱議話題沒錯,但「光合作用」卻沒有登上熱詞榜。這難道說其中一方數據有誤嗎?
並非如此,而是兩組數據所反映的層次,有所不同。網絡搜索引擎反映的是「搜尋」熱度,如果用家心中本來沒有相關概念、說法,或者沒有意識去了解相關話題,便不會用引擎搜索。慧科大數據計算的,是社交媒體上所有互動行為,用戶甲乙丙丁戊的社交媒體圈中,若有人主動提及「光合作用」,他們也討論幾句,便能從大數據庫中反映出來,但假如當中沒有人有「光合作用」的想法,或不認同、不關心這話題,不發帖,那麼,甲乙丙丁戊能留下「光合作用」的機會自然也減少。
換言之,網絡搜尋數據反映的,是一班有心人的熱議詞組,而慧科大數據反映的,是整體社媒用戶的熱議話題分佈。套用在全日禁堂食這話題中,反對措施的人,對「光合作用」這熱詞特別關注、特別敏感,但當天有更大比例的用戶,對「光合作用」的共鳴不高。
這樣的分析結果有何實際應用意義呢?有。假如當日有需要作公眾溝通,先了解一下大數據的熱詞結果,可更有效針對特定受眾,擬定合適、有效的溝通要點及用詞。正如著名政治分析家Frank Luntz的暢銷書《有效溝通》(”Words That Work)的副題所說:It’s not what you say, it’s what people hear(不是你說了甚麼,而是別人聽了甚麼),若要達到有效溝通,還是得靠那句二千幾年前的名言:「知己知彼」;社媒年代,人人表態唯恐怠慢落單,本造就了上佳「知彼」平台,但尚需深入理解社媒各種功能及平台特質,務求分析準確、減少偏差。
好了,一千幾百字還在談論「熱度」,那麼「受歡迎度」呢?兩者數據能互換嗎?若否,大數據又當如何詮釋「受歡迎度」?對於政商應用有何啟示?下次再談。