在計算社會科學的發展進程中,多種形態的大數據類型不斷涌現,比如書籍文本大數據Google Books、網絡百科大數據Wikipedia等。在眾多的大數據類型當中,以Twitter、Facebook以及在線新聞輿情信息匯聚成的輿情大數據,構成計算社會科學的重要觀測對象。本文試圖就輿情大數據的主要特征及其在社會科學領域的應用場景做簡要分析。
輿情大數據第一個重要特征是其話語屬性。文本的內容表達了各種各樣的觀點、態度和立場,這些歸結到一點,實際上就是話語,即各種各樣的社會主體,香港免備案主機,基于其立場,表達各種各樣的意見和看法。因此,話語分析應該是輿情大數據分析的第一層重要含義,借助于輿情大數據的高維屬性,對文本進行話語分析,呈現話語背后的立場與觀點、不同話語主體之間的交鋒與博弈、不同話語的聲量大小與社會影響等等。
在中國崛起的時代,可以分析西方政治話語與中國話語之間的博弈,還可以分析西方話語的建構邏輯,以及如何尋找西方話語的破解之道。對于中國話語,我們則可以分析中國話語的國際影響力,以及如何進一步講好中國故事、建構中國話語。
話語分析的方法多種多樣。從簡單的主題分析、語義分析到詞叢與搭配分析等,借助于這些技術,我們可以對文本表達做一些初步的分析;而借助于向量空間模型,比如說借助于詞向量模型,可以對話語中的關鍵特征所嵌入的語境深入挖掘;借助于句向量空間模型,則可以對話語的類型進行分類,呈現話語的結構。
輿情大數據的第二個重要特征是其情感屬性。輿情者,情緒也。輿情信息中,總是會充斥著豐富的情感表達,這是由輿情信息的屬性所決定的。一方面,就新聞輿情而言,輿情需要與受眾 “同呼吸、共命運”。輿情數據的一個重要特征就是共情,只有這樣,輿情信息所表達的喜怒哀樂,才能與大眾的喜怒哀樂保持共振,輿情才能夠影響社會,才能夠吸引觀眾。因此,在線新聞輿情信息的一個重要特征就是其情感屬性。另一方面,就社交媒體信息而言,社交媒體的主體部分是大眾直接在社交媒體上表達所思所想、生存狀態與生存方式,在這些自我表達中,也往往是有感而發,分享的是或喜悅、或憂傷、或震驚、或憤怒的情感。
正是因為無論是新聞媒體信息,還是社交媒體信息,都富含情緒表達,因此對輿情大數據進行情感計算,就成為一項非常重要的任務。這些年來,自然語言處理領域的情感計算技術飛速發展。從最初借助于LIWC、WordNet等情感詞庫開展情感詞頻統計,到現在基于機器學習和BERT模型等開展情感的精細描述,多種多樣的情感分析技術在飛速發展。就情感計算的內容而言,從最初計算正向和負向情感這樣的初級分類,到現在可以計算喜、怒、哀、樂、愛、懼、憎等基本情緒。隨著情感計算技術的進一步發展,未來進一步計算更加具體的情緒,比如羨慕、嫉妒、恨等都是大有可為的。正如李飛飛所言,人工智能的發展,在經歷了“視覺計算”之后,下一個發展的重點就是情感計算。對海量的非結構化文本信息和圖像進行情感計算,正是自然語言處理領域飛速發展的重要方向,而這為與情感計算相關的科學研究提供了堅實的技術支撐。
輿情大數據第三個重要特征是其傳播屬性。輿情大數據的受眾和生產主體都是大眾,信息、話語或者情緒的傳播,構成輿情的一個重要景觀,而某種話語或者觀點在網絡空間或者社交媒體空間能否傳播開來,很大程度上取決于其傳播屬性。社交媒體平臺上涉及非常豐富的傳播現象,傳播的要素不僅僅包括話語,還包括情緒的傳播與擴散,比如疫情期間的恐慌情緒傳播。縱觀這些形形色色的傳播現象,我們可以發現,絕大多數傳播信息最終是在浩瀚的信息海洋中歸于寂滅,但也有一些有傳播生命力的傳播要素最終擴散開來,形成滔天巨浪。這里的關鍵問題在于,決定一些傳播要素的傳播力、傳播景觀的因素究竟是什么?比如說民粹主義思潮,為什么這些話語一時席卷全球的網絡空間,構成了改寫歷史的重大社會思潮?再比如,有哪些力量在操縱著網絡空間的信息傳播?資本、政府、社會組織等利益主體在其中扮演著怎樣的角色?
分析輿情傳播特征的方法也多種多樣。既可以從經典傳播學的5W模型出發,描述信息傳播過程與傳播效果,也可以從網絡分析和復雜網絡分析的方法出發,分析社會網絡和社會結構如何塑造信息傳播的景觀。