近年來,隨著互聯網、計算機的飛速發展和技術進步以及人工智能軟硬件技術的發展和廣泛應用,數據作為記錄各種人類活動的一種重要資源而呈現出爆發式增長,而從海量的、非結構化的數據中獲取、處理、分析、挖掘其中有價值的信息成為國內外政府、企業以及學術界的關注焦點。2015年國務院印發《促進大數據發展行動綱要》,首次從國家信息化發展的戰略層面認定數據是國家的基礎性戰略資源,大數據成為提升政府治理能力的新途徑。2016年生態環境部(原環境保護部)印發《生態環境大數據建設總體方案》,開啟“互聯網+生態環境”戰略,推動政府環境治理創新。
因此,大數據逐步成為環境治理的重要戰略資源和政府提升環境治理能力的重要手段,發展數字經濟也成為可持續發展的重要方向,同時,對于推動生態環境治理能力現代化和加快生態文明建設進程具有重要意義。其中,云主機,非結構化的文本大數據作為一種新的數據源,也是最重要的信息載體之一,往往帶有明顯的領域特征和獨特的語言模式,也常常包含大量的專業詞匯,能夠為環境治理問題提供有效的信息和獨特的分析視角。例如,文本大數據可以用于測度環境政策的不確定性、量化媒體關注度以及輿論導向、不同環境治理主體的情緒對相應問題解決方式的影響、基于新聞的隱含波動因素等。
一、文本大數據的主要特征
傳統的數據收集往往借助于紙質媒介,體量較小,數據獲取成本高,獲取時間相對滯后;而通過互聯網媒介進行文本數據收集和處理,不僅成本大幅降低,數據的可得性大幅增加,數據的體量也呈現幾何級數增長的特征。同時,隨著網絡平臺發布信息普及度的提高,除了傳統的政府職能部門和相關機構發布信息之外,微博、微信公眾號、朋友圈、論壇帖子等新媒體形式也逐漸成為數據來源的重要渠道,文本大數據的發布主體從單一向多樣化進行轉變,頻率變得更高。通過互聯網平臺積累起來的數據,就存儲在網絡空間中,文本信息即刻在網絡中留下痕跡,通過一定的方法和技術進行提取,信息獲取更加及時,數據獲取的成本也相對降低。通過利用互聯網大數據信息,可以獲取接近全體的樣本信息,海量的樣本量支持下,避免了由于信息不全面導致的錯覺以及判斷失誤,未來還將開拓更為豐富的數據源,如政府工作報告、規劃、書籍、檔案等。
二、文本大數據提取的重點和難點
文本數據是信息的抽象提煉,正是由于海量文本數據信息的存在,獲取、處理和分析文本大數據方面仍然存在一些問題,其中最重要的是如何準確并且有效率地從海量文本中提取出所需要的核心信息,并考察其對相應問題的解釋或預測能力。提取文本數據信息需要綜合考慮文本數據的來源、語言環境、內容長短、句式結構以及需提取信息的特征等因素,同時也要考慮信息提取的成本和收益。在條件允許的情況下,可以采用相對復雜的統計學習和深度學習相結合的信息提取方法來提高信息提取的準確性,亞洲服務器,優化人機合作成為解決困難的重要方式。使用復雜方法時還需要保證這些方法的透明性和可復制性。最后還要注意的是,數據的結構化轉換和文本數據信息提取這兩步的執行順序需要依靠具體問題來決定,有時需要經過多次嘗試才能找到最佳方案。
現有環境領域文本相關分析的問題主要有兩大類,一是區分文本顯示的公民的情緒正負、新聞或者文件語調正負等聚類問題,二是對情緒、不確定性、恐慌程度、意見分歧程度的度量以及相應的回歸問題。
1.文本情緒
因為情緒的變化可能會導致問題處理的結果不同,度量情緒并預測風險是文本大數據在環境治理領域的重要應用方向,典型的例子是鄰避效應。通常用“語調”來表示“情緒”,語調的不同表示了情緒的正面和負面、樂觀和悲觀、積極和消極等。根據情緒的不同主題,文本情緒的研究對象主要包括媒體語調(媒體新聞)、管理層語調(當事公司管理層討論與分析、環評報告以及其他公開披露的信息文件)、公民情緒(網絡論壇發帖)等。
媒體情緒度量媒體報道內容中包含的樂觀與悲觀情緒。通常來看,媒體負面語氣能夠解釋鄰避問題的風險和解決方案,但正面語氣卻沒有解釋能力。
管理層的信息披露往往能反映管理層的決策和意圖,信息公開不全面、甚至相關信息空白,環評報告獨立性存疑,相當于利益集團放大了鄰避效應,無助于問題的解決。