2019年6月2日,YOCSEF廣州分論壇、深圳分論壇在廣州大學城中山大學數據科學與計算機學院成功舉辦了“復雜大數據聚類分析的機遇與挑戰在何處?”大灣區IT創新論壇。
本次論壇由YOCSEF廣州AC委員、華南農業大學黃棟博士,YOCSEF深圳AC委員、深圳大學陳小軍博士共同擔任執行主席。廣州分論壇副主席王昌棟博士,廣州分論壇主席郝天永博士深度參與,AC委員韋光、謝光強、李冠彬等參與。論壇共吸引了來自北京理工大學、澳門大學、中山大學、華南理工大學、華南師范大學、華南農業大學、廣東外語外貿大學、廣東工業大學、廣州大學、廣東藥科大學、深圳大學、哈爾濱工業大學(深圳)等十余所大灣區高校、深圳市衛生健康委以及多家知名IT企業的60多人參加。廣州圖普網絡科技有限公司提供了活動贊助。
論壇分為先導報告和討論爭鳴兩個階段。先導報告階段由陳小軍博士主持。王昌棟博士以“多視圖非線性聚類”為題,著重介紹了非線性聚類、多視圖聚類以及多視圖非線性聚類的理論、方法以及相關進展。陳小軍博士以“面向大數據的圖聚類方法”為題,闡述了在大數據場景下的圖模型構建與優化及其在大數據聚類問題中的應用。張曉峰博士以“基于半監督聚類結構調整的分類方法研究”為題,論述了具備自動調整模型結構能力的半監督聚類模型。黃棟博士以“從集成聚類到大規模聚類:有限資源下的大規模聚類問題初探”為題,從集成聚類的若干重要問題入手,進一步將話題延伸至在常規單機環境下可應對千萬級數據的大規模譜聚類及大規模集成聚類研究。
經過先導報告的多角度論述,論壇繼續圍繞“復雜大數據聚類的機遇與挑戰”展開多個相關議題的討論爭鳴。討論爭鳴環節由黃棟博士主持,與會人士針對以下三個議題進行了有理有據、針鋒相對的思辨性正反方討論。
“在大數據時代下,無監督學習的重要性是更為顯著,還是漸漸消退?”“深度學習大步前進,聚類分析與之攜手,還是各司其職?以及各司何職?”“大數據聚類分析,最亟待解決之瓶頸是硬件、是數據、還是算法?”
爭鳴議題一:無監督學習的重要性是更為顯著還是漸漸消退?
廣州分論壇主席郝天永認為,無監督學習的重要性會更為顯著。大量數據的涌現往往伴隨缺乏標簽或者很難去打標簽的難題,比如在醫學領域和金融領域,無監督學習可以在無類標的情況下更好地去解決一些問題,因此“更為顯著”。
華南農業大學黃棟博士同樣站在正方,認為少量標簽信息可能使得無監督模型效果大為提升,但有時候“模型設計得好不好”比“是否加少量監督信息”顯得更為重要。對于一個好的無監督模型,甚至可能在很多數據場景下比一些半監督模型表現出更好的性能,更關鍵的問題是模型本身好不好,從實驗上、從數學上有沒更好的支撐。
王昌棟則站在反方,以中山大學校園卡數據的實際項目為例,在缺少標簽的情況下不同無監督模型得出的差異非常大,后來決定將無監督模型替換為了半監督模型。陳小軍博士也是站在反方,提及此前做過的騰訊金融風控方面數據,規模特別大;僅使用無監督學習的結果,因為沒有類標,非常難以評價,工業界對這個結果也是有質疑的。陳小軍博士補充表示,更支持半監督的方式,在現有的半監督作法中,把有監督的loss函數與無監督的loss函數進行組合是一種經典手段,但這種組合好不好也是他最近在思考的一個問題。
爭鳴議題二:深度學習大步前進,聚類分析與之攜手,還是各司其職?
深圳大學陳小軍博士表示,深度學習可以學習數據表征,之后可用常規聚類算法進行分析,但對聚類分析中的相似度學習沒有貢獻,如何運用深度學習去提升相似度學習,或者如何用深度學習對非線性可分數據得到一個線性空間下的表征,兩者可以相互“攜手”。
中山大學鄧志鴻贊同利用深度學習的方法來學習數據的低維表達,以此一致“攜手”。對此,黃棟認為,已有“深度學習+聚類分析”相關研究,但只在圖像數據集(或高維數據)上實驗,因為對圖像這種高維度、有效特征難以提取的復雜數據,深度學習在特征表示上的優勢顯現,但對于大規模低維度數據,美國服務器租用,未來也仍是“各司其職”。