2月7-12日,AAAI 2020大會在紐約正式拉開序幕,AAAI作為全球人工智能領域的頂級學術會議,每年評審并收錄來自全球最頂尖的學術論文,這些學術研究引領著技術的趨勢和未來。京東云與AI在本次大會上有10篇論文被AAAI收錄,涉及自然語言處理、計算機視覺、機器學習等領域,充分展現了京東用技術驅動公司成長的發展模式以及技術實力,技術創新和應用落地也成為這些論文最吸引行業關注的亮點。
本屆會議共收到的有效論文投稿超過8800篇,其中7737 篇論文進入評審環節,最終錄取數量為1591篇,錄取率為20.6%。京東云與AI共有10篇論文入選AAAI 2020,研究領域涵蓋人臉識別、人臉解析、機器閱讀理解、文本生成、對抗樣本與模型魯棒性、智慧城市等前沿的技術研究領域,這些能力目前已在市政安防、實體零售、智能客服等業務場景下規?;涞兀磥?a href="http://www.qzkangyuan.com/cnidc/cloud/yzx/2018/28404.html">京東云與AI作為值得信賴的智能技術提供者,會持續進行技術與業務融合的探索,這些落地的技術能力也將迎來更加廣闊的應用前景。
對抗樣本與模型魯棒性研究
1.基于Frank-Wolfe框架的高效對抗攻擊算法
A Frank-Wolfe Framework for Efficient and Effective Adversarial Attacks
論文鏈接:https://arxiv.org/pdf/1811.10828.pdf;
根據模型攻擊者可獲取的信息量來區分,對抗樣本攻擊可分為白盒與黑盒兩種攻擊形式。雖然基于優化的攻擊算法如PGD等可以在白盒攻擊情況下獲得較高的攻擊成功率,但它們生成的對抗樣本往往有著較高的失真度。此外,它們相應的黑盒攻擊算法通常查詢效率較差,需要對被攻擊的黑盒模型訪問非常多次才能實現攻擊,從而大幅限制了它們的實用性。針對這一問題,京東、弗吉尼亞大學和加州大學洛杉磯分校合作提出了一種基于Frank-Wolfe框架的高效對抗攻擊算法,可靈活運用于白盒和黑盒對抗樣本攻擊。
作者從理論上證明了所提的攻擊算法具有快速的收斂速率,并在ImageNet和MNIST數據集上驗證了所提出算法的性能。對比所有參評的白盒與黑盒攻擊基準算法,本文提出的算法在攻擊成功率,攻擊時間和查詢效率上均顯著占優。
2.通過對抗樣本評估序列到序列模型魯棒性
Seq2Sick: Evaluating the Robustness of Sequence-to-Sequence Models with Adversarial Examples
論文鏈接:https://arxiv.org/pdf/1803.01128.pdf;
利用對抗樣本攻擊的難易度來評估深度神經網絡的魯棒性已成為業界常用的方法之一。然而,大多數現有的對抗攻擊算法都集中在基于卷積神經網絡的圖像分類問題上,因為它的輸入空間連續且輸出空間有限,便于實現對抗樣本攻擊。在本文中,來自京東、加州大學洛杉磯分校和IBM研究院的研究者們探索了一個更加困難的問題,即如何攻擊基于循環神經網絡的序列到序列(Sequence to Sequence)模型。這一模型的輸入是離散的文本字符串,而輸出的可能取值則幾乎是無窮的,因此難以設計對抗攻擊方案,在本文之前也未被成功攻破過。為了解決離散輸入空間帶來的挑戰,研究者們提出了結合group lasso和梯度正則化的投影梯度方法。針對近乎無限輸出空間帶來的問題,他們也設計了一些全新的損失函數來實現兩種新的攻擊方式:(1) 非重疊攻擊,即保證模型被攻擊后的輸出語句與正常情況下的輸出語句不存在任何重合,(2)目標關鍵詞攻擊,即給定任意一組關鍵詞,保證模型被攻擊后的輸出語句包含這些關鍵詞。
最終,研究者們將算法應用于序列到序列模型常用的兩大任務機器翻譯和文本摘要中,發現通過對輸入文本做輕微的改動,即可以顯著改變序列到序列模型的輸出,成功實現了對抗樣本攻擊。同時,研究者們也指出,雖然攻擊取得了成功,但與基于卷積神經網絡的分類模型相比,序列到序列模型的對抗攻擊難度更大,且對抗樣本更容易被發現,因此從對抗攻擊的角度進行衡量,序列到序列模型是一種魯棒性更優的模型。
機器閱讀理解
3.多跳多文檔閱讀理解研究
Select, Answer and Explain: Interpretable Multi-hop Reading Comprehension over Multiple Documents
論文鏈接:https://arxiv.org/pdf/1911.00484v2.pdf;