7月28日,阿里巴巴的“NASA大腦”iDST(Institute of Data Science Technology)表示,《Hierarchical Multimodal LSTM for Dense Visual-Semantic Embedding》入選2017年國際計算機視覺大會ICCV,即計算機視覺領域的頂級會議之一。
這也是阿里巴巴本月內第三次公布論文入選國際頂級學術會議的好消息。
據了解,這篇論文涉及的是計算機視覺(Vision)和自然語言處理(Language)兩個獨立領域結合的學術研究,提出了對圖像(或圖像顯著區域)更為細致精確的描述,顯示出阿里巴巴在Vision
該論文通過創新的多模態、層次化的遞歸神經網絡(Hierarchical Multimodal LSTM)方法,可以將整個句子、句子中的短語、整幅圖像及圖像中的顯著區域同時嵌入語義空間,并且自動學習出“句子-圖像”及“短語-圖像區域”間的對應關系,生成包含更多形容詞的稠密語義空間,對圖像或圖像區域進行更詳細和生動的描述。
也就是說,計算機以后不僅能說“一只鳥站在樹枝上”,還能說出“一只羽翼未豐的小鳥站在春天抽芽的樹枝上”、“一只張嘴乞食的小鳥”、“一只小鳥站在抽芽的樹枝上,撲騰翅膀學習飛翔”這樣更為生動復雜的句子。
論文作者介紹,這一研究將被用于“看圖說話(Image Captioning)”任務及其他頗有意義的應用場景。如應用于自動導盲系統,將拍攝的圖像轉換成文字和語音,以便提示盲人避障。
此外,還能用于“跨模態檢索(Cross-media Retrieval)”任務,當用戶在電商搜索引擎中輸入一段描述性文字如“夏季寬松波西米亞大擺沙灘裙”,系統就能為用戶提供最相關的商品。
ICCV全稱為IEEE International Conference on Computer Vision,與CVPR(計算機視覺模式識別會議)和ECCV(歐洲計算機視覺會議)并稱計算機視覺方向的三大頂級會議。
在本月早些時候,阿里巴巴先后發布三篇論文入選國際多媒體會議ACM MM,四篇論文入選國際計算機視覺與模式識別會議CVPR的消息。
今年3月,阿里巴巴宣布啟動NASA計劃,要為未來20年研發核心科技。在這一計劃的號召下,阿里正在人工智能領域全面發力,在機器學習、視覺識別等領域不斷追趕世界頂尖的學術水平。
關注中國IDC圈官方微信:idc-quan或微信號:821496803 我們將定期推送IDC產業最新資訊
查看心情排行你看到此篇文章的感受是:
支持
高興
震驚
憤怒
無聊
無奈
謊言
槍稿
不解
標題黨
2017-07-26 10:30:00
互聯網 我國三家互聯網企業入圍世界500強 數量與美國持平
在中國,每個有追求的規模企業中,幾乎都有一個“500強”的夢。 <詳情>
2017-07-17 09:21:27
日前,美國抗攻擊服務器 亞洲服務器,數據中心運營商萬國數據(GDS)公布已經達成一項協議,其目前正在建設中的北京3號數據中心將全部租賃給阿里巴巴集團,并計劃2018年開通運營。在建設完成后,該數據中 <詳情>
2017-07-05 10:08:22
國內資訊 “當AI來敲門……”大智能時代來臨的三大暢想