深度學習在視覺問題上所取得的成功可歸因于以下幾點:
高容量模型;
高速增長的計算力;
大規模標記數據的可用性。
自2012年以來,域名注冊,模型的性能和GPU的計算力都已取得非常大的進步。但最大數據集的大小卻出乎意料地保持現狀。那如果我們將數據集的大小擴大10倍或是100倍會發生什么呢 本文在揭秘“超大規模數據”和深度學習之間那云里霧里的關系上取得了一大步進展。我們利用JFT—300 M數據集,圖片超過3億張中已逾有3.75億個具有噪聲的標簽。我們在研究,如果這個數據集用于表征學習,那么當前的視覺任務的性能將發生怎樣的變化。
我們的論文提供了一些預期之外的(和一些預期之內的)發現:
視覺任務的性能仍然以訓練數據大小的數量級線性增加;
表征學習(或預訓練)仍然有很大的用途。通過訓練更好的基礎模型,便可以提高視覺任務的性能;
正如預期的那樣,我們在包括圖像分類、目標檢測、語義分割和人體姿態評估等不同視覺任務上呈現出了新的基于目前技術水平的研究成果。
我們真誠希望可以以此來激發那些機器視覺的相關社區,不要低估數據的重要性,以及要發展集體努力從而建設更大的數據集。
眾所周知,目前的卷積神經網絡革命是大型標注數據集的產物(具體來說,來自ImageNet的大小為1M的標記圖像)和大規模計算能力(得益于GPU)。每年我們都在進一步增加計算能力(更新、更快的GPU),但是我們的數據集并沒有那么幸運。ImageNet是一個基于1000個類別的1M標記圖像的數據集,五年多以前用于訓練AlexNet。
奇怪的是,雖然GPU和模型容量都在不斷增長,但是對這些模型進行訓練的數據庫仍然停滯不前。即使是具有明顯更多容量和深度的101層的ResNet,仍然使用來自ImageNet大約2011年的1M Image圖像進行訓練。為什么 在更深層次的模型和計算能力之前,我們再次貶低了數據的重要性嗎 如果我們將訓練數據的量增加10倍或100倍,性能會翻番么
視覺數據集的奇怪案例:盡管GPU計算能力和模型尺寸在過去五年中不斷增加,美國云服務器 江西電信服務器,但是訓練數據集的大小卻驚人地保持不變。這是為什么 如果我們使用我們的資源來增加數據集大小,會發生什么
本論文采取的第一步,是明晰“超大規模數據”與深度學習之間的神秘關系。當然,重要的是,如何收集比ImageNet還大的數據集。為了測試當前模型的極限和上限,我們可能需要一個幾乎比ImageNet大100倍的數據集。事實表明,收集1M圖像的1000個類別,每個問題將需要1000萬美元。ImageNet使用了幾種啟發式(例如標簽層級)來減少問題,從而將成本降低到10萬美元。但是,大于100倍的數據集仍然需要超過1000萬美元。
在本論文中,我們利用了一個已經存在的JFT圖像數據集,該數據集由Geoffrey Hinton等科學家最早提出。JFT數據集擁有超過3億張圖像,標有18291個類別。注釋是自動獲得的,因此,這些注釋比較嘈雜,并不是詳盡無遺的。這些注釋已經使用復雜的算法進行清理,以提高標簽的精度;然而,精度仍然有大約20%的誤差。我們將使用這些數據來研究數據量與視覺性能之間的關系。具體來說,我們將研究視覺表征學習(預訓練)的數據的能力。我們評估各種視覺任務的學習性能:圖像分類、對象檢測、語義分割和人體姿態評估。我們的實驗產生了一些令人驚訝(和一些預期)的發現:
更好的表征學習真的有用!
我們的第一個觀察是,大規模數據有助于表征學習,這是被我們研究的每個視覺任務的性能改善所證明的。
這表明,收集更大規模的數據集以研究預訓練過程,可能會對該領域產生極大的好處。我們的研究結果還表明,無監督或自監督表征學習方法的光明前景。數據量似乎可以超越標簽空間的噪音。
性能隨著訓練數據的數量級線性增加!
也許我們發現的最令人驚奇的要素是,視覺任務的性能與用于表示學習的訓練數據(對數量表)的數量之間的關系。我們發現這種關系還是線性的!即使是3億張訓練圖像,我們對所研究的任務也沒有觀察到任何平臺效應。
容量至關重要!
我們還觀察到,為了充分利用3億張圖像,需要更高容量的模型。例如,在ResNet-50的情況下,COCO對象檢測的增益(1.87%),比使用ResNet-152(3%)時,要小得多。
長尾訓練:我們的數據有相當長的尾巴,表征學習似乎有效。這種長尾似乎不會對卷積神經網絡的隨機訓練產生不利影響(訓練仍然趨于收斂)。