欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

歡迎來到云服務(wù)器

大數(shù)據(jù)技術(shù)

Facebook科學(xué)家:別給算法模型喂垃圾數(shù)據(jù)了…

在最近的一次談話中,Facebook人工智能研究科學(xué)家Moustapha Cissé告訴我,“你吃什么你就是什么,而我們正在給算法模型喂垃圾食品。”

Facebook科學(xué)家:別給算法模型喂垃圾數(shù)據(jù)了…

(圖片來自于網(wǎng)絡(luò))

如果你不知道食物中有什么,你就很難合理飲食。同理,如果你不理解訓(xùn)練數(shù)據(jù)的原理,就不能訓(xùn)練出偏差更小的模型。

這就是為什么最近的論文“給數(shù)據(jù)集創(chuàng)建數(shù)據(jù)手冊” https://arxiv.org/abs/1803.09010 如此有趣的原因。在這篇論文中,來自微軟研究的Timnit Gebru及其同事與來自其他學(xué)術(shù)研究機構(gòu)的合著者們?yōu)?a href="http://www.qzkangyuan.com/html/help/software/20170620/4138.html">數(shù)據(jù)集提出了相當(dāng)于食物營養(yǎng)標(biāo)簽的標(biāo)準(zhǔn)。

很多機器學(xué)習(xí)和深度學(xué)習(xí)模型,大多傾向于使用像ImageNet或COCO 這樣的公共數(shù)據(jù)集,或是私人創(chuàng)造的數(shù)據(jù)集,這些數(shù)據(jù)集能夠?qū)⒂?xùn)練數(shù)據(jù)集的內(nèi)容、偏差和其他相關(guān)素材傳輸給有興趣的用戶是非常重要的。

數(shù)據(jù)手冊”這篇論文探討了使用標(biāo)準(zhǔn)化數(shù)據(jù)手冊,將這些信息傳遞給數(shù)據(jù)集、商業(yè)化API和預(yù)構(gòu)建模型用戶的方案。除了能協(xié)助用戶交流數(shù)據(jù)偏差外,作者還指出這種數(shù)據(jù)手冊能夠提升信息的透明度,并為數(shù)據(jù)的可靠性背書。

除了潛在的倫理問題外,當(dāng)使用第三方數(shù)據(jù)進行訓(xùn)練的模型不能充分歸納到不同語境時,隱藏的數(shù)據(jù)偏差會造成部署系統(tǒng)的不可預(yù)測性,甚至失敗。當(dāng)然,最好的選擇是收集第一方數(shù)據(jù),并使用由該領(lǐng)域里具有專業(yè)知識和深刻見解的專家們構(gòu)建和訓(xùn)練的模型。

廣泛可用的公共數(shù)據(jù)集、更易上手的機器學(xué)習(xí)工具,能便捷訪問的人工智能API和預(yù)購建模型促進AI民主化,使得越來越多的開發(fā)人員將AI技術(shù)運用到他們的應(yīng)用中。作者建議,為AI數(shù)據(jù)集和工具創(chuàng)建數(shù)據(jù)手冊可以為那些沒有專長領(lǐng)域的工程師提供基礎(chǔ)的信息,有助于減少由數(shù)據(jù)集誤用引發(fā)的問題。

信息安全公司Terbium實驗室的CTO Clare Gollnick,在與我們討論科學(xué)和人工智能中的再現(xiàn)性危機時,提出了類似觀點。她擔(dān)心開發(fā)人員往往把重心放在用更深層、更復(fù)雜的模型解決問題,而當(dāng)這些模型被應(yīng)用到生產(chǎn)中時,通常會遇到泛化的問題。相反地,她發(fā)現(xiàn),當(dāng)研究人員利用該領(lǐng)域里現(xiàn)有的專業(yè)知識和深刻見解去解決AI問題時,成果將更為穩(wěn)健。

Gebru和合作者在論文中指出,AI尚未經(jīng)受以往伴隨著新興行業(yè)(如汽車、醫(yī)藥和電氣行業(yè))發(fā)展而逐步完善的安全法規(guī)的檢驗。文中提到:

當(dāng)汽車首次在美國出現(xiàn)時,沒有車速限制、停車標(biāo)志、交通信號燈、駕駛員教育,美國服務(wù)器租用,與安全帶或醉酒駕駛有關(guān)的規(guī)定。因此,1900年代早期,碰撞、超速和魯莽駕駛造成了許多人員傷亡。

Facebook科學(xué)家:別給算法模型喂垃圾數(shù)據(jù)了…

幾十年來,汽車及其它行業(yè)都在不斷地修改完善旨在保護公共利益的法規(guī),同時其自身的技術(shù)革新也沒有停滯。論文認(rèn)為,是時候開始考慮為AI制定相關(guān)的法律法規(guī)了,特別是當(dāng)我們開始將其用于健康和公共部門等高風(fēng)險實踐中時。歐洲即將出臺的通用數(shù)據(jù)保護條例(GDPR)就將處理這些問題。

論文提出的“數(shù)據(jù)手冊”來源于電氣組件相關(guān)的概念。每一個售出的電子組件都附帶相應(yīng)的“數(shù)據(jù)手冊”,上面列出了組件的功能、特性、運行電壓、物理細(xì)節(jié)等。當(dāng)用戶需要在購買前了解某個零件的性能,以及誤操作情況下可能出現(xiàn)的反應(yīng)時,這些數(shù)據(jù)手冊就能提供用戶所需的支持。

Facebook科學(xué)家:別給算法模型喂垃圾數(shù)據(jù)了…

(示例圖片來自于網(wǎng)絡(luò))

作者建議,數(shù)據(jù)集或API的提供方應(yīng)該附帶一份“數(shù)據(jù)手冊”來解決一系列標(biāo)準(zhǔn)化問題,這份“數(shù)據(jù)手冊”應(yīng)該包含以下主題:

數(shù)據(jù)集創(chuàng)建的動機 數(shù)據(jù)集的組成 數(shù)據(jù)收集過程 數(shù)據(jù)預(yù)處理 數(shù)據(jù)的分布 數(shù)據(jù)的維護 法律和倫理方面的考慮

對于上面所列主題的具體詳解,可以參照該論文;它還包含了一系列補充細(xì)節(jié),并為Wild數(shù)據(jù)集中的UMAS Labeled Faces 提供示例“數(shù)據(jù)手冊”。這是一個完整全面、易于使用,并將具有影響力的模型。

這樣的“數(shù)據(jù)手冊”允許用戶了解他們使用的數(shù)據(jù)的優(yōu)點和局限性,并防止出現(xiàn)諸如偏差和過度擬合之類的問題。同時,服務(wù)器租用 免備案服務(wù)器,“數(shù)據(jù)手冊”還能全方位的促使數(shù)據(jù)集的創(chuàng)作者和用戶對數(shù)據(jù)源進行不同角度的思考,并理解數(shù)據(jù)其實并非‘事實上’的存在,而是需要謹(jǐn)慎對待和維護的具有生命力的資源。

雖然我不是個電氣工程師,但是我非常欣賞這個有趣的想法。

騰訊云代理

Copyright © 2003-2021 MFISP.COM. 國外vps服務(wù)器租用 夢飛云服務(wù)器租用 版權(quán)所有 ? 粵ICP備11019662號

主站蜘蛛池模板: 巩留县| 廉江市| 乐安县| 六枝特区| 奉新县| 吉木乃县| 当涂县| 寻乌县| 贺州市| 东平县| 高淳县| 台南市| 秦安县| 舞阳县| 通许县| 南宫市| 永兴县| 莱芜市| 阳山县| 蓝田县| 安远县| 彰化县| 商河县| 腾冲县| 怀来县| 邵武市| 开平市| 防城港市| 布尔津县| 吉木萨尔县| 南昌市| 伊春市| 讷河市| 塔河县| 桓仁| 余干县| 乌审旗| 涿州市| 柏乡县| 大英县| 邓州市|