在1997年版的電影《洛麗塔》里,洛麗塔趴在花園的草坪上讀書,天真的臉龐籠罩在朦朧的水霧下。在她的眼波流轉之中,電影流露出情色的味道。情色作品的含蓄和豐富常常使其可以借“性”的描述來傳達對社會精神狀態的思考。但是情色和色情從來不是一回事,而二者模糊的邊界卻不斷讓色情內容的傳播有了可乘之機。
鑒黃師是在互聯網色情內容暴增的條件下滋生的一個職業。然而長期面對大量色情內容的刺激使這類工作者往往要承受心理、生理的雙重壓力。那么,在人工智能迅速崛起的時代,AI的加入會不會成為鑒黃師們的“減壓閥”呢?
AI來了,“東京熱”們還會好嗎?
互聯網鑒黃主要分為三個階段,第一階段叫人肉階段,主要通過人工識別的方式來發現黃色內容;第二階段叫算法過濾階段,美國站群服務器 亞洲服務器,以膚色識別算法過濾黃色圖片開始成為主流;第三階段叫深度學習階段,因為純膚色式地圖片過濾已經難以擔當鑒黃的重任,所以機器學習成為了新的主角。針對第三個階段,智能相對論分析師(aixdlun)楊蘇穎梳理了三種不同的智能鑒黃工種,分別囊括了音頻、圖像和視頻三種形式。
首先是鑒定圖片和視頻的鑒定。鑒別黃色圖片的過程主要有兩步,第一步是用黃圖的特點來定義一個機器可以識別的數學模型。第二步則是用大量滿足定義的圖片來進行樣本數據的收集并將其用于機器訓練。在島國搜尋大量動作片的種子進行海量灌輸之后,我們可以得到一個越來越精準的模型,從而讓人工智能準確識別出某張圖片是否為黃圖。這是AI鑒別靜態圖片的一個簡單流程。
那么AI對于動態圖像又是怎么進行處理的呢?其實AI要對在線視頻和直播這類的動態圖像開展鑒黃工作,其原理與鑒別靜態圖片并沒有太大的差別。只要在鑒別視頻和直播的時候,人為地多加一個步驟把動態內容解碼變成圖片幀,剩下的工作就和靜態圖片處理大同小異了。
另外,如今偽ASMR的涌現要求AI在色情音頻上的處理能力也必須跟上。在各種直播房間內,主播們更是可以直接以語言交流的方式與粉絲進行互動。所以,國內的一家名叫極限元的公司采用了一種叫CTC+LSTM組合的深度學習技術來識別色情音頻內容。它可以分析語音的信息內容,從而判斷出語音當中是否含有色情信息。
在鑒黃領域,AI的三管齊下顯示了其要肅清黃色內容的決心,而且它也確確實實地減輕了人工鑒黃的壓力。但是在現實當中上有政策,下有對策的戲碼總是會不斷上演,因此鑒黃的力度越大,色情的邊界也就拓展地越快,自然AI鑒黃的難度也會越大。而這好像成為一個繞不開的死循環。
AI鑒黃可能暫時還hold不住軟色情
最近軟色情一詞在網絡上被頻繁提到,成為一個關注度很高的話題。軟色情的內容很軟,好像廣告軟文一樣,入侵的時候悄無聲息。但是其所造成的傷害卻很硬,足以讓沒有心智成熟的青少年沉溺其中難以自拔。AI進入鑒黃領域,勢必要面對現在越來越活躍的軟色情,但要如果真想要AI對軟色情做出識別和判定卻是一項難上加難的工作。
軟色情的定義很模糊,它的定義是與硬色情對比得來的,指一些不暴露生殖器官的色情內容。如果把暴露生殖器官作為一個特點去識別哪些內容屬于硬色情,那么這是一件相對比較容易的事情。但是我們卻不能把不暴露生殖器官作為識別軟色情的特點,否則所有不暴露生殖器官的內容都會被標記為軟色情內容。所以這也就意味著軟色情并不是一樣容易被貼上具體標簽的東西,它非黑非白,而是屬于灰色,因此很難被公式化。
這就為人工智能鑒黃制造了一個難題。通常人工智能進行鑒黃首先需要建立一個“分類器”來將圖片歸類,但不幸的是,軟色情的問題卻沒有那么簡單。什么是軟色情這個事并不好弄清楚。在B站的一些彈幕上,我們常常可以看到一群人對著視頻當中的蘿莉發彈幕,包括“跪舔”“硬了”之類的字眼。但是拿“跪舔”為例,有些人只把它當作一個比較夸張的網絡用語,覺得無比正常。而有的人在這些字眼的刺激下卻真的會產生生理反應,難以把控。
這些不同的反應主要是由于我們每個人色情刺激的閾值高低不一。所以,像“跪舔”這樣的彈幕到底算不算是軟色情的表現呢?這很難判定。捫心自問,軟色情是一個很個人化的東西,它幾乎可以是一切能夠喚起自己對配偶之外的性欲的東西,而機器卻不可能成為每一個人肚子里的蛔蟲。