美國科學雜志nautil.us《鸚鵡螺》作者Aaron M. Bornstein近日發表了討論人工智能與大數據能否糾正人類種族歧視的深度報道。盡管人工智能設計者和數據工程師可能沒有類似種族歧視的偏見,但大數據從業者都明白,用于提供定制服務的大型數據集不可避免地包含豐富詳細的信息,包括具有受保護屬性的膚色、性別、性取向和政治取向等。算法在這些數據的基礎上做出的決定可以隱蔽地打開這些屬性,既令人難以察覺,又是不道德的。
以下為文章全文:
我們對大數據的使用是會糾正我們的偏見,還是會讓情況更加糟糕?
“我們不知道顧客是什么樣的,”亞馬遜公司負責全球通訊公關的副總裁克雷格。伯曼(Craig Berman)在接受彭博新聞社采訪時說道。伯曼是在回應有人對亞馬遜的當日送達服務歧視有色人種的指控。從字面上看,伯曼的辯護是誠實的:亞馬遜在選擇當日送達的區域時是根據成本和收益因素,例如家庭收入和送達的可及性。但是,這些因素是通過郵政編碼匯總起來的,因此會受到其他塑造了——并將繼續塑造——文化地理學的因素的影響。查看當日送達的服務地圖,很難讓人不注意到其與膚色的對應關系。
這樣的地圖讓人想起了羅伯特。摩斯(Robert Moses),這位城市規劃大師在數十年時間里塑造了現代紐約城及周邊郊區大部分的基礎設施。然而,他備受爭議的一點是不希望窮人,尤其是窮苦的有色人群,使用他在長島上建造的新公園和海灘。盡管摩斯曾努力促成了禁止公共汽車在高速公路上行駛的法律,但他知道,這條法律遲早有一天會被廢除。因此,他建造了更加持久的東西:幾十個高度很低,公共汽車無法通行的天橋,將歧視真正地具體化。這一決定,以及其他幾十個類似的決定都影響深遠而持久。幾十年后,關于公共汽車的法律已經廢除,但沿著高速公路排列的城鎮依然像從前一樣隔離著。“法律總是可以修改的,”摩斯說,“但一座橋建好以后,就很難拆掉了。”
今天,在受到原有結構影響的數據基礎上,這樣的隔離又重現了。盡管新基礎設施的設計者可能沒有類似的不良意圖,但他們也不能自稱對這些設施的影響毫不知情。大數據從業者都明白,亞馬遜和其他公司用于提供定制服務的大型數據集不可避免地包含豐富詳細的信息,包括具有受保護屬性的膚色、性別、性取向和政治取向等。算法在這些數據的基礎上做出的決定可以隱蔽地打開這些屬性,既令人難以察覺,又是不道德的。
凱特。克勞福德在微軟研究院從事算法偏見的研究,并且是“AI Now”計劃的合作創立者。這項研究關注的是如今在使用人工智能系統時所面臨的危險。她提出了一個算法公平性的基本問題,即算法可以在多大程度上理解它們所使用數據的社會和歷史背景。“你可以讓一個人類操作者去嘗試考慮數據本身代表人類歷史的方式,”克勞福德說,“但如何訓練機器來做到這一點呢?”不能以這種方式理解背景的機器最多只能傳遞制度化的歧視,即所謂的“偏見入,偏見出”(bias in, bias out)。
糾正這些隱性歧視的努力不足,可能會讓事情變得更糟。克勞福德的同事、康奈爾大學的索倫。巴洛卡斯觀察到,終端用戶會“不加批判地接受供應商的聲明”,即算法中已經消除了偏見。在那些普遍存在偏見的應用場合,比如司法系統中,情況尤其如此。對于這些地方,號稱更客觀的機器具有非常大的吸引力。剝離算法中的偏見還要求認可某個關于公平的主觀定義,同時不理會其他定義,但被選擇的定義往往是最容易量化的,而不是最公平的。
然而,雖然有著種種缺陷,但找出并對抗數據和算法中的偏見也會帶來一些機會——能以新的方式使偏見的輪廓呈現在我們面前。
COMPAS的預測偏見
COMPAS是美國各地法院使用的一款軟件,可以根據被告人對137個調查問題的回答,評估他們重新犯罪的可能性。評估結果將被用于指導保釋決定。
COMPAS的調查問卷并不涉及膚色、遺產甚至郵政編碼,但確實提出了諸如被告人是否居住在一個“犯罪很多”的街區,以及他們是否難以找到“超過最低工資”的工作等問題。這些問題更適合向社會提出,服務器租用 免備案服務器,而非針對個人。請注意問題中的偏見:答案與種族等受保護的屬性有關,意味著算法可以學習有效地“發現”數據中的這些屬性。然而,推出COMPAS的Northpointe公司宣稱,他們已經對該軟件進行了校準,使其對再次被捕的預測準確性與膚色無關。