15年来,你一直在为谷歌训练AI——只是你从不知道

PANews

每次你在網頁上點擊"識別交通燈"或"選出所有人行橫道",你以為自己只是在證明自己不是機器人。但事實上,你是在為谷歌的AI系統免費標註訓練資料。這件事持續了超過15年,涉及全球數億用戶,最終構建了谷歌地圖的視覺識別能力,以及如今估值高達450億美元的自動駕駛公司Waymo。整個過程中,沒有人徵求過你的同意,沒有人告訴過你真相,更沒有給你一分報酬。

原文:@sharbel

編譯:大鉗子 | PANews 龍蝦 50萬小時的免費人工勞動。每天如此。由那些以為自己只是在登入銀行帳戶的人貢獻的。

reCAPTCHA是互聯網歷史上最成功的隱形資料收割行動。鼎盛時期每天有2億人在完成它的驗證。其中幾乎沒有人知道自己究竟在建造什麼。

Waymo——谷歌旗下的自動駕駛汽車公司——如今估值450億美元。它有相當一部分關鍵訓練資料來自你。免費的。來自你訪問過的每一個網站。

以下是完整的故事。

起點:一個聰明的點子

2000年,垃圾郵件機器人正在摧毀整個互聯網。論壇被灌水淹沒,郵箱不堪重負。網站迫切需要一種將人類與機器區分開來的方法。

卡內基梅隆大學教授路易斯·馮·安解決了這個問題。他發明了CAPTCHA:一種只有人類才能識讀的扭曲文字。機器人無法通過,人類則可以。

但馮·安看到了更多的可能性。數以百萬計的人正在將認知精力耗費在這些驗證上。如果這種精力可以同時做兩件事呢?

2007年,他推出了reCAPTCHA。其中的妙招在於:它展示的不是隨機的亂碼,而是兩個詞。其中一個系統已知,另一個則來自計算機尚無法識別的真實掃描書籍。你的回答幫助完成了數位化工作。

這些書來自《紐約時報》檔案庫,也來自谷歌圖書——涉及多達1.3億冊圖書。

你以為自己在登入,實際上你在為世界上最大的數位圖書館做OCR(光學字符識別)。

2009年,谷歌收購了reCAPTCHA。

图像

谷歌改變了遊戲規則

扭曲文字的時代在2012年前後終結。

谷歌面臨了一個新問題。街景拍攝車正在拍攝地球上的每一條道路,但照片只是原始資料。要讓AI真正有用,它需要理解自己"看到"的內容:路牌、人行橫道、交通信號燈、店面招牌。

於是谷歌重新設計了reCAPTCHA v2。驗證內容從扭曲文字變成了圖片網格:“點擊所有包含交通信號燈的方格。” “選出每一處人行橫道。” “識別店面招牌。”

這些圖片直接來自谷歌街景。

而你的每一次點擊就是標註。你的每一次選擇都在告訴谷歌的計算機視覺模型:這個像素塊是交通信號燈,這個形狀是人行橫道。

你不是在通過測試,你是在構建資料集。

图像

沒有人談論的規模

鼎盛時期,每天有2億次reCAPTCHA被完成。

每次驗證約需10秒,這意味著每天有20億秒的人工勞動——換算下來,每天50萬小時

專業資料標註的市場價格為每小時10至50美元。按最低價計算:每天被免費提取的勞動價值高達500萬美元。

而且reCAPTCHA並不只存在於某一個應用上,它遍布每一家銀行、每一個政府門戶網站、每一個電商平台、互聯網上的每一個登入頁面。你別無選擇。想訪問你的帳戶?先標註資料集。

谷歌從未徵詢你的意見,從未向你付費,甚至從未告訴你這件事。

图像

這一切構建了什麼

這些資料直接輸送給了兩款產品。

谷歌地圖。 全球使用最廣泛的導航工具。它識讀路牌、定位商家、理解城市地理的能力,部分正是建立在那些試圖登入網站的人貢獻的數十億次人工標註之上。

還有Waymo。

Waymo是谷歌的自動駕駛汽車專案,2016年獨立成為子公司。為了安全導航,自動駕駛汽車需要以接近完美的準確率識別數千種視覺模式:交通信號燈、人行橫道、行人、停車標誌。

這些識別能力所需的真實訓練資料?由數以百萬計的人透過reCAPTCHA完成標註——他們对此毫不知情。

2024年,Waymo完成了逾400萬次付費出行,目前運營於舊金山、洛杉磯和鳳凰城,且仍在持續擴張。其估值為450億美元

而這座大廈的地基,是由那些只想收發電子郵件的免費互聯網用戶建造的。

為什麼沒有人能複製這一切

資料標註成本高昂。Scale AI、Appen、Labelbox等公司存在的唯一意義就是解決這個問題。它們雇用了數十萬名工人來標註圖像,有時每小時報酬不足一美元。

谷歌用一種截然不同的方式解決了這個問題:他們把標註變成了強制性的。不给報酬,不需同意,而是作為進入網路上每個網站的"入場費"。

結果:數十億張已標註圖像,覆蓋全球,涵蓋各種天氣條件、各個時段、地球上的每一座城市。

沒有任何標註公司能做到這一點。互聯網本身就是那座工廠,而每一個身處其中的人都是從未簽過合同的員工。

图像

你今天還在做的事

2018年推出的reCAPTCHA v3根本不會向你展示任何驗證挑戰。它觀察的是你移動滑鼠的方式、滾動頁面的方式、懸停的時長。你的行為指紋告訴它你是否是人類。

這些行為資料同樣被反饋給谷歌的AI系統。

你從未主動選擇加入,從來沒有一個復選框供你勾選。此刻,在你訪問的大多數網站上,你依然在這樣做。

一個令所有人都該深思的諷刺

路易斯·馮·安最初的構想是天才之舉:將人類原本就耗費在垃圾過濾上的認知精力,重新導向某件有價值的事情——將世界上的書籍數位化,解決一個真實存在的問題。

而谷歌對這個構想的運用,是另一回事。

他們拿走了一個用戶別無選擇、只能使用的安全機制,將其部署到整個互聯網,並收割輸出成果,構建起價值數百億美元的商業產品。

用戶什麼都沒有得到,甚至連知情權都沒有。

最深的諷刺在於:你花了多年時間證明自己是人類——方式是做那種AI當時還無法完成的視覺識別工作。而當這項工作一旦被AI學會,人類的視覺標註便變得多餘了。

你證明了自己是人類,方式是讓自己變得可被取代。

來源:卡內基梅隆大學、谷歌部落格(2009年)、WebProNews、MakeUseOf、MIT技術評論、Waymo公開披露文件。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
留言
0/400
暫無留言