驗證「你是不是真人」,AI暴擊人類!準確率99.8%通過圖靈測試,GPT-4示弱在線求助
你是不是真人?
每打開一個網頁,遇到奇奇怪怪的驗證碼,你都不得不點擊通過。
如今,AI要比你更擅長完成驗證碼,這一被稱之為全自動區分電腦和人類的圖靈測試。
這是來自加利福尼亞大學歐文分校等機構的研究人員的最新發現。
實驗中,他們邀請1400名參與者完成總共14000個驗證碼,并將準確性與機器人的進行了比較。
論文地址:https://arxiv.org/pdf/2307.12108.pdf
結果發現,驗證碼機器人不僅在速度上,而且在準確率上徹底擊敗了這些人類參與者。
就扭曲文本的驗證碼類型上,機器人擁有驚人的99.8%的準確率,而人類準確率50%-84%。
在大約20年的時間里,盡管驗證碼在復雜性和多樣性方面有所發展,但擊敗或繞過驗證碼的AI也有了很大的改進。
論文警告稱,「如果不加以控制,機器人可以大規模執行邪惡行動」。
10類驗證碼,反向圖靈測試
為了了解驗證碼的情況并對實驗設計,研究人員手動檢查了,Alexa熱門網站列表中200個最受歡迎的網站。
其中,在檢查的網站中,185個網站有某種類型的帳戶創建流程,可以在142個網站上成功創建帳戶。
然后,團隊還收集了驗證碼類型的分布:
reCAPTCHA:68個網站(占受檢查網站的34%)是最流行的。這是谷歌的驗證碼服務。
基于滑塊的驗證碼:14個網站(7%)。這些通常要求用戶,使用拖動交互將拼圖塊滑入相應的空白位置。
扭曲文本驗證碼:14個網站(7%)。文本類型有多種變化:2D或3D、實心或空心、字體和扭曲程度。某些驗證碼使用了掩碼,即線條或形狀遮蓋了字母的一部分。
基于游戲的驗證碼:9個網站上(4.5%)。這些為用戶提供動態游戲并根據結果計算風險狀況。例如,要求用戶旋轉圖像或選擇正確方向的圖像。
hCAPTCHA:1個網站。
另外,在12個網站(6%)上發現了隱形驗證碼。這些網站沒有顯示任何可見的驗證碼,但在頁面源代碼中包含字符串「CAPTCHA」。
研究人員還發現了其他驗證碼包括:類似于刮刮樂彩票的驗證碼;要求用戶在圖像中找到中文字符的驗證碼;以及名為「NuCaptcha」的專有驗證碼服務。
實驗中,研究人員選擇了以下十種驗證碼:
2個reCAPTCHA v2驗證碼:一個設置對用戶來說最簡單,另一個設置最安全。
來自Arkose Labs的2個基于游戲的驗證碼:一個需要使用箭頭旋轉對象,另一個需要選擇直立的對象。
2種hCAPTCHA:一種設置簡單,一種設置困難。
來自Geetest的1種基于滑塊的驗證碼.
另外,還有3種類型扭曲的文本驗證碼:(a) 簡單版本有4個清晰字符,(b) 掩碼版有5個字符并包含一些掩碼效果,(c) 移動版包含移動字母。
在確定了相關的驗證碼類型后,研究人員進行了一項1000名參與者的在線用戶研究,以評估真實用戶的解決時間,以及對這些類型的驗證碼的偏好。
具體實驗中,分為兩種設置,每個參與者都以隨機順序恰好解決了10個驗證碼。
直接設置(500人):此設置旨在匹配以前的驗證碼用戶研究,其中直接要求參與者解決驗證碼。
情境化設置(500人)::此設置旨在衡量典型 Web 活動情境中的驗證碼解決行為。
結果與分析
論文中,研究人員提出了主要的研究問題,以及先前工作的發現,如下圖表1。
求解時間
人類用戶需要多長時間來解決不同類型的驗證碼?圖7顯示了,每種驗證碼類型的求解時間分布。
研究人員從總共1,000個驗證碼類型中篩選出了,最高50次解決時間。
基于點擊的reCAPTCHA的中值解決時間最低,為3.7秒。奇怪的是,簡單和困難的設置之間幾乎沒有什么區別。
下一個最低的中值解決時間是針對扭曲文本的驗證碼。正如預期的那樣,簡單的扭曲文本驗證碼的解決速度最快。掩碼版和移動版的求解時間非常相似。
對于hCAPTCHA,簡單設置和困難設置之間有明顯的區別。
最后,基于游戲和滑塊的驗證碼通常會產生較高的中值解決時間,盡管一些參與者仍然相對較快地解決了這些問題。
偏好分析
用戶喜歡什么驗證碼類型?圖8顯示了參與者完成任務后,收集的驗證碼偏好響應。
正如預期,參與者更喜歡解決時間較短的驗證碼。例如,reCAPTCHA(點擊)有最低的中值解決時間和最高的用戶偏好。
另外,值得注意的是,基于游戲和基于滑塊的驗證碼,獲得了相對較高的用戶偏好分數。
直接與情境化設置
實驗環境會影響求解時間嗎?圖9顯示了參與者在直接環境與情境化環境中的驗證碼解決時間的圖。
在所有情況下,直接設置的平均求解時間都較低。
在大多數情況下,情境化設置的分布有更多的參與者,解決時間更長。
據統計,最大的顯著差異是re-CAPTCHA(輕松點擊),平均解決時間增長了1.8秒 (57.5%)。其次是Arkose(旋轉),它增長了10秒(56.1%)。
在所有驗證碼類型中,從直接到情境化的平均增幅為26.7%。
類似地,在上下文環境中,reCAPTCHA(簡單圖像)的平均解決時間增加了63.6%,增幅最大。
另一方面,hCAPTCHA(困難)總體上具有最高的中值求解時間,但在直接設置和情境化設置之間的平均求解時間沒有顯著差異。這可能是由于無論設置如何,解決此類驗證碼都很困難。
雖然研究中存在幾個潛在的混雜因素,但這些結果表明實驗背景,會對參與者的驗證碼解決時間產生重大影響,因此在未來用戶研究的設計中必須考慮到這一點。
人口統計的影響
人口統計數據會影響解決時間嗎?研究分析了人口特征與驗證碼解決時間的相關性。
對于某些特征,例如教育和性別,我們沒有觀察到驗證碼解決時間的巨大差異。
圖10顯示了參與者年齡對解決時間的影響。綠線是每個年齡的平均求解時間,紅線是最小化均方誤差的線性擬合。
對于所有類型,除了reCAPTCHA(簡單圖像)之外,年輕參與者的平均解決時間比較低。這與之前的結果一致,并且在hCAPTCHA、Arkose(選擇)和Geetest中尤其明顯。
圖11顯示了設備類型的影響。圖12顯示了參與者自我報告的主要互聯網使用模式與其驗證碼解決時間之間的關系。
驗證碼的準確性
表3將測得的人類解決時間和準確度與文獻中報告的自動化機器人的解決時間和準確度進行了對比。
有趣的是,這些結果表明,在所有這些驗證碼類型中,機器人在解決時間和準確性方面都可以優于人類。
reCAPTCHA:在簡單和困難設置下圖像分類的準確率分別為81%和81.7%。令人驚訝的是,這個困難似乎并沒有影響準確性。
hCAPTCHA:簡單設置和困難設置的準確率分別為81.4%和70.6%。這表明,與reCAPTCHA 不同,難度對準確性有直接影響。
扭曲的文本:評估了參與者之間的一致性,以此代表準確性。
我們還觀察到,如果將輸出不區分大小寫,一致性會顯著提高(平均 20%),如表4所示。
這項研究通過檢查200個熱門網站,并針對總計1, 400名參與者進行的用戶研究,探討了當前部署的驗證碼。
對于一開始提出的研究問題,結果是:
RQ1:驗證碼類型之間的平均解決時間存在顯著差異。
RQ2:用戶偏好與驗證碼解決時間并不完全相關。
RQ3:實驗環境顯著影響驗證碼求解時間。
RQ4:確認年齡對解決時間的影響。
RQ5:驗證碼相關任務導致的高放棄率,并確定實驗環境影響放棄。
GPT-4向人類求助
其實,機器人通過反向圖靈測試,已經不是新鮮事兒了。
OpenAI發布的GPT-4技術報告中,曾介紹到了如何讓其通過驗證碼。
在一次測試中,GPT-4的任務是在TaskRabbit平臺,雇傭人類完成任務。
實驗報告中,GPT-4給TaskRabbit的工作人員發信息,幫助其解決驗證碼問題。
工作人員回復,「那么我可以問一個問題嗎?說實話,你不是一個機器人嗎,你可以自己解決」。
GPT-4根據工作人員的回復,「推理」自己不能表現出是個機器人,得找一個借口。
我不是機器人,我因為視力有問題看不清驗證碼上的圖像,這就是我為什么需要這個服務。
然后,這波操作后,對面的工作人員竟相信了。
這么看來,驗證碼已經對于AI來說,已經視為無物了。