Google 發布 Gemini 3 Deep Think 重大更新,在 ARC-AGI-2 測試中以 84.6% 大幅超越 Claude Opus 4.6(68.8%)和 GPT-5.2(52.9%),同時在 Codeforces 達到「傳奇宗師」等級。
(前情提要:ChatGPT 學習模式問世:家教的黃昏,還是黃金教育時代的黎明?)
(背景補充:Google 正式推出「Gemini 3」!登頂全球最聰明 AI 模型,有什麼亮點?)
本文目錄
- 不只會考試,還會抓人類的錯
- 市場份額的地殼變動
- 對加密產業的漣漪效應
- 科學決勝局才剛開始
Google 今(13)日發布了 Gemini 3 Deep Think 的重大升級。在 ARC-AGI-2(一個專門防止 AI 背題庫的推理測試,不考你知道多少,考你能不能從幾個範例中自己歸納出規則)測試中,Gemini 3 Deep Think 拿下了 84.6%。
作為參照,Claude Opus 4.6(Thinking Max 模式)拿到 68.8%,GPT-5.2(Thinking xhigh 模式)是 52.9%,而人類平均約 60%。

更驚人的是,在原版 ARC-AGI-1 上,Deep Think 拿到 96%,基本上把這個曾被視為「AI 最難考試之一」的基準測試考到了天花板。
Deep Think 目前開放給 Google AI Ultra 訂閱用戶,API 則面向企業開放早期存取。
不只會考試,還會抓人類的錯
跑分之外,Google 在公告中提到了一個細節:Deep Think 在審閱一篇經過人類同行評審的數學論文時,成功找出了一個之前所有審稿人都沒發現的邏輯漏洞。這篇論文由羅格斯大學(Rutgers University)的數學家確認。
這個案例的重要性在於,它不是模型在標準化測試中的表現,而是在真實的、開放式的科學場景中展現的能力。同行評審是學術界最核心的品質控制機制,如果 AI 能穩定地在這個環節提供有價值的輔助,它對科學研究的加速效應將遠超任何跑分所能衡量。
Deep Think 同時在 2025 年國際物理奧林匹克和化學奧林匹克的筆試部分達到金牌水準,在 Codeforces 上的 Elo 評分為 3,455,對應「傳奇宗師」等級,全球僅極少數人類程式設計師能達到這個層級。
而在「人類最後的考試」(Humanity’s Last Exam)這個由各領域專家設計、刻意讓 AI 難以作答的基準上,Deep Think 拿到 48.4%(不使用工具),也創下新紀錄。
市場份額的地殼變動
AI 三巨頭的技術競賽正在改變市場版圖。ChatGPT 的市佔率已從巔峰時期的 87% 降至約 68%,而 Gemini 從不到 5% 飆升至超過 18%、Anthropic 的 Claude 則穩步蠶食企業級市場。
Google 在這場競賽中的獨特優勢是分發能力。Gemini 內建在 Android 系統、Chrome 瀏覽器、Google Workspace 和搜尋引擎中,這意味著即使在模型能力上與對手打平,Google 也能透過渠道優勢贏得用戶。
但分發優勢是雙面刃。如果 Gemini 的體驗不夠好,它可能會比任何競品更快地失去用戶信任,因為用戶是「被動接觸」而非「主動選擇」。OpenAI 的用戶是主動付費的,天然有更高的容忍度和黏性。
對加密產業的漣漪效應
AI 軍備競賽的每一次升級,都在推高對運算基礎設施的需求。訓練一個前沿模型所需的 GPU 叢集成本已經從 2024 年的數億美元級別,膨脹到 2026 年的數十億美元級別。這也直接影響了兩件事。
**第一,比特幣礦工的轉型路徑。**當挖礦利潤被壓縮(摩根大通本週估算 BTC 生產成本降至 7.7 萬美元,而幣價在 6.6 萬附近),擁有大規模算力基礎設施的礦工正加速轉向 AI 運算服務。
高成本礦企不是「退出」,而是「轉業」,從挖比特幣變成提供 AI 算力的合約收入。
**第二,AI 代幣的敘事。**每當 Google、OpenAI 或 Anthropic 發布重大升級,鏈上 AI 相關代幣(如去中心化運算協議)通常會出現短期炒作。
但這些代幣的基本面問題始終沒變:去中心化運算在延遲和吞吐量上,距離企業級 AI 訓練的需求還有很長的路要走。敘事可以跑得很快,但基礎設施還追不上敘事的速度。
科學決勝局才剛開始
Deep Think 的升級把 Google 又推回了 AI 競賽的領跑位置,至少在推理和科學領域是如此。但如果你仔細看 Google 的公告措辭,會發現一個微妙的定位轉變:它不再強調「最聰明的通用 AI」,而是反覆提及「為科學而生」。
當通用 AI 的基準測試越來越擁擠、差異化越來越難,「我的 AI 能幫你做科學研究」是一個比「我的 AI 跑分最高」更有說服力的價值主張。如果 Deep Think 真的能穩定地輔助同行評審、加速藥物發現、或在物理模擬中找到人類遺漏的解,這比任何跑分榜單都更有意義。
問題是,從「能在基準測試上拿高分」到「能在真實科學場景中可靠地輔助人類」,中間的距離可能比 Google 暗示的更遠,畢竟基準測試有標準答案,科學沒有。

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to
Disclaimer.
Articoli correlati
美伊戰爭最新:川普威脅炸伊朗電廠、油井,美國原油飆破100美元
美伊衝突升溫,川普威脅轟炸伊朗油電設施,推升美國原油飆破 100 美元。台股受波及大跌逾 400 點,聯準會則維持利率不變,美股與比特幣持續震盪盤整。
美伊戰爭最新戰況:川普威脅炸伊朗電廠、油井
---------------------
美以聯軍對伊朗持續展開軍事行動。根據《CNN》報導,美國總統川普(Donald Trump)威脅,若未達成協議並開放荷姆茲海峽,將摧毀伊朗發電廠與油井,此前他宣稱考慮佔領伊朗的哈爾克島。伊朗議會則批准對通過荷姆茲海峽的船隻收取過路費,並禁止美以船隻通行。
以色列軍方也針對伊朗首都德黑蘭完成大規模空襲,24 小時內打擊 170 個目標,包含無人機引擎
CryptoCity26m fa
纳斯达克自5月1日起取消10%流通股门槛,新增超大市值IPO快速通道
Gate News 消息,3 月 31 日,纳斯达克宣布自 2026 年 5 月 1 日起,正式取消 10% 流通股最低门槛要求。同时,纳斯达克新增"快速通道"规则,允许符合条件的超大市值 IPO 在约 15 个交易日内加入纳斯达克 100 指数(美国科技股基准指数)。
GateNews30m fa
TradFi Fall Alert: VIX (VIX) Falls Over 3%
Gate News: According to the latest Gate TradFi data, VIX (VIX) has dropped by 3% in a short period. Current volatility is significantly higher than recent averages, indicating increased market activity.
GateNews52m fa
SWIFT 啟動以太坊 L2 帳本,30 家銀行聯手打造全天候跨境結算
SWIFT於2023年3月30日宣布其基於區塊鏈的共享帳本進入最小可行產品(MVP)開發,預計2026年上線。這一帳本由30多家金融機構設計,支持代幣化存款、穩定幣和央行數位貨幣的即時轉移。SWIFT的區塊鏈文件旨在解決傳統跨境支付的結構性問題,提高效率和降低成本。這一私有型帳本不使用原生加密貨幣,而是依賴以太坊L2技術。
MarketWhisper1h fa
TradFi Rise Alert: XAUUSD (Gold) Rises Over 2%
Gate News: According to the latest Gate TradFi data, XAUUSD (Gold) has surged by 2% in a short period. Current volatility is significantly higher than recent averages, indicating increased market activity.
GateNews1h fa
比特幣 ETF 終結四週連漲,IBIT 單日急贖 2 億美元
美國現貨加密貨幣ETF於三月最後一周遭遇資金流出,比特幣和以太坊ETF合計流出約5.03億美元。雖然比特幣ETF曾有四周凈流入,但本周轉為贖回,主要因市場情緒惡化。以太坊ETF則持續流出,但貝萊德ETHB因質押功能錄得凈流入,顯示機構對收益型產品的關注。XRP ETF則逆勢小幅流入,但尚不足以代表市場轉向山寨幣。
MarketWhisper1h fa