Згідно з моніторингом Beating, DeepSeek V4 оприлюднив дві групи формалізованих математичних оцінювань. Putnam (змагання Путнама) є найвищим рівнем бакалаврських математичних змагань у Північній Америці.

У практичних сценаріях (Practical Regime) V4-Flash-Max набрав 81.00 балів на базі Putnam-200 Pass@8, використовуючи відкриті інструменти LeanExplore та обмежене зразкування. Для порівняння, Seed-2.0-Prover має 35.50, Gemini 3 Pro і Seed-1.5-Prover — по 26.50.

У передових сценаріях (Frontier Regime) V4 застосовує гібридний підхід — неформальне та формальне міркування, спочатку генерує кандидатські природномовні рішення за допомогою неформального мислення, після самоперевірки фільтрує їх, а потім формальний агент у Lean виконує строгі доведення. V4 отримав ідеальний бал 120/120 на Putnam-2025, посівши перше місце разом з Axiom, перевищуючи Seed-1.5-Prover з 110/120 та Aristotle з 100/120. У передових сценаріях застосовуються масштабні обчислювальні розширення, тоді як результати у практичних сценаріях краще відображають здатність до звичайного розгортання.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingKingPK
167.74K Популярність
#
CryptoMarketSeesVolatility
231.98K Популярність
#
IsraelStrikesIranBTCPlunges
31.91K Популярність
#
rsETHAttackUpdate
74.59K Популярність
#
US-IranTalksStall
180.25K Популярність

Закріпити

карта сайту

DeepSeek V4 на Putnam-2025 отримав 120 балів із максимально можливих, формалізоване математичне доведення рівне Axiom

Популярні теми

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Закріпити