DeepSeek V4 на Putnam-2025 отримав 120 балів із максимально можливих, формалізоване математичне доведення рівне Axiom

Згідно з моніторингом Beating, DeepSeek V4 оприлюднив дві групи формалізованих математичних оцінювань. Putnam (змагання Путнама) є найвищим рівнем бакалаврських математичних змагань у Північній Америці.

У практичних сценаріях (Practical Regime) V4-Flash-Max набрав 81.00 балів на базі Putnam-200 Pass@8, використовуючи відкриті інструменти LeanExplore та обмежене зразкування. Для порівняння, Seed-2.0-Prover має 35.50, Gemini 3 Pro і Seed-1.5-Prover — по 26.50.

У передових сценаріях (Frontier Regime) V4 застосовує гібридний підхід — неформальне та формальне міркування, спочатку генерує кандидатські природномовні рішення за допомогою неформального мислення, після самоперевірки фільтрує їх, а потім формальний агент у Lean виконує строгі доведення. V4 отримав ідеальний бал 120/120 на Putnam-2025, посівши перше місце разом з Axiom, перевищуючи Seed-1.5-Prover з 110/120 та Aristotle з 100/120. У передових сценаріях застосовуються масштабні обчислювальні розширення, тоді як результати у практичних сценаріях краще відображають здатність до звичайного розгортання.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити