V4 en Putnam-2025 obtuvo una puntuación perfecta de 120, el razonamiento matemático formal está a la par con Axiom

robot
Generación de resúmenes en curso

ME News Noticias, 24 de abril (UTC+8), según la monitorización de Dongcha Beating, V4 anunció dos conjuntos de evaluaciones de razonamiento matemático formal. La competencia Putnam (Concurso Putnam) es la competencia de matemáticas de pregrado de mayor nivel en Norteamérica. En el escenario práctico (Practical Regime), V4-Flash-Max obtuvo una puntuación de 81.00 en la referencia Putnam-200 Pass@8, utilizando la herramienta de código abierto LeanExplore y muestreo restringido. Como comparación, Seed-2.0-Prover obtuvo 35.50, Gemini 3 Pro y Seed-1.5-Prover ambos 26.50. En el escenario de frontera (Frontier Regime), V4 adopta un esquema híbrido de razonamiento formal y no formal, primero generando soluciones en lenguaje natural mediante razonamiento informal, filtrando mediante auto-verificación, y luego completando pruebas estrictas en Lean con un agente formal. V4 obtuvo una puntuación perfecta de 120/120 en Putnam-2025, empatando en primer lugar con Axiom, por encima de Seed-1.5-Prover con 110/120 y Aristotle con 100/120. El escenario de frontera utilizó expansión mediante cálculo a gran escala, mientras que los resultados en el escenario práctico reflejan mejor la capacidad de despliegue convencional. (Fuente: BlockBeats)

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado