V4 publica dos conjuntos de evaluaciones de razonamiento formal. En escenarios prácticos, V4-Flash-Max obtiene una puntuación de 81.00 en Putnam-200 Pass@8, superando a Seed-2.0-Prover, Gemini 3 Pro y Seed-1.5-Prover. En escenarios de vanguardia, se emplea razonamiento híbrido: primero genera una explicación en lenguaje natural y la autoverifica, luego Lean realiza una prueba rigurosa. Putnam-2025 alcanza la puntuación máxima de 120/120, empatando en primer lugar con Axiom, y por delante de Seed-1.5-Prover y Aristotle.

MeNews

2026-04-24 05:23:20

Generación de resúmenes en curso

ME News Noticias, 24 de abril (UTC+8), según la monitorización de Dongcha Beating, V4 anunció dos conjuntos de evaluaciones de razonamiento matemático formal. La competencia Putnam (Concurso Putnam) es la competencia de matemáticas de pregrado de mayor nivel en Norteamérica. En el escenario práctico (Practical Regime), V4-Flash-Max obtuvo una puntuación de 81.00 en la referencia Putnam-200 Pass@8, utilizando la herramienta de código abierto LeanExplore y muestreo restringido. Como comparación, Seed-2.0-Prover obtuvo 35.50, Gemini 3 Pro y Seed-1.5-Prover ambos 26.50. En el escenario de frontera (Frontier Regime), V4 adopta un esquema híbrido de razonamiento formal y no formal, primero generando soluciones en lenguaje natural mediante razonamiento informal, filtrando mediante auto-verificación, y luego completando pruebas estrictas en Lean con un agente formal. V4 obtuvo una puntuación perfecta de 120/120 en Putnam-2025, empatando en primer lugar con Axiom, por encima de Seed-1.5-Prover con 110/120 y Aristotle con 100/120. El escenario de frontera utilizó expansión mediante cálculo a gran escala, mientras que los resultados en el escenario práctico reflejan mejor la capacidad de despliegue convencional. (Fuente: BlockBeats)

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
WCTCTradingKingPK
173.33K Popularidad
#
CryptoMarketSeesVolatility
235.63K Popularidad
#
IsraelStrikesIranBTCPlunges
31.93K Popularidad
#
rsETHAttackUpdate
76.65K Popularidad
#
US-IranTalksStall
189.94K Popularidad

Anclado

V4 en Putnam-2025 obtuvo una puntuación perfecta de 120, el razonamiento matemático formal está a la par con Axiom

Temas de actualidad

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Anclado