Entrenamiento de la generación V4: OPD reemplaza el RL híbrido, más de diez modelos expertos se destilan en uno

robot
Generación de resúmenes en curso

Según la monitorización de Beating, la metodología de entrenamiento posterior a DeepSeek V4 ha sufrido cambios importantes: la fase de RL mezclado de V3.2 fue completamente reemplazada por la Destilación en Política en línea (OPD, Online Policy Distillation).

El nuevo proceso consta de dos pasos. El primero, para los campos de matemáticas, código, agentes y seguimiento de instrucciones, entrena modelos expertos en cada campo basándose en la línea de producción de V3.2, donde cada experto primero realiza un ajuste fino y luego usa GRPO para aprendizaje por refuerzo. El segundo paso, utiliza OPD con múltiples docentes para destilar las capacidades de más de diez expertos en un modelo unificado: el estudiante en sus propias trayectorias generadas realiza una destilación de logits de toda la vocabulario mediante divergencia KL inversa para cada docente, fusionando los pesos de múltiples expertos en un espacio de parámetros unificado a través de la alineación a nivel de logits, evitando conflictos de capacidades comunes en la fusión de pesos tradicionales y RL mezclado.

El informe también propone el Modelo de Recompensa Generativa (GRM, Generative Reward Model): para tareas difíciles de verificar mediante reglas, en lugar de entrenar un modelo de recompensa escalar tradicional, se entrena un GRM con datos de RL guiados por rúbricas, permitiendo que la red actor tenga capacidades tanto de generación como de evaluación, y con una cantidad pequeña y diversa de anotaciones humanas puede generalizar a tareas complejas.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado