Meta AI lance le modèle de monde prédictif d'intégration conjointe pour la planification physique JEPA-WMs

Nouvelles de ME : Le 3 avril (UTC+8), l’équipe de recherche Meta AI Research a publié le modèle JEPA-WMs de prédiction du monde à plongements conjoints, ainsi que ses recherches associées, pour la planification physique. Cette étude examine les facteurs clés à l’origine du succès du modèle et fournit une implémentation complète en PyTorch, ainsi que des ensembles de données et des modèles préentraînés. Les modèles publiés comprennent le JEPA-WM principal, ainsi que les modèles DINO-WM et V-JEPA-2-AC(fixed) en tant que références (baselines), couvrant plusieurs environnements d’opérations et de navigation robotisées, tels que DROID & RoboCasa, Metaworld, Push-T, PointMaze et Wall. Le modèle utilise des encodeurs visuels comme DINOv3 ViT-L/16, DINOv2 ViT-S/14 et V-JEPA-2 ViT-G/16, et la résolution des images en entrée est principalement de 224×224 ou 256×256. Le projet propose également une tête de décodeur optionnelle VM2M pour la visualisation et le décodage de trajectoire, mais souligne que ce décodeur n’est pas nécessaire pour entraîner un modèle du monde ou effectuer des évaluations de planification. Toutes les ressources ont été rendues publiques sur GitHub, Hugging Face et arXiv. (Source : InFoQ)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler