Physical Intelligence présente l'architecture MEM pour donner aux robots la mémoire nécessaire aux tâches du monde réel

2026-03-05 14:49:19

En résumé

Les chercheurs ont développé la Mémoire Embodiment Multi-Échelle (MEM), un système qui donne aux robots une mémoire à court et à long terme afin qu’ils puissent suivre leur progression et accomplir des tâches complexes plutôt que de simplement exécuter des actions isolées.

Pendant des années, le rêve d’un robot domestique vraiment utile a été trompeusement proche. Les robots peuvent déjà suivre des commandes comme « laver la poêle », « plier le linge » ou « faire un sandwich ». En laboratoire, ces systèmes démontrent une dextérité et une précision impressionnantes. Pourtant, malgré les progrès rapides des modèles robotiques de base, quelque chose d’essentiel manquait : la mémoire.

Un robot capable d’exécuter une seule tâche n’est pas la même chose qu’un robot capable de terminer un travail. Nettoyer toute une cuisine, cuisiner un repas ou préparer des ingrédients pour une recette nécessite plus que des compétences isolées. Cela demande de la continuité — la capacité de se souvenir de ce qui a déjà été fait, de ce qui doit encore l’être, et de l’emplacement de chaque chose. Sans ce fil narratif, même le robot le plus compétent devient étonnamment incompétent.

C’est le défi que les chercheurs en Intelligence Physique tentent maintenant de résoudre avec une nouvelle architecture appelée Mémoire Embodiment Multi-Échelle (MEM) — un système conçu pour donner aux robots une mémoire à court et à long terme afin qu’ils puissent réaliser des tâches qui se déroulent sur plusieurs minutes plutôt que quelques secondes.

Les résultats laissent entrevoir quelque chose d’important : l’avenir de la robotique pourrait dépendre moins de meilleures mains mécaniques et plus d’une meilleure architecture cognitive.

Les modèles robotiques modernes possèdent déjà une bibliothèque remarquable de compétences motrices. Ils peuvent saisir des objets fragiles, manipuler des outils et naviguer dans des environnements encombrés. Mais demander à un robot de nettoyer une cuisine entière — essuyer les comptoirs, ranger les courses, laver la vaisselle et organiser les ustensiles — et les limites deviennent rapidement évidentes.

Le problème ne réside pas dans les compétences elles-mêmes. Le problème réside dans la façon dont ces compétences sont coordonnées. Les tâches complexes nécessitent une conscience persistante. Un robot doit se souvenir des armoires qu’il a déjà ouvertes, de l’endroit où il a placé un couvercle de casserole, ou s’il a déjà lavé une assiette. Il doit aussi suivre des objets qui sortent de son champ de vision et maintenir une carte mentale de l’environnement tout en effectuant de nouvelles actions.

La cognition humaine réalise cela sans effort. Les machines, jusqu’à récemment, ne le pouvaient pas. Stocker chaque observation qu’un robot voit pendant des minutes ou des heures est impossible en termes de calcul. Mais abandonner cette information conduit à un comportement chaotique — erreurs répétées, étapes oubliées ou actions qui contredisent des décisions antérieures. Dans la recherche en robotique, ce défi est parfois décrit comme une « confusion causale », où les systèmes interprètent mal les événements passés et renforcent de mauvais comportements.

Le résultat : des robots qui paraissent impressionnants lors de courtes démonstrations mais peinent à réaliser des tâches dans le monde réel.

Un système de mémoire pour l’Intelligence Physique

L’architecture MEM aborde ce problème en introduisant une structure de mémoire à plusieurs couches. Au lieu de tout stocker de manière égale, le système sépare la mémoire en deux formes complémentaires :

La mémoire visuelle à court terme capture les observations récentes grâce à une architecture d’encodage vidéo efficace. Cela permet au robot de comprendre le mouvement, de suivre des objets entre les images, et de se souvenir d’événements survenus il y a quelques secondes — essentiel pour des actions précises comme retourner un sandwich au fromage ou frotter une assiette.

La mémoire conceptuelle à long terme, quant à elle, stocke la progression de la tâche sous forme de langage naturel. Plutôt que de se souvenir indéfiniment de données visuelles brutes, le robot écrit de brèves « notes » textuelles décrivant ce qui s’est passé — des déclarations comme « j’ai mis la casserole dans l’évier » ou « j’ai récupéré le lait dans le frigo ».

Ces résumés deviennent une partie du processus de raisonnement du robot. En effet, la machine construit sa propre narration de la tâche. Le moteur de raisonnement du système décide alors simultanément : quelle action effectuer ensuite et quelles informations méritent d’être mémorisées. Cette combinaison permet au modèle de suivre des tâches pouvant durer jusqu’à quinze minutes — bien plus longtemps que la plupart des démonstrations robotiques précédentes.

Une des capacités les plus intrigantes permises par MEM est l’adaptation en contexte. Les robots font des erreurs. C’est inévitable. Mais la plupart des systèmes robotiques répètent ces erreurs indéfiniment parce qu’ils n’ont pas de mémoire de l’échec.

La différence devient évidente lors d’expériences simples. Dans un test, un robot tente de saisir une baguette plate. Sans mémoire, la machine essaie sans cesse la même prise infructueuse. Avec la mémoire activée, le robot se souvient de l’échec et essaie une approche différente — réussissant finalement.

Un autre exemple concerne l’ouverture d’un réfrigérateur. À partir des données visuelles seules, le robot ne peut pas immédiatement déterminer dans quelle direction la porte s’ouvre. Un système sans mémoire répète simplement la même action encore et encore. Un robot avec mémoire essaie une direction, se souvient de l’échec, puis tente l’autre côté.

Ces petits ajustements représentent quelque chose de profond : la capacité d’apprendre dans le cadre même de la tâche. Au lieu de dépendre entièrement des données d’entraînement, le robot s’adapte en temps réel.

Les chercheurs ont évalué le système doté de mémoire sur des tâches de plus en plus complexes. D’abord un défi relativement simple : faire un sandwich au fromage grillé. Cela nécessitait une mémoire à court terme pour gérer le timing tout en effectuant des étapes délicates comme retourner le pain et dresser le sandwich.

Ensuite, une tâche logistique : récupérer des ingrédients pour une recette. Le robot devait se souvenir des objets déjà collectés, de leur emplacement, et si les tiroirs et armoires avaient été fermés. Enfin, le scénario le plus exigeant : nettoyer toute une cuisine.

Cela impliquait de ranger les objets, laver la vaisselle, essuyer les comptoirs et suivre les parties de la pièce déjà nettoyées.

Le modèle avec mémoire augmentée surpassait nettement les versions sans mémoire structurée, montrant une plus grande fiabilité et des taux d’achèvement de tâche supérieurs.

La différence illustre un changement clé en robotique. Au lieu d’optimiser des actions isolées, les chercheurs construisent désormais des systèmes capables de flux de travail soutenus.

Pourquoi la mémoire est la prochaine frontière en robotique

L’implication plus large de MEM est que la robotique entre dans une nouvelle phase. Pendant des décennies, le domaine s’est concentré sur la perception et le contrôle : aider les machines à voir le monde et à manipuler des objets. Plus récemment, de grands modèles multimodaux ont considérablement amélioré la capacité des robots à interpréter des instructions et à exécuter des comportements moteurs complexes.

Mais à mesure que ces capacités mûrissent, le goulot d’étranglement a changé. Le prochain défi est la continuité cognitive — permettre aux robots d’opérer sur de longues périodes sans perdre de vue leurs objectifs. Les systèmes de mémoire comme MEM fournissent l’échafaudage pour cette continuité. Au lieu de réagir instantanément, les robots peuvent maintenir une narration interne de leurs actions, décisions et environnement. Cette narration est ce qui permet l’émergence d’un comportement complexe.

Si cette approche continue d’évoluer, ses implications dépasseront largement le simple nettoyage de cuisines. Les futurs robots pourraient devoir suivre des instructions qui se déploient sur des heures, voire des jours. Imaginez dire à un assistant domestique :

« Je rentre à la maison à 18h — prépare le dîner et nettoie la maison le mercredi. »

Exécuter une telle demande nécessiterait de déchiffrer de longues instructions, de planifier des sous-tâches, de se souvenir des progrès et de s’adapter en cas de problème.

Maintenir un historique vidéo brut de chaque action pendant si longtemps serait impossible. Au lieu de cela, les robots s’appuieraient probablement sur des systèmes de mémoire hiérarchiques, où les expériences sont compressées en représentations de plus en plus abstraites.

MEM est une étape précoce vers cette architecture. Elle suggère que la clé pour des robots plus performants ne réside pas dans des moteurs plus puissants ou des capteurs plus précis, mais dans une meilleure mémoire — et la capacité de raisonner à son sujet. Si les robots peuvent enfin se souvenir de ce qu’ils font, ils pourront peut-être enfin terminer leur tâche.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.