Google PaLM-E, une IA capable de comprendre le langage et la vision

Google (filiale de Alphabet) vient de dévoiler son dernier modèle d’intelligence artificielle, baptisé PaLM-E (Pathways Language Model – Embodied). Il s’agit d’un cerveau pour robots qui combine le langage et la vision pour interagir avec les humains et réaliser des tâches variées.

Google PaLM-E, le ChatGPT de la robotique

Google a présenté le 6 mars son nouveau modèle d’intelligence artificielle multimodale, baptisé PaLM-E. Il s’agit d’un cerveau robotique généraliste qui combine la vision et le langage pour générer des actions appropriées en fonction du contexte et des besoins de l’utilisateur.

PaLM-E est basé sur PaLM, un modèle de langage pré-entraîné avec 562 milliards de paramètres provenant du web et capable de prédire le prochain mot ou la prochaine phrase à partir d’un texte donné. PaLM est similaire à la technologie derrière ChatGPT, un modèle de dialogue développé par Microsoft.

PaLM-E se distingue de PaLM par le fait qu’il intègre également des informations visuelles et qu’il peut contrôler différents robots dans des environnements simulés ou réels. Il dispose aussi d’une mémoire externe qui lui permet de stocker et de récupérer des informations pertinentes au fil du temps.

Une IA déjà en cours de test en Allemagne

Les chercheurs de Google et de l’université technique de Berlin (TU Berlin) ont testé les performances de PaLM-E sur plusieurs tâches impliquant la vision et le langage, comme la génération automatique de légendes pour des images, la réponse à des questions visuelles ou la manipulation d’objets avec un bras robotique.

Ils ont montré que PaLM-E était capable d’apprendre continuellement à partir de ses expériences et d’adapter son comportement en fonction du contexte. Par exemple, il pouvait comprendre des commandes naturelles comme “prends le cube rouge” ou “donne-moi l’objet le plus proche” et les exécuter correctement avec le robot.

PaLM-E a également démontré sa capacité à raisonner en chaîne sur plusieurs étapes pour accomplir une tâche complexe. Par exemple, il pouvait répondre à une question comme “quelle est la couleur du cube qui se trouve sous le triangle bleu ?” en analysant l’image et en inférant les relations spatiales entre les objets.

PaLM-E à la pointe de l’IA ?

Les chercheurs ont comparé PaLM-E à d’autres modèles multimodaux existants et ont constaté qu’il surpassait tous ses concurrents sur les tâches visuelles et linguistiques. Ils ont également souligné que PaLM-E était plus généraliste et plus flexible que les modèles spécialisés pour une seule tâche ou un seul type de robot.

PaLM-E représente donc une avancée majeure dans le domaine de l’intelligence artificielle incarnée, qui vise à doter les machines d’une compréhension globale du monde physique et social. Il ouvre la voie à des applications variées dans les domaines de la robotique, du divertissement ou de l’éducation.

Etude en source de cet article : palm-e.github.io

Partagez cet article

Cookie	Durée	Description
cookielawinfo-checkbox-analytics	12 mois	ce cookie est utilisé pour enregistrer le consentement de l'utilisateur pour les cookies de la catégorie "Mesure d'audience".
cookielawinfo-checkbox-necessary	12 mois	Gestion de l'affichage du bandeau d'information.
CookieLawInfoConsent	12 mois	Enregistrement de l'absence d'affichage du bandeau.
viewed_cookie_policy	12 mois	Enregistrement de l’ouverture de la politique cookies.
wpEmojiSettingsSupports	session	WordPress sets this cookie when a user interacts with emojis on a WordPress site. It helps determine if the user's browser can display emojis properly.

Cookie	Durée	Description
_ga	13 mois	Ce cookie Google Analytics sert à calculer les données des visiteurs, des sessions et des campagnes et suivre l’utilisation du site pour le rapport d’analyse du site. Le cookie stocke des informations et attribue un numéro généré de manière aléatoire pour reconnaître les visiteurs uniques.
_ga_6GM9ENGSPF	13 mois	Ce cookie Google Analytics sert à calculer les données des visiteurs, des sessions et des campagnes et suivre l’utilisation du site pour le rapport d’analyse du site. Le cookie stocke des informations et attribue un numéro généré de manière aléatoire pour reconnaître les visiteurs uniques.

Google PaLM-E, une IA capable de comprendre le langage et la vision

Google PaLM-E, le ChatGPT de la robotique

Une IA déjà en cours de test en Allemagne

PaLM-E à la pointe de l’IA ?

Publications similaires