Des chercheurs en IA ont construit un robot Minecraft capable d’explorer et d’étendre ses capacités dans le monde ouvert du jeu, mais contrairement à d’autres robots, celui-ci a essentiellement écrit son propre code via des essais et des erreurs et de nombreuses requêtes GPT-4.

Ce système expérimental, appelé Voyager, est un exemple d’embodied agent, (agent incarné en français), une IA capable de se déplacer et d’agir librement et de manière ciblée dans un environnement simulé ou réel. Les IA de type assistant personnel et les chatbots n’ont pas besoin de faire quoi que ce soit, et encore moins de naviguer dans un monde complexe pour le faire. Mais c’est exactement ce que l’on pourrait attendre d’un robot ménager à l’avenir, c’est pourquoi il y a beaucoup de recherches sur la manière dont ils pourraient le faire.

Minecraft est un bon endroit pour tester de telles choses, car il s’agit d’une représentation très (très) approximative du monde réel, avec des règles et une physique simple et directe, mais il est également suffisamment complexe et ouvert pour qu’il y ait beaucoup de choses à accomplir. Les simulateurs conçus à cet effet sont également excellents, mais ils ont leurs propres limites.

IA-Voyager explorant activement l'univers Minecraft, découvrant de nouveaux objets et compétences, surpassant significativement les performances de base
Voyager découvre continuellement de nouveaux objets et compétences dans Minecraft grâce à l’exploration autonome, ce qui surpasse considérablement les lignes de base.

Mine Dojo est un cadre de simulation construit autour de Minecraft, parce que vous ne pouvez pas simplement jeter une IA aléatoire là-dedans et vous attendre à ce qu’elle comprenne ce que tous ces blocs et cochons font. Ses créateurs ont compilé des vidéos YouTube sur le jeu, des transcriptions, des articles de wiki et tout un tas de messages Reddit de r/minecraft, entre autres choses, afin que les utilisateurs puissent construire ou peaufiner un modèle d’IA par-dessus. Il permet également d’évaluer plus ou moins objectivement ces modèles en voyant dans quelle mesure ils parviennent à construire une clôture autour d’un lama ou à trouver et extraire du diamant.

Voyager excelle dans ces tâches et obtient de bien meilleurs résultats que le seul autre modèle qui s’en approche, Auto-GPT. Mais il a une approche similaire : il utilise GPT-4 pour écrire son propre code au fur et à mesure.

Normalement, il suffirait d’entraîner un modèle sur toutes les bonnes données de Minecraft et d’espérer qu’il comprenne comment combattre les squelettes lorsque le soleil se couche. Mais Voyager commence de manière relativement naïve, et au fur et à mesure qu’il rencontre des choses dans le jeu, il a une petite conversation interne avec GPT-4 sur ce qu’il faut faire et comment le faire.

Diagramme des trois éléments principaux de Voyager : programme d'études, bibliothèque de compétences et mécanisme d'invocation.
Voyager se compose de trois éléments clés : un programme automatique pour une exploration ouverte, une bibliothèque de compétences pour des comportements de plus en plus complexes, et un mécanisme d’incitation itératif qui utilise le code comme espace d’action.

Par exemple, la nuit tombe et les squelettes sortent. L’agent a une idée générale de ce qu’il doit faire, mais il se demande : “Que ferait un bon joueur de ce jeu lorsqu’il y a des monstres à proximité ?” Eh bien, selon le GPT-4, si vous voulez explorer le monde en toute sécurité, vous devrez fabriquer et équiper une épée, puis attaquer le squelette en évitant de se faire toucher. Cette idée générale se traduit par des objectifs spécifiques : ramasser de la pierre et du bois, fabriquer une épée à la table de fabrication, l’équiper et combattre un squelette.

Une fois qu’il a fait ces choses, elles sont placées dans une bibliothèque de compétences générales, de sorte que plus tard, si la tâche consiste à “aller au fond d’une grotte pour trouver du minerai de fer”, il n’a pas besoin d’apprendre à se battre à partir de zéro. Il utilise toujours GPT, mais il utilise GPT-3.5, moins cher et plus rapide, qui lui indique quelles sont les compétences les plus pertinentes dans une situation donnée, il n’essaie donc pas de miner le squelette et de combattre le minerai.

Cela ressemble à un agent comme Auto-GPT, qui, lorsqu’il est confronté à une interface qu’il ne connaît pas, doit apprendre à naviguer afin d’atteindre son objectif. Mais Minecraft est un environnement beaucoup plus profond que ce qu’il a l’habitude de résoudre, de sorte qu’un agent spécialisé comme Voyager s’en sort beaucoup mieux. Il trouve plus de choses, acquiert plus de compétences et explore une zone beaucoup plus vaste que les autres robots.

Tableau comparatif des performances de Voyager et d'AutoGPT sur des tâches inconnues avec l'aide de la bibliothèque de compétences issue de l'apprentissage continu.
L’image montre un test d’efficacité sur Voyager dans un nouvel environnement, où son inventaire a été vidé et des tâches inédites lui ont été proposées. Les résultats sont présentés sous forme de fractions, indiquant le nombre d’essais réussis sur trois, et de nombres, représentant la moyenne d’itérations nécessaires pour réussir les tâches. Voyager réussit constamment toutes les tâches, alors que les méthodes de base requièrent au moins 50 itérations. L’efficacité de Voyager est améliorée grâce à une bibliothèque de compétences acquise via un apprentissage continu. Cette bibliothèque augmente aussi les performances d’AutoGPT, preuve de sa polyvalence et de son utilité pour améliorer les performances générales.

Il est intéressant de noter, mais peut-être pas surprenant, que GPT-4 surpasse GPT-3.5 lorsqu’il s’agit de générer du code utile. Lors d’un test où le premier a été remplacé par le second, l’agent s’est heurté à un mur dès le début, peut-être littéralement, et n’a pas progressé. Il n’est peut-être pas évident, en discutant avec les deux modèles, que l’un d’eux est beaucoup plus intelligent, mais la vérité est qu’il n’est pas nécessaire d’être très intelligent pour avoir une conversation apparemment intelligente. Le codage est beaucoup plus difficile, et GPT-4 a été une vraie révolution dans ce domaine.

Le but de cette recherche n’est pas de rendre les joueurs de Minecraft obsolètes, mais de trouver des méthodes permettant à des modèles d’IA relativement simples de s’améliorer en fonction de leur “expérience”, faute d’un meilleur mot. Si nous voulons que des robots nous aident dans nos maisons, nos hôpitaux et nos bureaux, ils doivent apprendre et appliquer ces leçons à leurs actions futures.

Traduit et adapté de l’anglais depuis techcrunch.com.

5 / 5 - (2 votes)