OpenAI, l’organisation de recherche en intelligence artificielle fondée par Elon Musk, a entraîné une IA à jouer à Minecraft presque aussi bien que les humains. Cela n’a pris qu’environ 70 000 heures à regarder des vidéos sur YouTube.

Un article de blog détaillant l’exploit révèle que les chercheurs ont utilisé une technique appelée “Video PreTraining (VPT)” pour former un réseau neuronal sur la façon de jouer à Minecraft. Pour ce faire, ils ont rassemblé 2 000 heures d’échantillons de données provenant de véritables humains jouant à Minecraft. Ces données ne comprennent pas seulement la vidéo brute, mais aussi les pressions exactes sur les touches et les mouvements de la souris.

Un aperçu de la méthode VPT minecraft
Un aperçu de la méthode VPT.

À partir de là, les chercheurs ont entraîné un modèle de dynamique inverse (IDM) à prédire l’action future à chaque étape des vidéos. Enfin, ils ont montré à l’IDM “entraîné” 70 000 heures de vidéos YouTube de Minecraft. Ensuite, le modèle a pu copier les comportements des vidéos, notamment couper des arbres pour collecter des bûches et transformer les bûches en une véritable table de fabrication.

En outre, le modèle exécute d’autres compétences complexes que les humains font souvent dans le jeu, comme nager, chasser des animaux pour se nourrir et manger cette nourriture. Il a également appris la technique du “saut de pilier”, un comportement courant dans Minecraft qui consiste à s’élever en sautant de manière répétée et en plaçant un bloc sous soi.

OpenAI

Les chercheurs ont pu créer un “modèle de base” fondé sur les données fournies à l’IA et, à partir de là, affiner les comportements ou en apprendre de nouveaux. L’IA était capable d’exécuter des compétences de début de jeu telles que la fabrication d’outils en bois et en pierre, le pillage de coffres et même la construction d’abris.

“Nous avons formé un réseau neuronal pour jouer de manière compétente à Minecraft en le préformant sur un grand ensemble de données vidéo non étiquetées de jeu humain de Minecraft et une petite quantité de données étiquetées d’entrepreneur.”

Plus le nombre d’heures de données introduites dans le modèle de base est élevé, plus l’IA est performante. Les chercheurs ont même utilisé l'”apprentissage par renforcement” pour “récompenser” l’IA lorsqu’elle relevait des défis particulièrement difficiles. Le système de récompense a été utilisé de manière si efficace que le modèle a pu fabriquer avec succès une pioche en diamant, une tâche qui nécessite une longue séquence d’opérations.

Il s’agit d’une application fascinante de l’apprentissage automatique qui montre comment les jeux peuvent être utilisés pour former des ordinateurs. Le modèle d’IA utilisé pourrait peut-être même être incorporé dans les jeux eux-mêmes afin d’offrir un défi plus naturel, semblable à celui de jouer contre des adversaires humains.

Source : ign.com

4.7 / 5 - (3 votes)