Home Technologie Les pionniers de l’apprentissage du renforcement remportent le prix Turing

Les pionniers de l’apprentissage du renforcement remportent le prix Turing

44
0

Dans les années 1980, Andrew Barto et Rich Sutton étaient considérés comme des dévots excentriques à une idée élégante mais finalement condamnée – faire l’apprendre les machines, comme le font les humains et les animaux, par expérience.

Des décennies allumées, avec la method qu’ils ont dû être de plus en plus critique à l’intelligence artificielle moderne et des programmes comme Chatgpt, Barto et Sutton ont reçu le prix Turing, la plus haute distinction dans le domaine de l’informatique.

Barto, professeur émérite à l’Université du Massachusetts Amherst, et Sutton, professeur à l’Université de l’Alberta, ont pionnière une method connue sous le nom d’apprentissage par renforcement, qui implique d’amadouer un ordinateur pour effectuer des tâches grâce à l’expérimentation combinée avec des commentaires positifs ou négatifs.

«Lorsque ce travail a commencé pour moi, c’était extrêmement démodée», se souvient Barto avec un sourire, parlant sur Zoom depuis son domicile dans le Massachusetts. «Il a été remarquable que [it has] a réalisé une certaine affect et une certaine consideration », ajoute-t-il.

L’apprentissage par renforcement a peut-être été le plus célèbre par Google Deepmind en 2016 pour construire Alphago, un programme qui a appris lui-même remark jouer le jeu de société incroyablement complexe et subtil à un niveau professional. Cette démonstration a suscité un nouvel intérêt pour la method, qui a été utilisée dans la publicité, l’optimisation de la consommation d’énergie, de la finance et de la conception des puces. L’approche a également une longue histoire en robotique, où elle peut aider les machines à apprendre à effectuer des tâches physiques grâce à des essais et des erreurs.

Plus récemment, l’apprentissage du renforcement a été essential pour guider la sortie des modèles de grande langue (LLMS) et produire des programmes de chatbot extraordinairement compétents. La même méthode est également utilisée pour former des modèles d’IA pour imiter le raisonnement humain et pour construire des brokers d’IA plus compétents.

Sutton observe cependant que les méthodes utilisées pour guider les LLM impliquent que les humains fournissent des objectifs plutôt qu’un algorithme apprenant uniquement par sa propre exploration. Il dit que le fait que les machines apprennent entièrement elles-mêmes pourraient finalement être plus fructueuses. «La grande division est de savoir si [AI is] Apprendre des gens ou s’il s’agit d’apprendre de sa propre expérience », dit-il.

Le «travail de Barto et Sutton a été un lynchpin de progrès dans l’IA au cours des dernières décennies», a déclaré Jeff Dean, vice-président principal de Google, dans un communiqué publié par le Association pour les machines informatiques (ACM) qui distribue le prix Turing chaque année. «Les outils qu’ils ont développés restent un pilier central du growth de l’IA et ont fait des progrès majeurs.»

Le renforcement a une histoire longue et à carreaux au sein de l’IA. Il était là à l’aube du terrain, quand Alan Turing a suggéré que les machines pouvaient apprendre par l’expérience et les commentaires dans son célèbre article de 1950 « Machines informatiques et intelligences», Qui look at l’idée qu’une machine pourrait un jour penser comme un humain. Arthur Samuel, un pionnier de l’IA, a utilisé l’apprentissage du renforcement pour construire l’un des premiers programmes d’apprentissage automatique, un système capable de jouer aux damesen 1955.

lien source

LEAVE A REPLY

Please enter your comment!
Please enter your name here