Home Technologie Les chercheurs proposent une meilleure façon de signaler des défauts d’IA dangereux

Les chercheurs proposent une meilleure façon de signaler des défauts d’IA dangereux

13
0

Fin 2023, une équipe de chercheurs tiers a découvert un problème troublant dans le modèle d’intelligence artificielle largement utilisée d’Openai GPT-3.5.

Lorsqu’on lui a demandé de répéter certains mots mille fois, le modèle a commencé à répéter le mot encore et encore, puis soudain Chassé pour cracher Texte incohérent et extraits d’informations personnelles tirés de ses données de formation, y compris des events de noms, des numéros de téléphone et des adresses e-mail. L’équipe qui a découvert le problème a fonctionné avec OpenAI pour s’assurer que le défaut a été fixé avant de le révéler publiquement. Ce n’est qu’un des dizaines de problèmes trouvés dans les principaux modèles d’IA ces dernières années.

Dans un proposition publiée aujourd’huiplus de 30 chercheurs d’IA éminents, dont certains qui ont trouvé le défaut GPT-3.5, disent que de nombreuses autres vulnérabilités affectant des modèles populaires sont signalées de manière problématique. Ils suggèrent un nouveau programme soutenu par des sociétés d’IA qui donne aux étrangers la permission de sonder leurs modèles et un moyen de divulguer publiquement les défauts.

«En ce second, c’est un peu le Far West», dit Shayne Longpreun doctorant au MIT et auteur principal de la proposition. Longpre dit que certains soi-disant jailbreakers partagent leurs méthodes de rupture d’IA protègent la plate-forme de médias sociaux X, laissant les modèles et les utilisateurs à risque. D’autres jailbreaks sont partagés avec une seule entreprise, même s’ils pourraient affecter beaucoup. Et certains défauts, dit-il, sont gardés secrètes en raison de la peur d’être interdits ou de la poursuite pour avoir brisé les circumstances d’utilisation. «Il est clair qu’il y a des effets effrayants et de l’incertitude», dit-il.

La sécurité et la sécurité des modèles d’IA sont extrêmement importantes étant donné que la technologie est maintenant utilisée et remark elle peut s’infiltrer dans d’innombrables purposes et providers. Des modèles puissants doivent être testés au stress ou en rouge, automobile ils peuvent héberger des biais nocifs, et parce que certaines intrants peuvent les faire libérer des garde-corps et produire des réponses désagréables ou dangereuses. Il s’agit notamment d’encourager les utilisateurs vulnérables à adopter un comportement nocif ou à aider un mauvais acteur à développer des armes cyber, chimiques ou biologiques. Certains specialists craignent que les modèles puissent aider les cybercriminels ou les terroristes, et peuvent même se retourner contre les humains à mesure qu’ils avancent.

Les auteurs suggèrent trois mesures principales pour améliorer le processus de divulgation de tiers: adopter des rapports de défaillance d’IA standardisés pour rationaliser le processus de déclaration; pour que les grandes entreprises d’IA fournissent des infrastructures aux chercheurs tiers qui divulguent des défauts; et pour développer un système qui permet de partager les défauts entre différents fournisseurs.

L’approche est empruntée au monde de la cybersécurité, où il existe des protections juridiques et des normes établies pour que les chercheurs externes divulguent des bogues.

«Les chercheurs d’IA ne savent pas toujours remark divulguer un défaut et ne peuvent pas être certains que leur divulgation de faille de bonne foi ne les exposera pas à un risque juridique», explique Ilona Cohen, chef de la route et des politiques chez Hackeroneune entreprise qui organise des primes de bogues et un coauteur sur le rapport.

Les grandes sociétés d’IA effectuent actuellement des exams de sécurité approfondis sur les modèles d’IA avant leur libération. Certains contractent également avec des entreprises externes pour approfondir davantage. «Y a-t-il suffisamment de gens dans ces [companies] Pour résoudre tous les problèmes avec les systèmes d’IA à utilization général, utilisés par des centaines de thousands and thousands de personnes dans des purposes que nous n’avons jamais rêvées? » Longpre demande. Certaines sociétés d’IA ont commencé à organiser des primes de bugs d’IA. Cependant, LongPre dit que les chercheurs indépendants risquent de briser les termes d’utilisation s’ils prennent sur eux pour sonder de puissants modèles d’IA.

lien source

LEAVE A REPLY

Please enter your comment!
Please enter your name here