David Ríos Insua : « Les systèmes d’IA ne peuvent pas être déployés à la légère »

De plus en plus de décisions leur reviennent. Une tendance peut-être irréversible, même si elle n’est pas programmée pour être infaillible. Les algorithmes ont des biais, ils font des erreurs, ils hallucinent même, un terme qui humanise l’IA lorsqu’elle donne la mauvaise réponse. Mais il existe d’autres types d’erreurs qui se produisent en raison de l’attaque de quelqu’un avec son propre agenda, qui cherche à nuire délibérément.

Des chercheurs du Center for AI Safety de l’Université de Stanford ont forcé ChatGPT à leur fournir un plan sur la façon de manipuler psychologiquement une personne, ce que le système n’a bien sûr pas le droit de faire. Mais les risques vont plus loin. Les attaquants cherchent des moyens de contourner les filtres de modération de contenu sur les réseaux sociaux ou de diffuser de la désinformation ; ils pourraient faire en sorte qu'une voiture autonome dépasse les limites de vitesse. Ou quelque chose de pire. Ils cajolent les machines.

Est-ce que vous trébuchez sur l'IA ?

En fait, je fais partie de la bonne équipe. Mais pour faire face au problème, nous devons apprendre les attaques possibles et nous mettre à la place du méchant. Ce que nous essayons de faire, c’est de créer des systèmes plus robustes, capables de résister aux attaques. Ces systèmes sont utilisés dans les systèmes de défense, de guerre ou dans les voitures autonomes. Et il est concevable de les tromper dans un certain but, comme escroquer une compagnie d'assurance, faire avancer un missile dans une autre direction ou faire accélérer une voiture au lieu de freiner.

Alors, peuvent-ils être déjoués ?

Ce n'est pas si simple, mais les gens qui essaient sont très intelligents, très compétents et ont des intérêts derrière eux.

Économique?

Bien entendu, un exemple très simple serait un filtre anti-spam. Lorsque la personne qui envoie le spam se rend compte que vous êtes protégé, elle modifie légèrement le message pour contourner cette barrière. Son but ici serait de continuer à faire des affaires, de continuer à faire passer le message pour que vous cliquiez.

« L’apprentissage automatique contradictoire » n’est pas un terme intuitif. D'où il vient?

De l’anglais Adversarial Machine Learning. Disons que les tâches d'apprentissage automatique d'une machine sont rendues difficiles par quelqu'un qui souhaite que cette tâche se passe mal.

Pourquoi les IA devraient-elles être sûres ?

Parce que nous déployons de plus en plus de systèmes pour prendre des décisions de manière autonome. Et dans certains domaines, il s’agit de décisions importantes, par exemple lorsque des vies humaines sont en jeu ou lorsqu’il existe un risque d’impact environnemental. Ils ne peuvent pas être déployés à la légère. Une série de problèmes possibles doivent être considérés.

Quel rôle la législation adoptée par l’Union européenne jouera-t-elle ici ?

C'est tout à fait pertinent. Il établit des niveaux de risque et fixe des lignes directrices sur les caractéristiques souhaitables des systèmes, par exemple s'ils sont sécurisés et robustes contre les attaques. Les réglementations vont inciter les gens à se soucier davantage de leur sécurité.

Ce que les États-Unis développent est utilisé par l’Europe…

Oui, mais s’ils veulent opérer dans l’UE, ils devront le faire avec ces locaux. L’idée est que l’Europe dispose des outils pour y parvenir. La loi est technologiquement neutre, mais elle parle bien d’un bac à sable, un environnement sécurisé pour tester les algorithmes, avant leur déploiement opérationnel.

Que peut-il se passer si un modèle de langage, tel que le moteur ChatGPT, est attaqué ?

Se voir poser des questions et donner des réponses inappropriées qui favorisent la violence ou la désinformation.

Et comment l'inciter à faire ça ?

Des attaques contre des modèles de langage ont été démontrées. L’une de ces méthodes tire parti d’un modèle qui est dans une certaine mesure public, en termes d’algorithme et de paramètres. Il a été amené à dire des choses qu'il n'aurait pas dû dire. Et ces vulnérabilités pourraient être transférées vers des systèmes plus opaques, tels que ChatGPT, etc.

La sécurité de l’IA dépendra de la réglementation. Ce à quoi nous devrions nous attendre, c’est qu’ils fixent des limites plus exigeantes que les humains, et que les machines fassent moins d’erreurs que nous.

Ces vulnérabilités sont-elles courantes ?

Je dirais que c'est quelque chose de général. Nous avons fait des expériences dans plusieurs domaines, avec la vision, avec le texte, avec les recommandataires [estudian las preferencias de los usuarios para sugerir, por ejemplo, contenidos], et je pense que c'est général à tous les algorithmes d'apprentissage automatique. Nous pourrions avoir un véhicule autonome qui devrait freiner mais ne le fait pas, ou un filtre de contenu qui devrait arrêter les fausses nouvelles potentielles mais les laisser passer.

Comment attaquer une voiture autonome ?

Des expériences ont été réalisées en plaçant un petit autocollant sur un panneau d'arrêt. Le système, qui doit reconnaître l'arrêt, détecte un panneau Cédez le passage. Au lieu de s'arrêter, le véhicule continue s'il ne voit aucune voiture. Quelque chose de similaire se produit avec un panneau interdisant de conduire à plus de 30, avec cet autocollant, la voiture reconnaît que vous pouvez aller à 80, donc, au lieu d'aller lentement, elle va beaucoup plus vite.

Laissez un autocollant créer tout ce bruit…

Cela trompe la vision artificielle. Le système reçoit une image, qui est en réalité un tableau de nombres. Cet autocollant, placé de manière spécifique pour profiter d'une certaine vulnérabilité, modifie la matrice et perturbe le système. L'IA devrait reconnaître un trois dans le signal, mais décide qu'il s'agit, avec une forte probabilité, d'un huit.

La solution?

Il n’y en a pas encore assez pour nous protéger. Les chercheurs qui ont découvert ces vulnérabilités appellent l’attention de nombreuses personnes à se consacrer à travailler dans ce domaine et à rendre les systèmes plus sûrs. Tous les supports dont nous disposons, qu’il s’agisse de textes, d’images ou de voix, ont été piratés.

Si je transcris cette interview avec un système d’IA, au-delà de présenter quelques erreurs, quelles conséquences aurait un hack ?

Le système ferait des erreurs, mais si quelqu'un vous pirate pour une raison quelconque, il pourrait se ridiculiser, moi ou vous. Même si j'espère qu'avant de le publier, vous le réviserez [risas]. C'est un peu tiré par les cheveux, mais quelqu'un aurait pu entraîner votre transcripteur parole-texte à commettre des erreurs.

Quels sont les principaux risques de sécurité pour les systèmes utilisés ?

Nous ne disposons toujours pas d’algorithmes suffisamment robustes pour faire face en toute sécurité à d’éventuelles attaques. Il existe des risques associés tels que les biais et le manque d’équité, qui sont également importants. Mais en matière de sécurité, c'est là le problème.

David Ríos est titulaire de la chaire de recherche AXA-ICMAT en analyse des risques contradictoires.Jacobo Medrano

Existe-t-il des cas très médiatisés de ces attaques ?

Ce n’est pas connu, mais des exemples potentiels. D'autres exemples sont les images médicales. Lors de l'analyse d'une image, le radiologue artificiel devrait dire qu'il n'y a pas de cancer, mais le modifier légèrement vous indique qu'il y en a avec une forte probabilité.

Pouvez-vous expliquer l’assaut contre un modèle d’IA ?

Vous entraînez l’algorithme avec un type de données, mais lorsque vous le mettez en service, il fonctionnera avec un autre environnement. L'attaquant peut modifier la façon dont il s'est entraîné. Ou, si les données reçues par le modèle proviennent d'une source, vous pouvez modifier cette source.

C'est ce qu'on appelle un empoisonnement…

Oui, un cas serait le spam. L'empoisonnement ajoute quelques bons mots et vous risquez davantage de tromper le filtre. Ou les personnages sont modifiés. Par exemple, au lieu d'un « a », vous mettez un « @ » ; Nous le lisons de la même manière, mais les algorithmes ne sont pas capables de le capturer comme un « a ».

Comment atténuer le risque ?

Le modèle peut être renforcé lors de l’entraînement avec des données propres, mais aussi avec des données attaquées. Une autre solution consiste à essayer de fonctionner de manière robuste une fois qu'il est déjà opérationnel. Dans ce cas, lorsque vous recevez les données, avant qu’elles ne déclenchent une décision, nous pouvons les traiter pour voir si elles sont nuisibles et les éliminer. Il y aura des environnements dans lesquels le système traitera les données lui-même et d'autres dans lesquels il informera l'humain pour lui demander son avis.

Si une sécurité complète est impossible, où tracer la limite lors du lancement d’une IA massive ?

Cela dépendra de la réglementation. Pour une voiture autonome, les autorités devront dire qu'elle peut avoir un accident au maximum tous les 500 000 kilomètres, et il faudra effectuer une série de tests. Ou qu’un outil de diagnostic médical n’est erroné qu’une fois sur 50 000. Il faudra que quelqu'un établisse ce règlement. Ce à quoi nous devrions nous attendre, c’est qu’ils fixent des limites plus exigeantes que les humains, et que les machines fassent moins d’erreurs que nous.