Aller au contenu principal
OpenAI_GPT2

#Deep Learning

GPT-2 d'OpenAI : Un meilleur outil de traitement automatique du langage et les questions éthiques qu'il soulève

En Février dernier, OpenAI a rendu public un logiciel de traitement automatique du langage nommé GPT-2. Les très bonnes performances de ce modèle posent des questions sur un mauvais usage de l'outil et l'impact direct que ces nouvelles technologies ont sur nos vies.

En Février dernier, OpenAI a rendu public un logiciel de traitement automatique du langage répondant au nom de GPT-2. De manière assez surprenante, et c’est ce qui a rendu cette publication virale, OpenAI a décidé de ne pas rendre publique sa découverte (ou du moins la version la plus développée et ses paramètres de calibration) de peur qu’une personne mal intentionnée ne s’en serve à des fins de désinformation.

Evoquant les « DeepFakes » comme un risque potentiel découlant directement de l’amélioration d’une telle technologie accessible à tous, les chercheurs en charge du projet appellent les institutions publiques à plus de contrôles et évoquent le danger qu’une telle technologie représente pour notre démocratie et nos institutions.

Au-delà des gros titres accrocheurs à tendance apocalyptique et autres réactions twitter à chaud, voici une revue exhaustive de ce qui a été dévoilé, les possibles accomplissements de ce modèle, ses limites et les enseignements que l’on peut tirer d’une telle avancée dans le domaine du traitement automatisé du langage et du Machine Learning en général.

Le modèle

GPT-2 est un modèle NLP (Natural Language processing) ou modèle de traitement automatique du langage naturel, basé sur des méthodes de Machine Learning d’apprentissage non supervisé. Ce modèle est capable de compléter et générer des paragraphes entiers de texte ayant une cohérence syntaxique, grammaticale et informative. Le modèle peut lire et comprendre un texte, le retranscrire, le résumer et est même capable de répondre à des questions concernant sa structure ou les informations qu’il contient. Tout ceci, et c’est bien là que réside l’exploit, sans entrainement préalable spécifique à chacune de ces tâches en particulier et sur n’importe quel sujet imaginable.

Jusqu’à présent, les recherches dans le domaine du NLP concernaient l’élaboration de modèles très performants sur des taches précises pour lesquelles ils ont été spécifiquement entrainés et optimisés. Tels que les Neural Conversation Models (NCM), les Neural Machine Translation (NMT) ou les Conversation Responding Models (CRM), nécessitant pour la plupart une semi-supervision à l’entrainement via l’implémentation, le plus souvent à la main, de règles prédéterminées par l’opérateur.

La technologie derrière ce modèle n’a apparemment rien de nouveau, cette nouvelle publication serait, si l’on en croit l’article scientifique accompagnant la publication, une amélioration des méthodes précédentes et non pas un nouvel algorithme révolutionnant les techniques de modélisation du langage. L’approche utilisée pour le GPT-2 se base sur les méthodes classiques de modélisation du langage assignant à une séquence de mots de taille m, une probabilité P( w1, w2 , … , wm ) (où  wi représente chaque mots). Chaque suite de mots obtient alors une probabilité d’occurrence déterminée par l’entrainement préalable du modèle sur une base de données « WebText » récupérée par un scraping de diverses sources venant du web.

formule probabiliste

La nouveauté de GPT-2

L’innovation de GPT-2 semble résider dans l’objectif assumé par l’équipe de recherche, d’utilisation de la méthode dite d’apprentissage Zero-shot pour évaluer la performance de l’outil, et donc pour l’entrainer (Exemple : Reconnaitre un objet quelconque n’ayant jamais été représenté au préalable dans la base de données d’entrainement). Dans le cas de traitement du langage, il s’agit de donner en entrée du modèle un texte n’ayant jamais été appris au préalable et d’évaluer la cohérence de la réponse du programme.

L’apprentissage Zero-shot utilise les méthodes de Class et word embedding ou « plongement de mots », associant à une variable discrète (une classe ou ici un mot), un vecteur et donc une représentation continue dans un espace. Cela permet alors à l’algorithme de reconnaitre des textes non représentées dans l’ensemble de test et donc de les associer à des thèmes et ainsi à d’autres mots connus du modèle, ayant été traités au préalable en phase d’apprentissage.

Selon OpenAI, le modèle prendrait plusieurs essais à générer un texte acceptable selon des critères de cohérence syntaxique et contextuelle. Il arrive en effet que l’algorithme fasse allusion à des phénomènes physiques impossibles (tels qu’un feu s’allumant sous l’océan). Le modèle serait particulièrement efficace sur des sujets ayant une forte redondance dans les données utilisées pour l’entrainer (tels que le Brexit, Miley Cyrus, Le seigneur des Anneaux, etc..) et obtient 50% du temps un résultat acceptable sur ceux-ci. Mais l’inverse est aussi vrai, le modèle peine à générer un résultat convenable sur des sujets pointus et spécifiques revenant peu dans les données ayant servi à l’entrainer, jusqu’ici rien d’anormal.

Evalué sur différents exercices de compréhension de texte, de résumé, de raisonnement et de traduction, le modèle devance ceux existants sur les exercices de LMBC (Language Modeling of Broad Contexts – prédire le mot suivant un passage) et de CSR (Common Sense Reasoning - détermination du sens d’un pronom ambigu). Ce pour quoi il n’a pas spécifiquement été entrainé au préalable si l'on en croit OpenAI.

Graphes de performance du modèle
Source : https://blog.openai.com/better-language-models

Une performance mise en doute

La nouveauté de la part d’OpenAI, habitué de l’open-source, est que l’équipe en charge du développement de l’algorithme GPT-2 ait décidé de ne pas divulguer le code source, pointant l’aspect dangereux d’un usage mal intentionné de l’outil à des fins de désinformation. Laissant à chacun le doute sur les réelles performances de l’outil.

Le succès médiatique de cette déclaration d’OpenAI réside d’une part dans le fait que l’organisation a refusé, contrairement à son habitude, de rendre open source son algorithme le plus performant mais aussi d’autre part que les exemples de réponses de GPT-2 sont choquantes de réalisme. C’est la première fois qu’un algorithme de ce type atteint un tel niveau de rédaction. Ce succès est cependant nuancé par plusieurs critiques de la communauté Machine Learning concernant ce réalisme des réponses de GPT-2.

De nombreux membres de la communauté ont questionné l’originalité du texte généré par l’algorithme comme étant mémorisé puis restitué et non pas « écrit » à proprement parler. L’appendice 8.2 du papier joint à la publication GitHub d’OpenAI discute de ce point et évoque un possible comportement de mémorisation de l’outil. Les auteurs montrent ainsi que l’occurrence de chaine de mots « word overlap rates » existant entre les données d’entrainement et les réponses de GPT-2 est plus faible qu’entre les données d’entrainement et celles de de test. En d’autres termes cela signifie que GPT-2 génère un texte comprenant moins d’occurrences qu’un ensemble aléatoire de textes WebText pris en données test.

overlap_rate
Fonction de repartition des occurences avec l’ensemble test “webtext” et les echantillons. Source: Publication OpenAI.

Pour la figure ci-dessus, n-gram correspond à une séquence voisine de n éléments d'un échantillon donné de texte. La plupart des échantillons se chevauchent de moins de 1%, y compris plus de 30% des échantillons sans chevauchement, alors que la médiane pour l'ensemble des échantillons de test est de 2,6% de chevauchement.

Le texte généré par l’algorithme et baptisé « English-speaking Unicorns » a été inséré dans le détecteur de plagiat Turnitin  et ne retourne pourtant rien de concluant. L‘histoire rédigée par GPT-2 n’est pas parfaite et comprend plusieurs incohérences mais le résultat final est bluffant et a été reconnu par la communauté Machine Learning comme étant cohérent et de très bonne qualité pour un algorithme de traitement du langage.

Il y a de nombreuses raisons de douter de la qualité de ce modèle, d’autant plus que personne en dehors de l’équipe de recherche d’OpenAI ne peut tester ses performances. Tout d’abord, la manière subjective dont OpenAI a sélectionné les exemples de performance du modèle rendus public génère beaucoup de scepticisme. Ensuite le nombre d’entrées insérées dans le modèle pour obtenir ces résultats n’est pas non plus connu et permettrait de mieux se rendre compte de la performance réelle de cet outil. Autant de zones d’ombre laissant place à l’interprétation de chacun quant aux performances estimées du modèle.

Cependant de nombreuses informations et notamment un article scientifique ont accompagnés la publication des résultats de GPT-2 et permettent d’avoir une idée des performances intrinsèques du modèle. Premièrement, OpenAI a fourni dans son post GitHub une large quantité d’échantillons de tests. De plus, pour chaque exemple sélectionné et publié ayant de bonnes performances, OpenAI indique le nombre d’essais qui ont été nécessaires pour obtenir ce résultat. Ce qui met la publication GPT-2 au même niveau que les précédentes publications scientifiques en terme de qualité dans le domaine du traitement du langage.

unicorn
Exemple de performance extrait de la publication OpenAI: https://blog.openai.com/better-language-models/

Un aspect promotionnel à prendre en compte

Il est difficile de ne pas prendre en compte la dimension publicitaire et spectaculaire qu’a choisi OpenAI pour faire parler de sa découverte dans les médias. Simplement en observant les articles aux titres accrocheurs et à tendance fin du monde qui circulent sur la toile à propos de l’algorithme GPT-2. OpenAI semble porter une grande attention à son image et cherche, à travers GPT-2, à faire une opération médiatique pour récolter de l’attention auprès du grand public. Le fait qu’OpenAI ait directement sollicité des journalistes afin de leur permettre de tester l’outil et écrire à son sujet en est la preuve.

Il est important de rappeler qu’il s’agit d’une association à but non lucratif. L’intérêt de ce coup de projecteur pour OpenAI est évidemment d’obtenir de la notoriété et de la légitimité afin de récolter plus de financements et de cerveaux pour ses recherches futures dans le domaine de l’intelligence artificielle. L’association a donc tout intérêt à ce que sa découverte soit médiatisée et attire l’attention.

Une nuance s’impose

Même si le choix d’OpenAI de ne pas divulguer son algorithme ressemble à un coup marketing, il ne faut cependant pas le réduire à cela. Comme cela a pu être mentionné dans divers articles traitant du cas d’OpenAI, l’entreprise DeepMind, auteure du célèbre logiciel alphaGo, aurait pu faire le même type de déclaration avec l’algorithme WaveNet, un outil de génération de discours oral aux excellentes performances. On peut légitimement s’interroger sur le danger que cette technologie pourrait représenter au même titre que GPT-2. Lors de sa publication, DeepMind a choisi de ne pas mettre l’accent sur le danger d’une utilisation mal intentionnée de leur outil et l’a rendu open-source comme n’importe quelle autre publication réalisée par le passé. Le fait qu’OpenAI ne rende pas public son code n’empêchera pas l’avènement d’une technologie similaire et plus performante. Alors pourquoi avoir fait ce choix, si ce n’est pour laisser aux institutions publiques et privées la possibilité d’avoir une réponse adaptée à l’émergence d’une telle technologie.

OpenAI a réussi le coup de maitre d’attirer l’attention collective des médias sur une possible utilisation néfaste des avancées de la recherche en intelligence artificielle. Ceci pose le débat sur les limites de l’open-source dans ce domaine, ainsi que l’impact qu’aurait les avancées technologiques en intelligence artificielle sur nos vies et à quel point la responsabilité incombe aux différents auteurs de sécuriser leurs découvertes.

De par sa facilité d’accès, l’intelligence artificielle possède une influence directe sur notre mode de vie. Il en va donc de la responsabilité des chercheurs, dirigeants et autres acteurs publics ou privés d’anticiper ce genre de problème avant qu’il ne se produise et ainsi poser les bases d’un développement sain des nouvelles technologies de l’information.

Si une chose est sure, c’est qu’il nous faut prendre du recul afin de mieux comprendre la dimension et les implications sur nos vies qu’aurait l’émergence d’une telle technologie. Le problème, car c’en est un, est à regarder dans sa globalité et il semblerait qu’un pas ait été franchi en termes de génération de texte via un logiciel informatique. Les applications sont multiples et doivent amener nos gouvernants à mieux considérer les enjeux qu’impliquent de telles avancées, afin d’améliorer la lutte contre les « FakeNews » et plus particulièrement les « DeepFakes » qui pourraient bientôt inonder nos flux d’actualités.

Les bases d’un débat viennent d’être posées par OpenAI, le sujet mérite d’être pris au sérieux. Si cela est avéré, les conséquences d’une avancée dans le domaine du traitement du langage par une intelligence artificielle affecteront directement nos vies. De nombreux emplois seront transformés et par là même, de nouvelles possibilités émergeront (une IA de traduction multi-langage en temps réel, des assistants intelligents d’écriture, etc..). L’avenir de l’intelligence artificielle semble de plus en plus excitant et les possibilités infinies, mais c’est aussi aux acteurs principaux de chaque domaine de se poser les questions éthiques qu’impliquent leurs avancées technologiques et éventuellement d’accorder plus de temps à ces problématiques de lutte contre un mauvais usage de celles-ci. Cette technologie est possible, OpenAI vient de nous le prouver à travers GPT-2, il nous faut maintenant trouver les moyens permettant de contrer les abus d’utilisation de ces outils, qui on le sait, seront bientôt à la portée de chacun.


 

Si d’aventure vous souhaitez vous aussi tester les capacités de la version light de l’algorithme appelé «117M», un développeur a mis le programme à disposition de tous via un site internet.
Voici le lien du site : http://askskynet.com
Et l’article associé : https://medium.com/@asierarranz/i-have-created-a-website-to-query-the-gpt-2-openai-model-11dd30e1c8b0

Si vous souhaitez en savoir plus sur nos solutions d'IA, rendez-vous sur notre site web Heka : https://heka.sia-partners.com/

#Deep Learning

Examen approfondi La contribution de l'IA en tant que source de retour clients
#Marketing & Customer experience #Machine Learning

IA et Ecoute clients : le NPS est-il dépassé ?

A Twitter vision on the campaign for the mayor of Paris
#Government #Data Capture #Deep Learning #Machine Learning

La course pour la mairie de Paris vue depuis Twitter

Foot_img

Dénicher les stars du football de demain via l'intelligence artificielle