Fouille de texte avancée avec OpenAI
Photo d'Uriel SC sur Unsplash.

Fouille de texte avancée avec OpenAI

Dans le paysage commercial actuel axé sur les données, la capacité à extraire des informations exploitables des contenus non structurés peut apporter un avantage compétitif considérable.

Dans l’un de mes précédents articles, j’avais abordé une méthode de fouille de données à partir de contenus non structurés qui s’appuie sur des fonctionnalités d’automatisation intelligente. Cette approche permet d’automatiser l’analyse d’un large éventail de contenus : documents, rapports, contrats, e-mails, notes de synthèse et sites Web. En plus de fournir de meilleures informations, la fouille de texte permet de réduire les coûts liés au traitement manuel et de détecter les activités frauduleuses ou à haut risque.

ChatGPT, modèles de langage de grande taille (LLM), modèles de langage pré-entraînés (GPT) associés... Autant de nouveaux outils puissants s’offrent à nous pour affiner notre approche de la fouille de contenu et optimiser l’analyse tout en réduisant les efforts de configuration, d’entraînement et de mise en œuvre.

Dans cet article, je vais aborder les modèles GPT et la manière dont ils complètent cette méthode de fouille de contenu pour enrichir et accélérer l’analyse, tout en réduisant les efforts lors du traitement à grande échelle des contenus non structurés.

Cas d’utilisation : automatisation des recherches

L’automatisation des recherches est un cas d’utilisation classique pour la fouille de contenu (également appelée « text mining », « exploration de données textuelles » ou « extraction de connaissances »). L’automatisation des recherches s’avère très utile pour passer au crible de grands volumes de contenus à la recherche de données importantes. Un véritable atout pour les banques qui proposent des conseils en matière d’investissement, les services chargés d’enquêtes judiciaires, la lutte contre la fraude à l’assurance, l’analyse des risques ou encore la recherche médicale.

L’automatisation des recherches associe :

  • Outils d’automatisation tels que l’automatisation robotisée des processus (RPA) et les connecteurs d’API pour regrouper et récupérer les contenus.
  • Low code pour modéliser rapidement les étapes des flux de travail, définir les règles métier, créer des interfaces utilisateur pour entraîner et guider l’IA, et accélérer les cycles de test.
  • Techniques d’intelligence artificielle telles que la vision par ordinateur, les modèles d’apprentissage automatique entraînés et pré-entraînés, comme le traitement automatique du langage naturel.

En m’appuyant sur un scénario d’automatisation des recherches, j’ai étendu un flux de travail existant pour tester les avantages que l’IA générative peut apporter à ce cas d’utilisation. Les applications de cette technologie révolutionnaire sont nombreuses. Pour cet article, j’ai ajouté des appels aux modèles OpenAI GPT et LLM à différentes étapes du processus pour :

  • Obtenir de l’aide à la classification du contenu ou de certaines parties de ce dernier ;
  • Localiser et extraire les principaux points de données ;
  • Générer un rapport résumant le contenu.

J’aborderai plus loin certains des avantages constatés.

Commençons par le début : garder le contrôle des données

Avant d’explorer les avantages des modèles GPT, penchons-nous sur la question cruciale de la sécurité des données. Dans les conditions d’utilisation de son API, OpenAI promet une protection renforcée et tient à rassurer sur ses engagements en matière de traitement et d’utilisation des données. Cependant, les entreprises doivent absolument éviter de confier le traitement des données à un fournisseur sans avoir mis en place des procédures de diligence raisonnable et les clauses contractuelles appropriées.

Étant donné que notre cas d’utilisation consiste à explorer de grands volumes de contenus non structurés pour obtenir des informations commerciales, ce serait une erreur de supposer qu’aucune donnée à caractère personnel n’atterrira dans le système, surtout si nous explorons des contenus provenant de sources publiques.

Pour répondre aux préoccupations concernant la protection des données et prévenir les risques associés, j’ai utilisé des modèles OpenAI hébergés dans Microsoft Azure, ainsi que des contenus relevant du domaine public ou des jeux de données ouvertes qui se prêtent bien à l’apprentissage automatique (comme toujours, assurez-vous de bien comprendre les notions de propriété, de consentement, de droit d’auteur et d’intérêt légitime avant tout traitement de données ou de contenu, et appliquez les contrôles de sécurité et de gestion des risques appropriés).

En hébergeant les modèles dans Azure, nous gardons un contrôle total sur la destination, le traitement et le stockage de nos données, tout en conservant le droit de les supprimer sans avoir à craindre une fuite de données.

À l’heure où je rédige cet article, un compte Azure professionnel est requis pour demander l’accès aux derniers modèles OpenAI dans Azure. Vous devez également accepter la politique d’utilisation responsable.

Classification sémantique et recherche sémantique

On associe souvent les modèles GPT aux interfaces de chatbot telles que ChatGPT, mais les modèles de langage de grande taille ne s’y limitent pas. L’API Incorporations de texte d’OpenAI génère un vecteur qui code numériquement la façon dont le modèle interprète le texte fourni.

Si vous l’associez à une base de données capable de stocker et de rechercher les vecteurs (étiqueter les différents vecteurs dans la base de données), vous pouvez rechercher ou classer le contenu en fonction de sa signification, en mesurant la similarité des chaînes de texte.

Cette approche constitue une excellente alternative aux méthodes de classification qui s’appuient sur la structure de la langue, les mots-clés, les composantes sonores (par exemple, les phonèmes) ou les phrases, car elle comprend le sens du texte. La recherche sémantique permet non seulement de classer les nouveaux contenus en comparant leur sens à un contenu précédemment étiqueté, mais aussi d’identifier les contenus similaires.

Le résultat de la recherche renvoie les entrées classées par ordre de proximité (0-1), ce qui nous permet de déterminer le degré de similitude entre le nouveau contenu et le contenu précédemment classé.

Cela veut dire également que nous pouvons rechercher des contenus connexes. Par exemple, pour classer les contrats divisés en paragraphes ou comportant des clauses distinctes, nous pouvons rechercher les clauses contractuelles similaires étiquetées dans la base de données.

Autrefois, nous avions besoin d’une infrastructure à grande échelle, de type big data, pour décomposer le contenu en éléments consultables et cartographier les relations entre ces derniers. Grâce aux LLM, nous pouvons contourner cette étape coûteuse en alimentant une base de données cloud prête à l’emploi de vecteurs provenant de l’API Incorporations, le tout sans avoir à comprendre ou à entraîner l’algorithme sous-jacent !

Créer un service de recherche sémantique dans le cadre plus large du processus de fouille de contenu s’avère très rentable. En effet, le traitement d’un jeton (environ 4 lettres ou caractères anglais) à l’aide d’un modèle Incorporations est environ 20 fois moins cher que le traitement d’un jeton à l’aide d’un modèle GPT. En associant Incorporations et recherche vectorielle, nous pouvons limiter le contenu envoyé pour analyse par un modèle GPT aux seules sections pertinentes des documents ou du bloc de texte. Le nombre de jetons GPT consommés est ainsi réduit.

Localisateurs et extracteurs alimentés par GPT

Extrêmement efficaces, les LLM peuvent également servir de localisateurs et d’extracteurs dans notre cas d’utilisation de la fouille de contenu.

Les localisateurs classiques nécessitent un entraînement généralement chronophage. Il s’agit d’entraîner les algorithmes à localiser les données souhaitées à l’aide d’exemples classés et étiquetés, ou grâce à la vision par ordinateur, qui s’appuie sur une ancre visuelle dans la disposition du contenu.

Grâce aux localisateurs TAL (traitement automatique du langage naturel) pré-entraînés, nous pouvons désormais localiser les sections de texte en fonction des entités de ce dernier (dates, lieux, entreprises, etc.), du sentiment exprimé dans le contenu ou de l’intention des phrases utilisées. Les modèles GPT vont encore plus loin, puisqu’ils peuvent utiliser l’ensemble du document (ou plusieurs documents) comme contexte, au lieu de se limiter à une ou deux phrases. Plus important encore, les modèles GPT peuvent être configurés sans aucune connaissance technique ou formation préalable. En effet, il suffit d’indiquer au système en langage normal ce qu’il doit rechercher.

Les modèles GPT peuvent renvoyer les résultats dans différents formats tels que JSON ou XML. Là encore, il suffit de fournir en langage naturel quelques exemples de formatage et de mappage des données renvoyées, et le modèle se charge du reste.

Cela ouvre la voie à de nouvelles applications. Les développeurs citoyens peuvent désormais configurer l’extraction d’informations complexes à partir de documents en langage naturel, et ce en quelques secondes, sans formation spécialisée. Les spécialistes en automatisation, quant à eux, pourront considérablement réduire les efforts nécessaires pour entraîner et configurer les localisateurs complexes.

Un autre avantage concerne les cas d’utilisation « difficiles à entraîner », comme la localisation des noms et des adresses sur un CV. Ici, aucun format d’entraînement standard n’est disponible, et la seule « ancre » éventuellement présente dans la disposition du contenu pour indiquer un nom est la différence de police. Lors de nos tests, les modèles GPT se sont avérés extrêmement efficaces pour identifier noms et adresses, et ce sans avoir à recourir aux localisateurs de format tels que les expressions régulières pour localiser un code postal.

Création et synthèse de contenu

Le troisième cas d’utilisation concerne la synthèse ou la création de contenu. Dès qu’il s’agit de générer un rapport, GPT peut résumer de gros volumes de texte dans une variété infinie de styles et de modes, en fonction des prompts et des exemples fournis.

GPT permet un gain de temps et de productivité considérable aux métiers où le résultat du flux de travail prend la forme d’un document, surtout lorsque le coût horaire du travail nécessaire pour créer ce contenu est élevé. Par exemple, les travailleurs sociaux et les équipes juridiques peuvent allier automatisation et GPT pour pré-lire toute la documentation liée à un dossier, faire une synthèse pour souligner les points clés et mettre en évidence les zones, les paragraphes ou les aspects du contenu à privilégier.

Très similaire à celle du chatbot ChatGPT, l’approche suivie pour synthétiser des contenus l’aide du modèle Azure GPT comporte diverses options, ou prompts, pour guider la réponse que vous recevrez. Vous pouvez ajuster différents aspects :

  • Ton : fournir différents exemples ou assigner des rôles par le biais de « messages » pour donner un contexte au modèle.
  • Créativité : définir la « température » (0-1 ou 0-2 selon la version du modèle). Plus les valeurs sont élevées, moins les réponses seront prévisibles.
  • Longueur des réponses : définir le nombre maximal de jetons à utiliser et fournir des indications dans le prompt.

Étant donné que le coût d’un appel d’API dépend du nombre total de jetons utilisés pour la requête et la réponse générée par l’API, il est conseillé de procéder à un prétraitement afin de ne fournir que les informations pertinentes pour la synthèse. Les techniques de séparation et de classification décrites ci-dessus peuvent être appliquées pour limiter le contenu à synthétiser.

Implications juridiques

Plusieurs actions en justice ont déjà été intentées à l’encontre de fournisseurs IA pour violation des droits d’auteur afférents au contenu utilisé pour entraîner les modèles. Nous assistons également à l’adoption de nouvelles réglementations telles que la loi sur l’IA de l’UE, qui classe les différents cas d’utilisation de l’IA en fonction du niveau de risque associé et établit de nouvelles obligations, ainsi que de nouvelles règles de transparence et de responsabilité pour les dommages liés à l’IA. Toute entreprise ayant recours à l’intelligence artificielle doit s’y conformer.

Mettre en place des garde-fous techniques pour contrôler l’utilisation de l’IA et surveiller les résultats permettra de réduire bon nombre de ces risques juridiques, du moins pour les scénarios les moins risqués. Fonctionnalités clés à prendre en compte :

  1. Automatiser le masquage ou l’anonymisation des données à caractère personnel avant qu’elles ne soient transmises à un modèle ou incluses dans un jeu de données d’apprentissage.
  2. Mettre en place une piste d’audit des données utilisées pour entraîner un modèle ou lui donner un contexte (y compris toute information pertinente liée aux droits d’auteur), ainsi que des données envoyées à l’API et provenant de celle-ci).
  3. Surveiller la cohérence ou la précision des résultats à l’aide de techniques telles que l’étalonnage et l’échantillonnage.
  4. Intégrer au processus l’intervention, la correction et la supervision humaines de l’IA.
  5. Fournir des notes d’information sur l’utilisation des modèles GPT (où et comment).

Conclusions

Comme nous venons de le voir, l’IA générative remplace ou fait évoluer certains aspects de la fouille de contenu. Voici quelques-un de ses avantages :

  • Configuration simplifiée rendant cette IA très accessible aux développeurs citoyens et aux spécialistes l’IA.
  • Une réduction significative des coûts et des efforts requis pour entraîner les modèles d’apprentissage automatique à des fins d’analyse.
  • Localisation précise des cas d’utilisation de la fouille de contenu difficiles à entraîner.
  • Un gain de temps considérable sur les flux de travail nécessitant la production de contenus ou de synthèses.

L’utilisation des modèles GPT présente également des contraintes : considérations juridiques/liées à la protection des données, mise en place de pistes d’audit et d’une veille pour assurer la précision et la cohérence des résultats.

L’IA générative permet un gain de productivité considérable dans les cas d’utilisation de la fouille de contenus. Appliquée sur une base solide de gouvernance et d’automatisation, l’IA générative promet de booster la transformation des entreprises et les outils de fouille de texte.

Notes techniques :

Ressources utilisées pour la rédaction de cet article :


Identifiez-vous pour afficher ou ajouter un commentaire

Plus d’articles de Tom C.

  • Advanced Text Mining with OpenAI

    Advanced Text Mining with OpenAI

    In today's data-driven business landscape, the ability to derive actionable data insights from unstructured content can…

    1 commentaire
  • Overcoming Brexit Challenges with Intelligent Automation

    Overcoming Brexit Challenges with Intelligent Automation

    With so much being written about the challenges Brexit is creating for exporters, importers, and logistics providers…

    1 commentaire
  • Mining Content for Actionable Insights with Intelligent Automation

    Mining Content for Actionable Insights with Intelligent Automation

    Over recent years there has been a lot of excitement about how artificial intelligence is changing the world we live…

    4 commentaires
  • 5 STEPS TO IMPROVE DATA QUALITY

    5 STEPS TO IMPROVE DATA QUALITY

    DEMAND MORE FROM YOUR CUSTOMER DATA In the digital era, almost all customer experiences and processes are fuelled by…

  • A Big Week In The Analytics Industry

    A Big Week In The Analytics Industry

    What a week it’s been for the analytics industry & one that will benefit many of our customers! First Google acquired…

    4 commentaires
  • Will Voice Disrupt the AdTech and MarTech Worlds?

    Will Voice Disrupt the AdTech and MarTech Worlds?

    For years Marketers have been working at the forefront of the digital revolution exploring new ways to engage with…

Autres pages consultées

Explorer les sujets