Qu'est-ce qu'un modèle de fondation ?
Formés sur des jeux de données massifs, les modèles de fondation (FM) sont de grands réseaux neuronaux de deep learning qui ont changé la façon dont les spécialistes des données abordent le machine learning (ML). Plutôt que de développer l’intelligence artificielle (IA) à partir de zéro, les spécialistes des données utilisent un modèle de fondation comme point de départ pour développer des modèles de machine learning qui alimentent les nouvelles applications plus rapidement et de manière plus rentable. Le terme modèle de fondation a été inventé par des chercheurs pour décrire des modèles de machine learning formés sur un large éventail de données généralisées et non étiquetées et capables d'effectuer une grande variété de tâches générales telles que la compréhension du langage, la génération de texte et d'images et la conversation en langage naturel.
En quoi les modèles de fondation sont-ils uniques ?
Une fonctionnalité unique des modèles de fondation est leur adaptabilité. Ces modèles peuvent effectuer un large éventail de tâches disparates avec un haut degré de précision en fonction des instructions de saisie. Certaines tâches incluent le traitement du langage naturel (NLP), la réponse aux questions et la classification des images. La taille et la nature polyvalente des FM les différencient des modèles ML traditionnels, qui exécutent généralement des tâches spécifiques, telles que l'analyse du texte en fonction des sentiments, la classification des images et la prévision des tendances.
Vous pouvez utiliser des modèles de fondation comme modèles de base pour développer des applications en aval plus spécialisées. Ces modèles sont l'aboutissement de plus d'une décennie de travail qui leur a permis d'augmenter en taille et en complexité.
Par exemple, BERT, l'un des premiers modèles de fondation bidirectionnels, a été publié en 2018. Il a été formé à l'aide de 340 millions de paramètres et d'un jeu de données d'entraînement de 16 Go. En 2023, cinq ans plus tard seulement, OpenAI a formé le GPT-4 en utilisant 170 billions de paramètres et un jeu de données de formation de 45 Go. Selon OpenAI, lapuissance de calcul requise pour la modélisation des fondations a doublé tous les 3,4 mois depuis 2012. Les FM actuels, tels que les grands modèles de langage (LLM) Claude 2 et Llama 2, et le modèle Diffusion stable texte-image de Stability AI, peuvent exécuter d'emblée une série de tâches couvrant plusieurs domaines, comme la rédaction d'articles de blog, la génération d'images, la résolution de problèmes mathématiques, le dialogue et la réponse à des questions sur la base d'un document.
Pourquoi la modélisation des fondations est-elle importante ?
Les modèles de fondation sont sur le point de modifier de manière significative le cycle de vie de machine learning. Bien que le développement d'un modèle de fondation à partir de zéro coûte actuellement des millions de dollars, ils sont utiles à long terme. Il est plus rapide et moins coûteux pour les spécialistes des données d'utiliser des FM préformés pour développer de nouvelles applications de machine learning plutôt que de former des modèles de machine learning uniques à partir de zéro.
L'une des utilisations potentielles est l'automatisation des tâches et des processus, en particulier ceux qui nécessitent des capacités de raisonnement. Voici quelques applications pour les modèles de fondation :
- Service clientèle
- Traduction des langues
- Génération de contenu
- Rédaction
- Classification d'image
- Création et retouche d'images en haute résolution
- Extraction de documents
- Robotique
- Santé
- Véhicules autonomes
Que peuvent faire les modèles de fondation ?
Les modèles de fondation, même s'ils sont préformés, peuvent continuer à apprendre à partir des données saisies ou des instructions lors de l'inférence. Cela signifie que vous pouvez développer des résultats complets grâce à des instructions soigneusement sélectionnées. Les tâches que les FM peuvent effectuer incluent le traitement du langage, la compréhension visuelle, la génération de code et l'engagement centré sur l'humain.
Traitement du langage
Ces modèles ont des capacités remarquables pour répondre à des questions en langage naturel et même la capacité de rédiger de courts scripts ou des articles en réponse à des demandes. Ils peuvent également traduire des langues à l'aide des technologies NLP.
Compréhension visuelle
Les FM excellent dans le domaine de la vision par ordinateur, notamment en ce qui concerne l'identification d'images et d'objets physiques. Ces capacités peuvent être utilisées dans des applications telles que la conduite autonome et la robotique. Une autre fonctionnalité est la génération d'images à partir du texte saisi, ainsi que le montage de photos et de vidéos.
Génération de code
Les modèles de fondation peuvent générer du code informatique dans différents langages de programmation sur la base d'entrées en langage naturel. Il est également possible d'utiliser des FM pour évaluer et déboguer le code.
Engagement centré sur l'humain
Les modèles d'IA générative utilisent des données humaines pour apprendre et améliorer les prédictions. Une application importante et parfois négligée est la capacité de ces modèles à soutenir la prise de décision humaine. Les utilisations potentielles incluent les diagnostics cliniques, les systèmes d'aide à la décision et les analyses.
Une autre capacité est le développement de nouvelles applications d'IA en affinant les modèles de fondation existants.
Reconnaissance vocale
Comme les FM comprennent le langage, ils peuvent être utilisés pour des tâches de synthèse vocale telles que la transcription et le sous-titrage vidéo dans diverses langues.
Comment fonctionnent les modèles de fondation ?
Les modèles de fondation sont une forme d'intelligence artificielle générative (IA générative). Ils génèrent des résultats à partir d'une ou de plusieurs entrées (invites) sous forme d'instructions en langage humain. Les modèles sont basés sur des réseaux neuronaux complexes, notamment des réseaux antagonistes génératifs (GAN), des transformers et des codeurs variationnels.
Bien que chaque type de réseau fonctionne différemment, les principes qui sous-tendent leur fonctionnement sont similaires. En général, un FM utilise des modèles et des relations appris pour prédire le prochain élément d'une séquence. Par exemple, lors de la génération d'images, le modèle analyse l'image et crée une version plus nette et plus clairement définie de l'image. De même, dans le cas du texte, le modèle prédit le mot suivant dans une chaîne de texte en fonction des mots précédents et de son contexte. Il sélectionne ensuite le mot suivant à l'aide de techniques de distribution de probabilité.
Les modèles de fondation utilisent l'apprentissage auto-supervisé pour créer des étiquettes à partir des données d'entrée. Cela signifie que personne n'a enseigné ou formé le modèle à l'aide de jeux de données de formation étiquetés. Cette fonctionnalité distingue les LLM des architectures ML précédentes, qui utilisent l'apprentissage supervisé ou l'apprentissage non supervisé.
Quels sont les exemples de modèles de fondation ?
Le nombre et la taille des modèles de fondations sur le marché ont augmenté rapidement. Il existe aujourd'hui des dizaines de modèles disponibles. Voici une liste des principaux modèles de fondation publiés depuis 2018.
BERT
Publié en 2018, Bidirectional Encoder Representations from Transformers (BERT) a été l'un des premiers modèles de fondation. Le BERT est un modèle bidirectionnel qui analyse le contexte d'une séquence complète puis fait une prédiction. Il a été formé sur un corpus en texte brut et sur Wikipédia en utilisant 3,3 milliards de jetons (mots) et 340 millions de paramètres. BERT peut répondre à des questions, prédire des phrases et traduire des textes.
GPT
Le modèle Generative Pre-trained Transformer (GPT) a été développé par OpenAI en 2018. Il utilise un décodeur transformer à 12 couches avec un mécanisme d'auto-attention. Et il a été formé à partir du jeu de données BookCorpus, qui contient plus de 11 000 romans gratuits. L'une des fonctionnalités remarquables du GPT-1 est sa capacité à effectuer un apprentissage zéro.
GPT-2 est sorti en 2019. OpenAI l'a formé en utilisant 1,5 milliard de paramètres (contre 117 millions de paramètres utilisés sur GPT-1). Le GPT-3 possède un réseau neuronal à 96 couches et 175 milliards de paramètres et est formé à l'aide du jeu de données Common Crawl de 500 milliards de mots. Le célèbre chatbot ChatGPT est basé sur GPT-3.5. Et GPT-4, la dernière version, a été lancée fin 2022 et a réussi l'examen uniforme du barreau avec un score de 297 (76 %).
Amazon Titan
Les FM Amazon Titan sont préformés sur de grands jeux de données, ce qui en fait de puissants modèles polyvalents. Ils peuvent être utilisés tels quels ou personnalisés en privé avec des données spécifiques à l'entreprise pour une tâche particulière sans annoter de gros volumes de données. Titan proposera dans un premier temps deux modèles. Le premier est un LLM génératif pour des tâches telles que la synthèse, la génération de texte, la classification, les questions-réponses ouvertes et l'extraction d'informations. Le second est un LLM d'intégration qui traduit les entrées de texte, y compris les mots, les phrases et les grandes unités de texte, en représentations numériques (appelées intégrations) contenant le sens sémantique du texte. Bien que ce LLM ne génère pas de texte, il est utile pour des applications telles que la personnalisation et la recherche, car en comparant les intégrations, le modèle produira des réponses plus pertinentes et contextuelles que la correspondance de mots. Afin de continuer à soutenir les meilleures pratiques en matière d'utilisation responsable de l'IA, les systèmes FM Titan sont conçus pour détecter et supprimer le contenu préjudiciable des données, rejeter le contenu inapproprié saisi par les utilisateurs et filtrer les résultats des modèles contenant du contenu inapproprié tel que les discours de haine, les blasphèmes et la violence.
AI21 Jurassic
Publié en 2021, Jurassic-1 est un modèle de langage auto-régressif à 76 couches avec 178 milliards de paramètres. Jurassic-1 génère du texte de type humain et résout des tâches complexes. Ses performances sont comparables à celles du GPT-3.
En mars 2023, AI21 Labs a publié Jurrassic-2, qui a amélioré le suivi des instructions et les capacités de langage.
Claude
Claude 3.5 Sonnet
Le modèle le plus intelligent et le plus avancé d’Anthropic, Claude 3.5 Sonnet, démontre des capacités exceptionnelles dans un large éventail de tâches et d’évaluations, tout en surpassant Claude 3 Opus.
Claude 3 Opus
Opus est un modèle hautement intelligent offrant des performances fiables sur des tâches complexes. Il peut naviguer dans des instructions ouvertes et des scénarios invisibles avec une fluidité remarquable et une compréhension semblable à celle d’un humain. Utilisez Opus pour automatiser les tâches et accélérer la recherche et le développement dans un large éventail de cas d'utilisation et de secteurs d'activité.
Claude 3 Haïku
Haiku est le modèle le plus rapide et le plus compact d’Anthropic, offrant une réactivité quasi instantanée. Haiku est le meilleur choix pour créer des expériences d’IA fluides qui imitent les interactions humaines. Les entreprises peuvent utiliser Haiku pour modérer le contenu, optimiser la gestion des stocks, produire des traductions rapides et précises, résumer des données non structurées, etc.
Cohere
Cohere possède deux LLM : l’un est un modèle de génération doté de capacités similaires à celles du GPT-3 et l’autre est un modèle de représentation destiné à comprendre les langues. Bien que Cohere ne dispose que de 52 milliards de paramètres, il surpasse le GPT-3 à bien des égards.
Diffusion stable
Stable Diffusion est un modèle texte-image capable de générer des images haute définition réalistes. Il a été publié en 2022 et possède un modèle de diffusion qui utilise des technologies de bruit et de débruitage pour apprendre à créer des images.
Le modèle est plus petit que les technologies de diffusion concurrentes, comme le DALL-E 2, ce qui signifie qu'il n'a pas besoin d'une infrastructure informatique étendue. Diffusion stable fonctionnera sur une carte graphique normale ou même sur un smartphone doté d'une plateforme Snapdragon Gen2.
En savoir plus sur Stable Diffusion »
BLOOM
BLOOM est un modèle multilingue dont l'architecture est similaire à celle du GPT-3. Il a été développé en 2022 dans le cadre d'un effort collaboratif impliquant plus d'un millier de scientifiques et l'équipe de Hugging Space. Le modèle compte 176 milliards de paramètres et la formation a duré trois mois et demi avec 384 GPU Nvidia A100. Bien que le point de contrôle BLOOM nécessite 330 Go de stockage, il fonctionnera sur un PC autonome doté de 16 Go de RAM. BLOOM peut créer du texte dans 46 langues et écrire du code dans 13 langages de programmation.
Hugging Face
Hugging Face est une plateforme qui propose des outils open source vous permettant de créer et de déployer des modèles de machine learning. Il agit comme un hub communautaire, et les développeurs peuvent partager et explorer des modèles et des jeux de données. L'adhésion individuelle est gratuite, bien que les abonnements payants offrent des niveaux d'accès plus élevés. Vous avez un accès public à près de 200 000 modèles et 30 000 jeux de données.
Quels sont les défis liés aux modèles de fondation ?
Les modèles de fondation peuvent répondre de manière cohérente à des questions sur des sujets sur lesquels ils n'ont pas reçu de formation explicite. Mais ils présentent certaines faiblesses. Voici certains des défis auxquels sont confrontés les modèles de fondation :
- Exigences en matière d'infrastructure. Construire un modèle de fondation à partir de zéro coûte cher et nécessite d'énormes ressources, et la formation peut prendre des mois.
- Développement frontend. Pour les applications pratiques, les développeurs doivent intégrer des modèles de fondation dans une suite logicielle, notamment des outils permettant une ingénierie rapide, un réglage précis et une ingénierie des pipelines.
- Manque de compréhension. Bien qu'ils puissent fournir des réponses grammaticalement et factuellement correctes, les modèles de fondation ont du mal à comprendre le contexte d'une invite. Et ils n'en sont pas conscients socialement ou psychologiquement.
- Des réponses peu fiables. Les réponses aux questions sur certains sujets peuvent être peu fiables et parfois inappropriées, toxiques ou incorrectes.
- Bias. Bias est une possibilité distincte, car les modèles peuvent détecter les discours de haine et les sous-entendus inappropriés dans les jeux de données de formation. Pour éviter cela, les développeurs doivent filtrer soigneusement les données de formation et encoder des normes spécifiques dans leurs modèles.
Comment AWS peut vous aider ?
Amazon Bedrock est le moyen le plus simple de créer et de mettre à l'échelle des applications d'IA générative à l'aide des modèles de fondation. Amazon Bedrock est un service entièrement géré qui met à disposition des modèles de fondation d'Amazon et de start-ups d'IA de premier plan par le biais d'une API, ce qui vous permet de choisir parmi différents modèles de fondation pour trouver celui qui convient le mieux à votre cas d'utilisation. Avec Bedrock, vous pouvez accélérer le développement et le déploiement d'applications d'IA générative évolutives, fiables et sécurisées sans gérer l'infrastructure.
Amazon SageMaker JumpStart, un hub de machine learning proposant des modèles, des algorithmes et des solutions, donne accès à des centaines de modèles de fondation, y compris les modèles de fondation les plus performants accessibles au public. De nouveaux modèles de fondation continuent d'être ajoutés, notamment Llama 2, Falcon, et Diffusion stable XL 1.0.