Une API facile à utiliser

Amazon Polly propose une API qui vous permet d'intégrer rapidement une synthèse vocale à votre application. Il vous suffit d'envoyer le texte que vous voulez convertir en audio à l'API d'Amazon Polly pour qu'Amazon Polly renvoie directement l'enregistrement audio à votre application. Vous pouvez ensuite le diffuser directement en streaming ou le stocker dans un format de fichier audio standard, comme le MP3.

Taux d'échantillonnage Exemple de code
« Bonjour. Je m'appelle Joanna. » depuis le client d'importation boto3
polly = client("polly", region_name="us-east-1")
response = polly.synthesize_speech(
        Texte="Bonjour. Je m'appelle Joanna.",
        OutputFormat="mp3",
        VoiceId="Joanna")

Une large gamme de voix et de langues

Amazon Polly inclut des dizaines de voix réalistes et prend en charge une grande variété de langues. Vous pouvez alors choisir la voix idéale et distribuer vos applications parlantes dans de nombreux pays. En plus des voix standard et de la synthèse vocale neuronale (NTTS), Amazon Polly propose désormais des voix en version long format qui améliorent la qualité de la parole pour des voix plus naturelles et plus humaines.

Danielle, Gregory et Ruth sont des voix en anglais américain disponibles en long format et en variantes neuronales. Ruth, Matthew et Amy sont également disponibles dans une variante générative.

Toutes les voix de Polly
Langue ou variante de langue Femme Homme
     
Arabe-MSA Zeina  
Arabe - Golfe Hala (Neuronal) Zayd (voix neuronale)
Cantonais Hiujin (voix neuronale)  
Catalan Arlet (voix neuronale)  
Tchèque Jitka (voix neuronale)  
Danois Sofie (voix neuronale) Mads
  Naja  
Néerlandais Laura (voix neuronale) Ruben
  Lotte  
Néerlandais (flamand) - Belgique Lisa (voix neuronale)  
Anglais - Inde Kajal (voix neuronale)  
  Raveena  
  Aditi  
Anglais - Irlande Niamh (voix neuronale)  
Anglais - Nouvelle-Zélande Aria (voix neuronale)  
Anglais - Afrique du Sud Ayanda  
Anglais — Royaume-Uni

Amy (voix générative) Brian (voix neuronale)
  Amy (voix neuronale)

Brian (voix standard)

  Amy (voix standard) Arthur (voix neuronale)
  Emma (voix neuronale)  
  Emma (voix standard)  
Anglais — États-Unis

Ruth (voix générative) Gregory (long format)
  Ruth (long format) Gregory (voix neuronale)
  Ruth (voix neuronale) Stephen (voix neuronale)
  Danielle (long format) Matthew (voix générative)
  Joanna (voix neuronale) Matthew (voix neuronale)
  Joanna (voix standard) Matthew (voix standard)
  Danielle (voix neurale) Justin (voix neuronale)
  Salli (voix neuronale) Justin (standard)
  Salli (voix standard) Joey (voix neuronale)
  Kendra (voix neuronale) Joey (voix standard)
  Kendra (voix standard)  
  Kimberly (voix neuronale)  
  Kimberly (voix standard)  
  Ivy (voix neuronale)  
  Lierre (voix standard)  
Anglais - Pays de Galles   Geraint

Anglais - Australie

Olivia (voix neuronale) Russell
  Nicole  
Finnois Suvi (voix neuronale)  
Français - Belgique Isabelle (voix neuronale)  
Français - Canada Gabrielle (voix neuronale) Liam (voix neuronale)
  Chantal  
Français - France Léa (voix neuronale) Mathieu
  Léa (voix standard) Rémi
  Céline  
Allemand - Autriche Hannah (voix neuronale)  
Allemand - Allemagne Vicky (voix neuronale) Daniel (voix neuronale)
  Vicki (voix standard) Hans
  Marlene  
Allemand - Suisse Sabrina (voix neuronale)  
Hindi - Inde Kajal (voix neuronale)  
  Aditi  
Islandais Dóra Karl
Italien Bianca (voix neuronale) Adriano
  Bianca (voix standard) Giorgio
  Carla  
Japonais Kazuha (voix neuronale) Takumi (voix neuronale)
  Tomoko (voix neuronale)
Takumi (voix standard)
  Mizuki  
Coréen Seoyeon (voix neuronale)  
  Seoyeon (voix standard)  
Mandarin Zhiyu (voix neuronale)  
  Zhiyu (voix standard)  
Norvégien Ida (voix neuronale)  
  Liv  
Polonais Ola (voix neuronale) Jacek
  Ewa Jan
  Maja  
Portugais - Brésil Vitória (voix neuronale) Ricardo
  Vitória (voix standard) Thiago
  Camila (voix neuronale)  
  Camila (voix standard)  
Portugais - Portugal Inês (voix neuronale) Cristiano
  Inês (voix standard)  
Roumain Carmen  
Russe Tatyana Maxim
Espagnol - Mexique Mia (voix neuronale) Andrés
  Mia (voix standard)  
Espagnol - Espagne Elena (long format) Guillermo (long format)
  Lucia (voix neuronale) Sergio
  Lucia (voix standard) Enrique
  Conchita  
Espagnol - États-Unis Lupe (voix neuronale) Pedro (voix neuronale)
  Lupe (voix standard) Miguel
  Penélope  
Suédois Astrid  
  Elin (voix neuronale)
 
Turc Filiz  
  Burcu (voix neuronale)  
Gallois Gwyneth  

Un discours synchronisé pour une expérience visuelle améliorée

Amazon Polly facilite l'interrogation d'un flux additionnel de métadonnées offrant des informations pertinentes lorsque certaines phrases, certains mots et certains sons sont prononcés. En utilisant ce flux de métadonnées en même temps que le flux audio de paroles synthétisées, vous pouvez à présent proposer des applications avec une expérience visuelle améliorée, notamment des fonctions de synchronisation labiale ou de surlignage des mots similaire à celui des vidéos de karaoké.

Veuillez consulter la documentation pour en savoir plus sur l'utilisation des Speech Marks. 

Optimisez votre diffusion audio en streaming

Avec Amazon Polly, vous pouvez diffuser toutes sortes d'informations à vos utilisateurs en temps presque réel grâce à votre application. Vous pouvez également faire votre choix parmi plusieurs taux d'échantillonnage afin d'optimiser la bande passante et la qualité audio pour votre application. Amazon Polly prend en charge les formats MP3 et Vorbis, ainsi que les formats de diffusion audio PCM bruts.

Taux d'échantillonnage Taille MP3   Taille au format OGG
Taille au format PCM
24,00 kHz Écouter 19,31 Ko 18,11 Ko N/A
22,05 kHz Écouter
19,33 Ko 17,62 Ko N/A
16,05 kHz Écouter 16,22 Ko 15,48 Ko

100,68 Ko

8,00 kHz Écouter 13,26 Ko 9,72 Ko 50,34 Ko

Réglage du style vocal, du débit de parole, de la hauteur de la voix et de l’intensité sonore

Amazon Polly prend en charge le Speech Synthesis Markup Language (SSML), un langage de balisage basé sur XML conforme à la norme W3C dédié aux applications de synthèse vocale, et les balises habituelles du SSML pour le phrasé, l'accent et l'intonation. Les balises Amazon SSML personnalisées offrent des options uniques, telles que la possibilité de faire parler certaines voix dans un style de rédaction. Cette flexibilité vous permet de créer un discours réaliste qui attirera votre public et retiendra son attention.

Pour en savoir plus, consultez la documentation Amazon Polly sur les balises SSML.

Exemple SSML
En temps normal, je parle de cette façon. (aucun)
Je peux aussi parler dans un style de rédaction, comme si je lisais un article de presse ou présentais des informations. <speak><amazon:domain name="news">Je peux aussi parler dans un style de rédaction, comme si je lisais un article de presse ou présentais des informations. </amazon:domain> </speak>
Je peux parler avec une voix plus haute ou plus basse. <speak>Je peux parler avec <prosody pitch="high">une voix plus haute</prosody> ou avec <prosody pitch="low">une voix plus basse</prosody></speak>
Je peux parler très lentement ou très rapidement. <speak>Je peux parler <prosody rate="x-slow">très lentement</prosody> ou <prosody rate="x-fast">très rapidement</prosody></speak>
Je peux également parler très fort ou très doucement. <speak>Je peux également parler <prosody volume="x-loud">très fort</prosody> ou <prosody volume="x-soft">très doucement</prosody>. </speak>
Je sais chuchoter. <speak>J'ai un secret à vous confier, je vais vous le chuchoter.<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">Je ne suis pas un humain.</prosody></prosody></amazon:effect>Le croyez-vous ?</speak>

Style oratoire de rédaction

Amazon Polly peut être utilisé pour synthétiser la voix de sorte qu’elle soit similaire à celle d’un∙e présentateur∙trice radio ou TV. Cela peut être un excellent moyen de lire des articles de presse ou de présenter l'actualité. Le style présentateur est actuellement disponible pour les voix de Matthew et Joanna en anglais américain, pour la voix d'Amy en anglais britannique et pour la voix de Lupe en espagnol américain utilisant la technologie de synthèse vocale neuronale. Écoutez un extrait audio en anglais américain, anglais britannique ou espagnol américain.

Ajuster la durée maximale du discours

Amazon Polly vous permet d'ajuster automatiquement le débit de parole en fonction d'une durée maximale que vous définissez à l'aide d'une fonction appelée prosodie temporelle. Ceci est un atout pour de nombreux cas d'utilisation, en particulier lorsqu'il s'agit de localisation.

Par exemple, supposons que vous avez un discours en anglais américain intégré dans votre vidéo de formation et que vous souhaitez localiser cette vidéo en allemand. Disons que vous traduisez le texte à l'aide d'Amazon Translate et que vous l'exprimez avec Polly. Il est essentiel que le discours allemand localisé s'intègre dans les images correspondantes de la vidéo, de sorte que le discours allemand ne peut pas être plus long que le discours anglais américain. Vous pouvez utiliser cette fonction pour faciliter le processus de doublage.

Plates-formes et langages de programmation pris en charge

Amazon Polly prend en charge tous les langages de programmation figurant dans le kit SDK AWS (Java, Node.js, .NET, PHP, Python, Ruby, Go et C++) et dans le kit SDK AWS Mobile (iOS/Android). Polly prend également en charge une API HTTP afin que vous puissiez mettre en place votre propre couche d'accès.

Synthèse vocale par API, console ou ligne de commande

Amazon Polly est accessible en utilisant l'API Polly (et différents kits SDK propres à chaque langue), AWS Management Console et l'interface de ligne de commande AWS. Que vous utilisiez Amazon Polly depuis la console, l'API ou l'interface de ligne de commande, vous avez un contrôle total sur toutes ses fonctionnalités.

Glossaires personnalisés

Grâce aux glossaires ou lexiques personnalisés d'Amazon Polly, vous pouvez modifier la prononciation de certains mots, tels que des noms d'entreprises, des acronymes, des mots étrangers ou des néologismes (par exemple « ROTFL », « C'est la vie » dit dans une voix non française). Pour personnaliser ces prononciations, vous importez un fichier XML avec les entrées lexicales. Par exemple vous pouvez personnaliser la prononciation de « Nguyen » en fournissant un phonème avec ces balises XML :

<lexeme>
            <grapheme>Nguyen</grapheme>
            <grapheme>nguyen</grapheme>
            <grapheme>NGUYEN</grapheme>
            <phoneme>"nu.jEn'</phoneme>
</lexeme>

Brand Voice

Brand Voice est un engagement personnalisé dans lequel vous travaillez avec l'équipe d'Amazon Polly pour créer une voix Neural Text-to-Speech (NTTS) à l'usage exclusif de votre organisation. Brand Voice vous permet de différencier vos produits et applications grâce à une identité vocale unique dans une grande variété de cas d'utilisation, y compris les intégrations Amazon Connect et Alexa Skills. Nous travaillons avec vous tout au long du processus pour identifier le personnage, identifier un acteur ou une actrice et enregistrer son discours, et finalement créer et former un modèle pour produire la voix. La voix est ensuite mise à disposition de vos ID de compte AWS.

Écoutez la voix de marque de la Banque nationale d’Australie »

Écoutez la voix de marque de la Banque de Nouvelle-Zélande »

Si vous souhaitez créer une voix de marque à l'aide de Polly, contactez votre responsable de compte AWS ou nous-mêmes pour plus d'informations.

Intégrations au centre de contacts

Amazon Connect

Amazon Polly est intégré nativement à Amazon Connect, la solution de centre de contact basée sur le cloud d’AWS que vous utilisez pour configurer et gérer un centre de contact client et fournir un engagement client fiable à n’importe quelle échelle. Pour en savoir plus sur l’ajout de texte aux invites à votre système de réponse vocale interactive conversationnelle, voyez ici comment utiliser les fonctions vocales de Polly dans Amazon Connect.

Genesys Cloud CX

Genesys Cloud CX est une solution de centre de contact cloud qui unifie les expériences des clients et des agents sur plusieurs canaux comme le téléphone, les SMS et le chat. Vous pouvez déployer vos bots vocaux en utilisant l’une des fonctions vocales Polly existantes. Veuillez consulter la documentation de Genesys Cloud pour plus d'informations.

SDK Amazon Chime

Le kit SDK Amazon Chime est un ensemble de composants de communication en temps réel utilisables par les développeurs pour ajouter rapidement des fonctionnalités d'appel audio/vidéo et de partage d'écran à leurs propres applications Web, mobiles ou téléphoniques. Le kit SDK Amazon Chime prend en charge l'intégration native avec Amazon Polly, ce qui aide les développeurs à créer des applications qui convertissent le texte et les données numériques en enregistrement audio réaliste et lit automatiquement la sortie à un appelant.

Intelligence du Centre de contacts (CCI) AWS

Amazon Polly est utilisé par plusieurs partenaires AWS CCI, ce qui vous permet de créer facilement des agents virtuels de service clients en libre-service, des robots d'information ou des robots d'application. Les partenaires d’Amazon Polly incluent Genesys, Vonage et Accenture. Pour en savoir plus sur les partenaires, consultez les pages AWS CCI et Partenaires AWS CCI.