Fonctionnalités d'Amazon Polly

Une API facile à utiliser

Amazon Polly propose une API qui vous permet d'intégrer rapidement une synthèse vocale à votre application. Il vous suffit d'envoyer le texte que vous voulez convertir en audio à l'API d'Amazon Polly pour qu'Amazon Polly renvoie directement l'enregistrement audio à votre application. Vous pouvez ensuite le diffuser directement en streaming ou le stocker dans un format de fichier audio standard, comme le MP3.

Taux d'échantillonnage	Exemple de code
« Bonjour. Je m'appelle Joanna. »	depuis le client d'importation boto3 polly = client("polly", region_name="us-east-1") response = polly.synthesize_speech( Texte="Bonjour. Je m'appelle Joanna.", OutputFormat="mp3", VoiceId="Joanna")

Une large gamme de voix et de langues

Amazon Polly inclut des dizaines de voix réalistes et prend en charge une grande variété de langues. Vous pouvez alors choisir la voix idéale et distribuer vos applications parlantes dans de nombreux pays. En plus des voix standard et de la synthèse vocale neuronale (NTTS), Amazon Polly propose désormais des voix en version long format et génératives qui améliorent la qualité vocale pour des voix plus naturelles et plus humaines.

Danielle, Gregory, Ruth, Patryk, Alba et Raúl sont des voix disponibles dans une variante longue.

Ruth, Matthew, Amy, Joanna, Danielle, Stephen, Olivia, Ayanda, Lucia, Lupe, Léa, Mía et Vicki, Bianca, Kajal, Pedro, Andrés, Sergio, Daniel et Rémi sont disponibles dans une variante générative.

Langue ou variante de langue	Femme	Homme

Arabe-MSA	Zeina
Arabe - Golfe	Hala (Neuronal)	Zayd (voix neuronale)
Cantonais	Hiujin (voix neuronale)
Catalan	Arlet (voix neuronale)
Danois	Sofie (voix neuronale)	Mads
	Naja
Néerlandais	Laura (voix neuronale)	Ruben
	Lotte
Néerlandais (flamand) - Belgique	Lisa (voix neuronale)
Anglais - Inde	Kajal (voix neuronale)
	Raveena
	Aditi
	Kajal (voix générative)
Anglais - Irlande	Niamh (voix neuronale)
Anglais - Nouvelle-Zélande	Aria (voix neuronale)
Anglais – Singapour	Jasmine (voix neuronale)
Anglais – Afrique du Sud	Ayanda (voix générative)
	Ayanda
Anglais — Royaume-Uni	Amy (voix générative)	Brian (voix neuronale)
	Amy (voix neuronale)	Brian (voix standard)
	Amy (voix standard)	Arthur (voix neuronale)
	Emma (voix neuronale)
	Emma (voix standard)
Anglais — États-Unis	Ruth (voix générative)	Patrick (long format)
	Ruth (long format)	Gregory (version longue)
	Ruth (voix neuronale)	Gregory (voix neuronale)
	Danielle (voix générative)	Stephen (voix générative)
	Danielle (long format)	Stephen (voix neuronale)
	Joanna (voix générative)	Matthew (voix générative)
	Joanna (voix neuronale)	Matthew (voix neuronale)
	Joanna (voix standard)	Matthew (voix standard)
	Salli (voix neuronale)	Justin (voix neuronale)
	Salli (voix standard)	Justin (standard)
	Kendra (voix neuronale)	Joey (voix neuronale)
	Kendra (voix standard)	Joey (voix standard)
	Kimberly (voix neuronale)
	Kimberly (voix standard)
	Ivy (voix neuronale)
	Lierre (voix standard)
Anglais - Pays de Galles		Geraint
Anglais - Australie	Olivia (voix générative)	Russell
	Olivia (voix neuronale)
	Nicole
Finnois	Suvi (voix neuronale)
Français - Belgique	Isabelle (voix neuronale)
Français - Canada	Gabrielle (voix neuronale)	Liam (voix neuronale)
	Chantal
Français – France	Léa (voix générative)	Mathieu
	Léa (voix neuronale)	Rémi (voix générative)
	Léa (voix standard)	Rémi
	Céline
Allemand - Autriche	Hannah (voix neuronale)
Allemand – Allemagne	Vicki (voix générative)	Daniel (voix générative)
	Vicky (voix neuronale)	Daniel (voix neuronale)
	Vicki (voix standard)	Hans
	Marlene
Hindi - Inde	Kajal (voix neuronale)
	Aditi
Islandais	Dóra	Karl
Italien	Bianca (voix neuronale)	Adriano
	Bianca (voix standard)	Giorgio
	Bianca (voix générative)
	Carla
Japonais	Kazuha (voix neuronale)	Takumi (voix neuronale)
	Tomoko (voix neuronale)	Takumi (voix standard)
	Mizuki
Coréen	Seoyeon (voix neuronale)
	Jihye (voix neuronale)
	Seoyeon (voix standard)
Mandarin	Zhiyu (voix neuronale)
	Zhiyu (voix standard)
Norvégien	Ida (voix neuronale)
	Liv
Polonais	Ola (voix neuronale)	Jacek
	Ewa	Jan
	Maja
Portugais - Brésil	Vitória (voix neuronale)	Ricardo
	Vitória (voix standard)	Thiago
	Camila (voix neuronale)
	Camila (voix standard)
Portugais - Portugal	Inês (voix neuronale)	Cristiano
	Inês (voix standard)
Roumain	Carmen
Russe	Tatyana	Maxim
Espagnol – Mexique	Mia (voix générative)
	Mia (voix neuronale)	Andrés
	Mia (voix standard)	Andrés (voix générative)
Espagnol – Espagne	Alba (long format)	Raúl (long format)
	Lucia (voix générative)	Sergio
	Lucia (voix neuronale)	Enrique
	Lucia (voix standard)	Sergio (voix générative)
Espagnol – États-Unis	Conchita	Pedro (voix générative)
	Lupe (voix générative)	Pedro (voix neuronale)
	Lupe (voix neuronale)	Miguel
	Lupe (voix standard)
	Penélope
Suédois	Astrid
	Elin (voix neuronale)
Turc	Filiz
	Burcu (voix neuronale)
Gallois	Gwyneth

Un discours synchronisé pour une expérience visuelle améliorée

Amazon Polly facilite l'interrogation d'un flux additionnel de métadonnées offrant des informations pertinentes lorsque certaines phrases, certains mots et certains sons sont prononcés. En utilisant ce flux de métadonnées en même temps que le flux audio de paroles synthétisées, vous pouvez à présent proposer des applications avec une expérience visuelle améliorée, notamment des fonctions de synchronisation labiale ou de surlignage des mots similaire à celui des vidéos de karaoké.

Veuillez consulter la documentation pour en savoir plus sur l'utilisation des Speech Marks.

Optimisez votre diffusion audio en streaming

Avec Amazon Polly, vous pouvez diffuser toutes sortes d'informations à vos utilisateurs en temps presque réel grâce à votre application. Vous pouvez également faire votre choix parmi plusieurs taux d'échantillonnage afin d'optimiser la bande passante et la qualité audio pour votre application. Amazon Polly prend en charge les formats MP3 et Vorbis, ainsi que les formats de diffusion audio PCM bruts.

Taux d'échantillonnage	Taille MP3	Taille au format OGG	Taille au format PCM
24,00 kHz Écouter	19,31 Ko	18,11 Ko	N/A
22,05 kHz Écouter	19,33 Ko	17,62 Ko	N/A
16,05 kHz Écouter	16,22 Ko	15,48 Ko	100,68 Ko
8,00 kHz Écouter	13,26 Ko	9,72 Ko	50,34 Ko

Réglage du style vocal, du débit de parole, de la hauteur de la voix et de l’intensité sonore

Amazon Polly prend en charge le Speech Synthesis Markup Language (SSML), un langage de balisage basé sur XML conforme à la norme W3C dédié aux applications de synthèse vocale, et les balises habituelles du SSML pour le phrasé, l'accent et l'intonation. Les balises Amazon SSML personnalisées offrent des options uniques, telles que la possibilité de faire parler certaines voix dans un style de rédaction. Cette flexibilité vous permet de créer un discours réaliste qui attirera votre public et retiendra son attention.

Pour en savoir plus, consultez la documentation Amazon Polly sur les balises SSML.

Exemple	SSML
En temps normal, je parle de cette façon.	(aucun)
Je peux aussi parler dans un style de rédaction, comme si je lisais un article de presse ou présentais des informations.	<speak><amazon:domain name="news">Je peux aussi parler dans un style de rédaction, comme si je lisais un article de presse ou présentais des informations. </amazon:domain> </speak>
Je peux parler avec une voix plus haute ou plus basse.	<speak>Je peux parler avec <prosody pitch="high">une voix plus haute</prosody> ou avec <prosody pitch="low">une voix plus basse</prosody></speak>
Je peux parler très lentement ou très rapidement.	<speak>Je peux parler <prosody rate="x-slow">très lentement</prosody> ou <prosody rate="x-fast">très rapidement</prosody></speak>
Je peux également parler très fort ou très doucement.	<speak>Je peux également parler <prosody volume="x-loud">très fort</prosody> ou <prosody volume="x-soft">très doucement</prosody>. </speak>
Je sais chuchoter.	<speak>J'ai un secret à vous confier, je vais vous le chuchoter.<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">Je ne suis pas un humain.</prosody></prosody></amazon:effect>Le croyez-vous ?</speak>

Style oratoire de rédaction

Amazon Polly peut être utilisé pour synthétiser la voix de sorte qu’elle soit similaire à celle d’un∙e présentateur∙trice radio ou TV. Cela peut être un excellent moyen de lire des articles de presse ou de présenter l'actualité. Le style présentateur est actuellement disponible pour les voix de Matthew et Joanna en anglais américain, pour la voix d'Amy en anglais britannique et pour la voix de Lupe en espagnol américain utilisant la technologie de synthèse vocale neuronale. Écoutez un extrait audio en anglais américain, anglais britannique ou espagnol américain.

Ajuster la durée maximale du discours

Amazon Polly vous permet d'ajuster automatiquement le débit de parole en fonction d'une durée maximale que vous définissez à l'aide d'une fonction appelée prosodie temporelle. Ceci est un atout pour de nombreux cas d'utilisation, en particulier lorsqu'il s'agit de localisation.

Par exemple, supposons que vous avez un discours en anglais américain intégré dans votre vidéo de formation et que vous souhaitez localiser cette vidéo en allemand. Disons que vous traduisez le texte à l'aide d'Amazon Translate et que vous l'exprimez avec Polly. Il est essentiel que le discours allemand localisé s'intègre dans les images correspondantes de la vidéo, de sorte que le discours allemand ne peut pas être plus long que le discours anglais américain. Vous pouvez utiliser cette fonction pour faciliter le processus de doublage.

Plates-formes et langages de programmation pris en charge

Amazon Polly prend en charge tous les langages de programmation figurant dans le kit SDK AWS (Java, Node.js, .NET, PHP, Python, Ruby, Go et C++) et dans le kit SDK AWS Mobile (iOS/Android). Polly prend également en charge une API HTTP afin que vous puissiez mettre en place votre propre couche d'accès.

Synthèse vocale par API, console ou ligne de commande

Amazon Polly est accessible en utilisant l'API Polly (et différents kits SDK propres à chaque langue), AWS Management Console et l'interface de ligne de commande AWS. Que vous utilisiez Amazon Polly depuis la console, l'API ou l'interface de ligne de commande, vous avez un contrôle total sur toutes ses fonctionnalités.

Glossaires personnalisés

Grâce aux glossaires ou lexiques personnalisés d'Amazon Polly, vous pouvez modifier la prononciation de certains mots, tels que des noms d'entreprises, des acronymes, des mots étrangers ou des néologismes (par exemple « ROTFL », « C'est la vie » dit dans une voix non française). Pour personnaliser ces prononciations, vous importez un fichier XML avec les entrées lexicales. Par exemple vous pouvez personnaliser la prononciation de « Nguyen » en fournissant un phonème avec ces balises XML :

Nguyen (avant)

Nguyen (après)

<lexeme>
            <grapheme>Nguyen</grapheme>
            <grapheme>nguyen</grapheme>
            <grapheme>NGUYEN</grapheme>
            <phoneme>"nu.jEn'</phoneme>
</lexeme>

Brand Voice

Brand Voice est un engagement personnalisé dans lequel vous travaillez avec l'équipe d'Amazon Polly pour créer une voix Neural Text-to-Speech (NTTS) à l'usage exclusif de votre organisation. Brand Voice vous permet de différencier vos produits et applications grâce à une identité vocale unique dans une grande variété de cas d'utilisation, y compris les intégrations Amazon Connect et Alexa Skills. Nous travaillons avec vous tout au long du processus pour identifier le personnage, identifier un acteur ou une actrice et enregistrer son discours, et finalement créer et former un modèle pour produire la voix. La voix est ensuite mise à disposition de vos ID de compte AWS.

Écoutez la voix de marque de la Banque nationale d’Australie »

Écoutez la voix de marque de la Banque de Nouvelle-Zélande »

Si vous souhaitez créer une voix de marque à l'aide de Polly, contactez votre responsable de compte AWS ou nous-mêmes pour plus d'informations.

Intégrations au centre de contacts

Amazon Connect

Amazon Polly est intégré nativement à Amazon Connect, la solution de centre de contact basée sur le cloud d’AWS que vous utilisez pour configurer et gérer un centre de contact client et fournir un engagement client fiable à n’importe quelle échelle. Pour en savoir plus sur l’ajout de texte aux invites à votre système de réponse vocale interactive conversationnelle, voyez ici comment utiliser les fonctions vocales de Polly dans Amazon Connect.

Genesys Cloud CX

Genesys Cloud CX est une solution de centre de contact cloud qui unifie les expériences des clients et des agents sur plusieurs canaux comme le téléphone, les SMS et le chat. Vous pouvez déployer vos bots vocaux en utilisant l’une des fonctions vocales Polly existantes. Veuillez consulter la documentation de Genesys Cloud pour plus d'informations.

SDK Amazon Chime

Le kit SDK Amazon Chime est un ensemble de composants de communication en temps réel utilisables par les développeurs pour ajouter rapidement des fonctionnalités d'appel audio/vidéo et de partage d'écran à leurs propres applications Web, mobiles ou téléphoniques. Le kit SDK Amazon Chime prend en charge l'intégration native avec Amazon Polly, ce qui aide les développeurs à créer des applications qui convertissent le texte et les données numériques en enregistrement audio réaliste et lit automatiquement la sortie à un appelant.

Intelligence du Centre de contacts (CCI) AWS

Amazon Polly est utilisé par plusieurs partenaires AWS CCI, ce qui vous permet de créer facilement des agents virtuels de service clients en libre-service, des robots d'information ou des robots d'application. Les partenaires d’Amazon Polly incluent Genesys, Vonage et Accenture. Pour en savoir plus sur les partenaires, consultez les pages AWS CCI et Partenaires AWS CCI.