シンプルで使いやすい API

Amazon Polly 用の API を使用すれば、アプリケーションに音声合成を簡単に統合できます。音声に変換するテキストを Polly API に送信するだけで、Amazon Polly からアプリケーションにオーディオストリームがすぐに返信されます。アプリケーションで直接ストリーミングを開始することも、MP3 のような標準的な音声ファイル形式で保存することもできます。

サンプリングレート サンプルコード
"Hi.My name is Joanna." from boto3 import client
polly = client("polly", region_name="us-east-1")
response = polly.synthesize_speech(
        Text="Hi.My name is Joanna.",
        OutputFormat="mp3",
        VoiceId="Joanna")

さまざまな音声と言語を選択可能

Amazon Polly では、何十種類ものリアルな音声を多数の言語でサポートしているため、最適な音声を選択して、音声対応アプリケーションをさまざまな国で配信できます。Amazon Polly では、標準音声とニューラル音声合成 (NTTS) の音声に加えて、より自然で人間に近い音声を実現する音声品質を向上させる長形式音声と生成音声が提供されるようになりました。

ダニエル、グレゴリー、ルースはアメリカ英語の声で、ロングフォームとニューラルバリエーションがあります。ルース、マシュー、エイミーにはジェネレーティブバリアントもあります。

すべてのポリーの声
言語または言語バリアント 女性 男性
     
アラビア語-MSA Zeina  
アラビア語 - 湾岸方言 Hala (ニューラル) Zayd (ニューラル)
広東語 Hiujin (ニューラル)  
カタルーニャ語 Arlet (ニューラル)  
チェコ語 Jitka (ニューラル)  
デンマーク語 Sofie (ニューラル) Mads
  Naja  
Dutch Laura (ニューラル) Ruben
  Lotte  
オランダ語 (フランドル) - ベルギー Lisa (ニューラル)  
英語 - インド Kajal (ニューラル)  
  Raveena  
  Aditi  
英語 - アイルランド Niamh (ニューラル)  
英語 - ニュージーランド Aria (ニューラル)  
英語 — 南アフリカ Ayanda  
英語 — 英国

エイミー (ジェネレーティブ) Brian (ニューラル)
  Amy (ニューラル)

Brian (スタンダード)

  Amy (スタンダード) Arthur (ニューラル)
  Emma (ニューラル)  
  Emma (スタンダード)  
英語 – 米国

ルース (ジェネレーティブ) グレゴリー (ロングフォーム)
  ルース (ロングフォーム) グレゴリー (ニューラル)
  ルース (ニューラル) スティーヴン (ニューラル)
  ダニエル (ロングフォーム) マシュー (ジェネレーティブ)
  ジョアンナ (ニューラル) Matthew (ニューラル)
  Joanna (スタンダード) Matthew (スタンダード)
  Danielle (ニューラル) Justin (ニューラル)
  Salli (ニューラル) Justin (スタンダード)
  Salli (スタンダード) Joey (ニューラル)
  Kendra (ニューラル) Joey (スタンダード)
  Kendra (スタンダード)  
  Kimberly (ニューラル)  
  Kimberly (スタンダード)  
  Ivy (ニューラル)  
  Ivy (スタンダード)  
英語 - ウェールズ   Geraint

英語 - オーストラリア

Olivia (ニューラル) Russell
  Nicole  
フィンランド語 Suvi (ニューラル)  
フランス語 - ベルギー Isabelle (ニューラル)  
フランス語 - カナダ Gabrielle (ニューラル) Liam (ニューラル)
  Chantal  
フランス語 - フランス Léa (ニューラル) Mathieu
  Léa (スタンダード) Rémi
  Céline  
ドイツ語 - オーストリア Hannah (ニューラル)  
ドイツ語 -ドイツ Vicki (ニューラル) Daniel (ニューラル)
  Vicki (スタンダード) Hans
  Marlene  
ドイツ語 - スイス Sabrina (ニューラル)  
ヒンディー語 - インド Kajal (ニューラル)  
  Aditi  
アイスランド語 Dóra Karl
イタリア語 Bianca (ニューラル) Adriano
  Bianca (スタンダード) Giorgio
  Carla  
日本語 Kazuha (ニューラル) Takumi (ニューラル)
  Tomoko (ニューラル)
Takumi (スタンダード)
  Mizuki  
韓国語 ソヨン (ニューラル)  
  ソヨン (スタンダード)  
中国標準語 Zhiyu (ニューラル)  
  Zhiyu (スタンダード)  
ノルウェー語 Ida (ニューラル)  
  Liv  
ポーランド語 Ola (ニューラル) Jacek
  Ewa Jan
  Maja  
ポルトガル語 - ブラジル Vitória (ニューラル) Ricardo
  Vitória (スタンダード) Thiago
  Camila (ニューラル)  
  Camila (スタンダード)  
ポルトガル語 - ポルトガル Inês (ニュートラル) Cristiano
  Inês (スタンダード)  
ルーマニア語 Carmen  
ロシア語 Tatyana Maxim
スペイン語 - メキシコ Mia (ニューラル) Andrés
  Mia (スタンダード)  
スペイン語 - スペイン Elena (ロングフォーム) Guillermo (ロングフォーム)
  Lucia (ニューラル) Sergio
  Lucia (スタンダード) Enrique
  Conchita  
スペイン語 - 米国 Lupe (ニューラル) Pedro (ニューラル)
  Lupe (スタンダード) Miguel
  Penélope  
スウェーデン語 Astrid  
  Elin (ニューラル)
 
トルコ語 Filiz  
  Burcu (ニューラル)  
ウェールズ語 Gwyneth  

強化された視覚的エクスペリエンスのための音声の同期

Amazon Polly により、特定の文、単語、および音が発音された場合に情報を提供する追加のメタデータストリームを、簡単にリクエストできます。このメタデータストリームを合成音声のオーディオストリームとともに使用して、音声と同期した顔のアニメーションや、カラオケのような単語のハイライトなどの拡張されたビジュアル機能によって、アプリケーションを構築できるようになりました。

スピーチマークの使用方法に関する詳細については、「ドキュメント」を参照してください。 

ストリーミング音声の最適化

Amazon Polly を使えば、アプリケーションからユーザーに、あらゆる種類の情報をほぼリアルタイムにストリーミングできます。また、さまざまなサンプリングレートから選択して、アプリケーション向けに帯域幅と音質を最適化できます。Amazon Polly では、MP3、Vorbis、raw PCM のオーディオストリーム形式がサポートされています。

サンプリングレート MP3 サイズ OGG のサイズ
PCM のサイズ
24.00 kHz 聞く 19.31 kB 18.11 kB 該当なし
22.05 kHz 聞く
19.33 kB 17.62 kB 該当なし
16.05 kHz 聞く 16.22 kB 15.48 kB

100.68 kB

8.00 kHz 聞く 13.26 kB 9.72 kB 50.34 kB

発話スタイル、音声の速さ、高さ、大きさの調整

Amazon Polly は、W3C が定めた音声合成アプリケーション向け XML ベースマークアップ言語の標準フォーマットである Speech Synthesis Markup Language (SSML) に対応しており、言い回し、強調、イントネーションのための一般的な SSML タグがサポートされています。Amazon SSML のカスタムタグには、特定の音声をニュースキャスターの発話スタイルで読み上げる機能など、独自のオプションがあります。この柔軟性により、ユーザーの注意を引き、それを維持することのできる生き生きとした音声を作成できます。

詳細については、「SSML タグに関する Amazon Polly のドキュメント」をご覧ください。

SSML
これが普段の話し方です (なし)
ニュースを読み上げたりフラッシュブリーフィングを配信したりするニュースキャスターのように話すこともできます。 <speak><amazon:domain name="news">ニュースを読み上げたりフラッシュブリーフィングを配信したりするニュースキャスターのように話すこともできます。</amazon:domain></speak>
私はもっと高い声で話すことも、もっと低い声で話すこともできます。 <speak>I can speak in a <prosody pitch="high">higher pitched voice</prosody>, or I can speak <prosody pitch="low">in a lower pitched voice</prosody></speak>
私はとてもゆっくり話すことができます。または、とても速く話すことができます <speak>I can speak <prosody rate="x-slow">really slowly</prosody>, or  I can speak <prosody rate="x-fast">really fast</prosody></speak>
私はとても大きな声で話すこともできます。または、とても小さな声で話すことができます <speak>私は <prosody volume="x-loud">とても大きな声で</prosody>話すことができます。または、<prosody volume="x-soft">とても小さな声で</prosody>話すことができます。 </speak>
私は小声で話すことができます。 <speak>私には秘密があります。あなたにだけこっそり教えます。<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">私は人間ではありません。</prosody></prosody></amazon:effect>信じられますか?</speak>

ニュースキャスターの発話スタイル

Amazon Polly では、テレビやラジオのニュースキャスターが話しているかのように音声を合成することができます。これは、ニュース記事を読んだり、フラッシュブリーフィングの更新を配信するのに最適です。現在、ニューキャスタースタイルは、ニューラルテキスト読み上げ機能を使用する Matthew と Joanna の声での米国英語 (en-US)、Amy の声での英国英語 (en-GB)、および Lupe の声での米国スペイン語 (es-US) を利用可能です。米国英語英国英語、または米国スペイン語の音声サンプルをお聞きください。

音声の最大継続時間の調整

Amazon Polly を使用すれば、時間駆動の韻律と呼ばれる機能を使って定義する最大割り当て時間に基づいて、音声の速度を自動的に調整できます。これは多くのユースケース、特にローカライズに効果的です。

例えば、トレーニング用の動画に米国英語の音声が埋め込まれていて、この動画をドイツ語にローカライズしたいとします。そこで、Amazon Translate を使用してテキストを翻訳し、Polly で声を翻訳するとします。ローカライズされたドイツ語の音声が対応する動画のフレームに入ることが不可欠なため、ドイツ語の音声を米国英語の音声より長くすることはできません。この機能を使用すれば、吹き替え処理をさらに簡単に行うことができます。

プラットフォームとプログラミング言語のサポート

Amazon Polly では、AWS SDK (Java、Node.js、.NET、PHP、Python、Ruby、Go、C++) および AWS Mobile SDK (iOS/Android) に含まれるすべてのプログラミング言語がサポートされます。また、Polly では HTTP API もサポートされるため、独自のアクセスレイヤーを実装できます。

API、コンソール、コマンドラインを使用した音声合成

Amazon Polly には、Polly API (およびさまざまな言語固有の SDK)、AWS マネジメントコンソール、AWS コマンドラインインターフェイス (CLI) を使用してアクセスできます。コンソール、API、CLI のいずれを使用しても、Amazon Polly の機能すべてを完全に制御できます。

カスタム辞書

Amazon Polly のカスタム辞書 (語彙機能) を使えば、会社名、略語、外国語、新語など、特定の単語 (フランス語以外の音声で発話する際の "ROTFL" や "C'est la vie" など) の発音を変更できます。このような発音をカスタマイズするには、辞書エントリの XML ファイルをアップロードします。例えば、"Nguyen" の発音をカスタマイズする場合、この XML を使用して音素を指定します。

<lexeme>
            <grapheme>Nguyen</grapheme>
            <grapheme>nguyen</grapheme>
            <grapheme>NGUYEN</grapheme>
            <phoneme>"nu.jEn'</phoneme>
</lexeme>

ブランド音声

ブランド音声は、Amazon Polly チームと協力して、組織専用のニューラルテキスト読み上げ (NTTS) 音声を作成するカスタムエンゲージメントです。ブランド音声を使用すると、Amazon Connect や Alexa スキルの統合など、さまざまなユースケースで製品とアプリケーションを独自の音声 ID で差別化できます。ペルソナを特定し、俳優を特定し、彼らのスピーチを記録し、最終的に音声を生成するためのモデルを構築およびトレーニングするために、プロセス全体を通してお客様と協力します。その後、音声は AWS アカウント ID で利用可能になります。

ナショナルオーストラリア銀行のブランド音声を聴く »

ニュージーランド銀行のブランド音声を聞く »

Polly を使用してブランド音声を構築することにご興味がある場合は、AWS アカウントマネージャーに問い合わせるか、詳細についてお問い合わせください。

コンタクトセンターの統合

Amazon Connect

Amazon Polly は、カスタマーコンタクトセンターを設置および管理し、あらゆる規模で信頼できるカスタマーエンゲージメントを提供するために使用される AWS のクラウドベースのコンタクトセンターソリューションである Amazon Connect とネイティブに統合されます。会話型自動音声応答システムにテキスト読み上げプロンプトを追加する方法の詳細については、Amazon Connect 内で Polly ボイスを使用する方法をご覧ください。

Genesys Cloud CX

Genesys Cloud CX は、電話、テキスト、チャットなど複数のチャネルで顧客とエージェントの体験を統一するクラウドコンタクトセンターソリューションです。既存の Polly ボイスのいずれかを使用して音声ボットをデプロイすることができます。詳細については、Genesys Cloud ドキュメントを参照してください。

Amazon Chime SDK

Amazon Chime SDK はリアルタイムの通信コンポーネントのセットで、これを使用して、デベロッパーは音声通話、ビデオ通話、画面共有機能を独自のウェブ、モバイル、またはテレフォニーアプリケーションにすばやく追加できます。 Amazon Chime SDK が Amazon Polly とのネイティブ統合をサポートし、ビルダーがテキストや数値データをリアルな音声に変換し、出力を電話の発信者に自動的に再生するアプリケーションを簡単に作成できるようになります。

AWS Contact Center Intelligence (CCI)

Amazon Polly は複数の AWS CCI パートナーによって使用されているため、セルフサービスのカスタマーサービス仮想エージェント、情報ボット、またはアプリケーションボットをシームレスに作成できます。Amazon Polly のパートナーには、Genesys、Vonage、Accenture が含まれます。パートナーの詳細については、AWS CCI および AWS CCI パートナーのページにアクセスしてください。