Amazon Polly の特徴
シンプルで使いやすい API
Amazon Polly 用の API を使用すれば、アプリケーションに音声合成を簡単に統合できます。音声に変換するテキストを Polly API に送信するだけで、Amazon Polly からアプリケーションにオーディオストリームがすぐに返信されます。アプリケーションで直接ストリーミングを開始することも、MP3 のような標準的な音声ファイル形式で保存することもできます。
サンプリングレート | サンプルコード |
"Hi.My name is Joanna." | from boto3 import client polly = client("polly", region_name="us-east-1") response = polly.synthesize_speech( Text="Hi.My name is Joanna.", OutputFormat="mp3", VoiceId="Joanna") |
さまざまな音声と言語を選択可能
Amazon Polly では、何十種類ものリアルな音声を多数の言語でサポートしているため、最適な音声を選択して、音声対応アプリケーションをさまざまな国で配信できます。Amazon Polly では、標準音声とニューラル音声合成 (NTTS) の音声に加えて、より自然で人間に近い音声を実現する音声品質を向上させる長形式音声と生成音声が提供されるようになりました。
ダニエル、グレゴリー、ルースはアメリカ英語の声で、ロングフォームとニューラルバリエーションがあります。ルース、マシュー、エイミーにはジェネレーティブバリアントもあります。
強化された視覚的エクスペリエンスのための音声の同期
Amazon Polly により、特定の文、単語、および音が発音された場合に情報を提供する追加のメタデータストリームを、簡単にリクエストできます。このメタデータストリームを合成音声のオーディオストリームとともに使用して、音声と同期した顔のアニメーションや、カラオケのような単語のハイライトなどの拡張されたビジュアル機能によって、アプリケーションを構築できるようになりました。
スピーチマークの使用方法に関する詳細については、「ドキュメント」を参照してください。
ストリーミング音声の最適化
Amazon Polly を使えば、アプリケーションからユーザーに、あらゆる種類の情報をほぼリアルタイムにストリーミングできます。また、さまざまなサンプリングレートから選択して、アプリケーション向けに帯域幅と音質を最適化できます。Amazon Polly では、MP3、Vorbis、raw PCM のオーディオストリーム形式がサポートされています。
サンプリングレート | MP3 サイズ | OGG のサイズ |
PCM のサイズ |
24.00 kHz 聞く | 19.31 kB | 18.11 kB | 該当なし |
22.05 kHz 聞く |
19.33 kB | 17.62 kB | 該当なし |
16.05 kHz 聞く | 16.22 kB | 15.48 kB | 100.68 kB |
8.00 kHz 聞く | 13.26 kB | 9.72 kB | 50.34 kB |
発話スタイル、音声の速さ、高さ、大きさの調整
Amazon Polly は、W3C が定めた音声合成アプリケーション向け XML ベースマークアップ言語の標準フォーマットである Speech Synthesis Markup Language (SSML) に対応しており、言い回し、強調、イントネーションのための一般的な SSML タグがサポートされています。Amazon SSML のカスタムタグには、特定の音声をニュースキャスターの発話スタイルで読み上げる機能など、独自のオプションがあります。この柔軟性により、ユーザーの注意を引き、それを維持することのできる生き生きとした音声を作成できます。
詳細については、「SSML タグに関する Amazon Polly のドキュメント」をご覧ください。
例 | SSML |
これが普段の話し方です。 | (なし) |
ニュースを読み上げたりフラッシュブリーフィングを配信したりするニュースキャスターのように話すこともできます。 | <speak><amazon:domain name="news">ニュースを読み上げたりフラッシュブリーフィングを配信したりするニュースキャスターのように話すこともできます。</amazon:domain></speak> |
私はもっと高い声で話すことも、もっと低い声で話すこともできます。 | <speak>I can speak in a <prosody pitch="high">higher pitched voice</prosody>, or I can speak <prosody pitch="low">in a lower pitched voice</prosody></speak> |
私はとてもゆっくり話すことができます。または、とても速く話すことができます。 | <speak>I can speak <prosody rate="x-slow">really slowly</prosody>, or I can speak <prosody rate="x-fast">really fast</prosody></speak> |
私はとても大きな声で話すこともできます。または、とても小さな声で話すことができます。 | <speak>私は <prosody volume="x-loud">とても大きな声で</prosody>話すことができます。または、<prosody volume="x-soft">とても小さな声で</prosody>話すことができます。 </speak> |
私は小声で話すことができます。 | <speak>私には秘密があります。あなたにだけこっそり教えます。<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">私は人間ではありません。</prosody></prosody></amazon:effect>信じられますか?</speak> |
ニュースキャスターの発話スタイル
Amazon Polly では、テレビやラジオのニュースキャスターが話しているかのように音声を合成することができます。これは、ニュース記事を読んだり、フラッシュブリーフィングの更新を配信するのに最適です。現在、ニューキャスタースタイルは、ニューラルテキスト読み上げ機能を使用する Matthew と Joanna の声での米国英語 (en-US)、Amy の声での英国英語 (en-GB)、および Lupe の声での米国スペイン語 (es-US) を利用可能です。米国英語、英国英語、または米国スペイン語の音声サンプルをお聞きください。
音声の最大継続時間の調整
Amazon Polly を使用すれば、時間駆動の韻律と呼ばれる機能を使って定義する最大割り当て時間に基づいて、音声の速度を自動的に調整できます。これは多くのユースケース、特にローカライズに効果的です。
例えば、トレーニング用の動画に米国英語の音声が埋め込まれていて、この動画をドイツ語にローカライズしたいとします。そこで、Amazon Translate を使用してテキストを翻訳し、Polly で声を翻訳するとします。ローカライズされたドイツ語の音声が対応する動画のフレームに入ることが不可欠なため、ドイツ語の音声を米国英語の音声より長くすることはできません。この機能を使用すれば、吹き替え処理をさらに簡単に行うことができます。
プラットフォームとプログラミング言語のサポート
Amazon Polly では、AWS SDK (Java、Node.js、.NET、PHP、Python、Ruby、Go、C++) および AWS Mobile SDK (iOS/Android) に含まれるすべてのプログラミング言語がサポートされます。また、Polly では HTTP API もサポートされるため、独自のアクセスレイヤーを実装できます。
API、コンソール、コマンドラインを使用した音声合成
Amazon Polly には、Polly API (およびさまざまな言語固有の SDK)、AWS マネジメントコンソール、AWS コマンドラインインターフェイス (CLI) を使用してアクセスできます。コンソール、API、CLI のいずれを使用しても、Amazon Polly の機能すべてを完全に制御できます。
カスタム辞書
Amazon Polly のカスタム辞書 (語彙機能) を使えば、会社名、略語、外国語、新語など、特定の単語 (フランス語以外の音声で発話する際の "ROTFL" や "C'est la vie" など) の発音を変更できます。このような発音をカスタマイズするには、辞書エントリの XML ファイルをアップロードします。例えば、"Nguyen" の発音をカスタマイズする場合、この XML を使用して音素を指定します。
<lexeme>
<grapheme>Nguyen</grapheme>
<grapheme>nguyen</grapheme>
<grapheme>NGUYEN</grapheme>
<phoneme>"nu.jEn'</phoneme>
</lexeme>
ブランド音声
ブランド音声は、Amazon Polly チームと協力して、組織専用のニューラルテキスト読み上げ (NTTS) 音声を作成するカスタムエンゲージメントです。ブランド音声を使用すると、Amazon Connect や Alexa スキルの統合など、さまざまなユースケースで製品とアプリケーションを独自の音声 ID で差別化できます。ペルソナを特定し、俳優を特定し、彼らのスピーチを記録し、最終的に音声を生成するためのモデルを構築およびトレーニングするために、プロセス全体を通してお客様と協力します。その後、音声は AWS アカウント ID で利用可能になります。
ナショナルオーストラリア銀行のブランド音声を聴く »
Polly を使用してブランド音声を構築することにご興味がある場合は、AWS アカウントマネージャーに問い合わせるか、詳細についてお問い合わせください。
コンタクトセンターの統合
Amazon Polly は、カスタマーコンタクトセンターを設置および管理し、あらゆる規模で信頼できるカスタマーエンゲージメントを提供するために使用される AWS のクラウドベースのコンタクトセンターソリューションである Amazon Connect とネイティブに統合されます。会話型自動音声応答システムにテキスト読み上げプロンプトを追加する方法の詳細については、Amazon Connect 内で Polly ボイスを使用する方法をご覧ください。
Genesys Cloud CX は、電話、テキスト、チャットなど複数のチャネルで顧客とエージェントの体験を統一するクラウドコンタクトセンターソリューションです。既存の Polly ボイスのいずれかを使用して音声ボットをデプロイすることができます。詳細については、Genesys Cloud ドキュメントを参照してください。
Amazon Chime SDK はリアルタイムの通信コンポーネントのセットで、これを使用して、デベロッパーは音声通話、ビデオ通話、画面共有機能を独自のウェブ、モバイル、またはテレフォニーアプリケーションにすばやく追加できます。 Amazon Chime SDK が Amazon Polly とのネイティブ統合をサポートし、ビルダーがテキストや数値データをリアルな音声に変換し、出力を電話の発信者に自動的に再生するアプリケーションを簡単に作成できるようになります。
Amazon Polly は複数の AWS CCI パートナーによって使用されているため、セルフサービスのカスタマーサービス仮想エージェント、情報ボット、またはアプリケーションボットをシームレスに作成できます。Amazon Polly のパートナーには、Genesys、Vonage、Accenture が含まれます。パートナーの詳細については、AWS CCI および AWS CCI パートナーのページにアクセスしてください。