APC 技術ブログ

株式会社エーピーコミュニケーションズの技術ブログです。

株式会社 エーピーコミュニケーションズの技術ブログです。

なんとなくで理解する Amazon Polly

はじめに

こんにちは、クラウド事業部の坂口です。
AWSの特定サービスについてざっくり知るための手助けに。
今回は Amazon Polly について、なんとなくの理解ができるようにまとめてみました。



ざっくりなサービス概要

Amazon Pollyとは...

  • テキストを音声に変換するサービス
  • 方言を含む36の言語に対応...(*)
  • 料金は従量課金制で、処理したテキストの文字数の分だけ
  • 生成する音声はカスタマイズもできる

サービスです!

(*) 方言を含む36の言語 数字は 2023/3/27 時点で確認できているものとなります
方言は、例えば
  英語 (英国)
  英語 (米国)
などを指します


もうちょっとちゃんとした説明

Amazon Polly とは

Amazon PollyはAWSが提供するテキストを音声に変換するサービスで、Pollyオウム(parrot)であったり、オウム返しを意味します。

音声を生成する方法にディープラーニングを用いており、従来の機械音声とは違い自然な音声を提供します。

またAWSのサービスカテゴリとしては Machine Learning です。

aws.amazon.com

音声について

Amazon Polly では音声を生成する際、以下の内容を選択できます。

  • 音声生成のエンジン
  • 言語
  • 言語に紐づく音声

エンジン、言語、音声


エンジンは「ニューラル」と「スタンダード」が選択でき、「ニューラル」は「スタンダード」よりも高品質の音声となります。

スタンダードTTS(text-to-speech)では、録音された音声の断片をつなぎ合わせて自然な合成音声を生成しますが、
ニューラルTTS(NTTS)ではディープラーニングを用いて更に自然な音声を生成します。

注) なお、ニューラル音声はサポートされているリージョンが限られています

docs.aws.amazon.com


言語は先述の通り方言を含む36種類から選択できますが、エンジンによっては対応していない言語もあります。

"スタンダード" 時の言語選択例

docs.aws.amazon.com


音声は、言語に紐づいたものが選択できます。
音声が複数提供されている言語もあり、それぞれ言語圏に因んだ名前が付けられていますが、こちらもエンジンによって対応していない音声があります。

"ニューラル" 時の音声例

docs.aws.amazon.com

料金

Amazon Pollyの料金は処理したテキストの文字数に応じて請求される従量課金制です。
具体的には、

スタンダード音声の場合
100万文字あたり 4.00USD
(⇒ 1 文字あたり 0.000004USD)

ニューラル音声の場合
100万文字あたり 16.00USD
(⇒ 1 文字あたり 0.000016USD)

となります。

また無料利用枠もあり、最初にリクエストしてから12ヶ月の間は、それぞれ以下の文字数まで無料で利用できます。

  • スタンダード音声:毎月500万文字まで無料
  • ニューラル音声:毎月100万文字まで無料

aws.amazon.com

使い方

Amazon Pollyは以下のような流れで簡単に音声を生成できます。

  1. テキストを入力ボックスに入力するか、貼り付ける
  2. エンジン、言語、音声を選択する
  3. 音声を生成する

音声は、その場で聴くことはもちろん、ローカルへのダウンロードS3に保存することもできます。

ただし注意点として、3,000文字を超えるテキストの場合はS3バケットへの保存のみが使用可能です。

カスタマイズ

生成する音声のカスタマイズには、レキシコン(Lexicons)やSSML(Speech Synthesis Markup Language)という機能を使うことができます。
詳しくは解説しませんが、これらの機能を使うことで以下が実現できます。

レキシコン
要はカスタム辞書です。
例えば、一般的では無くAmazon Pollyがうまく読めない単語を、読み上げ方の指定をしてその通りに読ませることができます。

docs.aws.amazon.com

SSML
SSMLはタグをテキストに挿入することで、生成する音声を制御することができます。
例えば、単語やフレーズの強調、読み上げのスピード、ブレスの追加...等々を幅広く設定できたりします。

docs.aws.amazon.com

ユースケース

最後に、Amazon Pollyのユースケースとしては、参考程度ですが例えば以下のようなものがありますので紹介します。

(用途例)
  - ニュース記事やブログ記事などのテキストコンテンツを音声化
  - 音声アシスタントやチャットボットなどの対話型アプリケーションに音声を提供
  - ゲームやアニメーションなどのエンターテイメントコンテンツにキャラクター音声として使用
  - 教育やトレーニングなどの学習コンテンツに音声を提供
  - 視覚障害者や読解困難者などのアクセシビリティ向上のため音声を提供

まとめ

今回はAmazon Pollyについて、なんとなくの理解ができるよう紹介をしました。
機械音声を生成するソフトウェアやツールは色々ありますが、選択肢の一つとしていかがでしょうか。

それではご機嫌なAWSライフを!


おわりに

私達クラウド事業部はAWSなどのクラウド技術を活用したSI/SESのご支援をしております。

https://www.ap-com.co.jp/service/utilize-aws/

また、一緒に働いていただける仲間も募集中です!
今年もまだまだ組織規模拡大中なので、ご興味持っていただけましたらぜひお声がけください。

www.ap-com.co.jp

本記事の投稿者: さかぐち
AWSをメインにインフラ系のご支援を担当しています。