简单易用的 API

Amazon Polly 提供了 API,它可以帮助您将语音合成功能快速集成到应用程序中。您只要将想要转换为语音的文本发送到 Amazon Polly API,Amazon Polly 就会立即将音频流返回您的应用程序。应用程序可以直接播放该音频流,也可以将其存储为 MP3 等标准音频文件格式。

采样率 示例代码
"Hi.My name is Joanna." from boto3 import client
polly = client("polly", region_name="us-east-1")
response = polly.synthesize_speech(
        Text="Hi.My name is Joanna.",
        OutputFormat="mp3",
        VoiceId="Joanna")

广泛的语音和语言选择

Amazon Polly 可以提供几十种逼真的语音并支持多种语言,因此您可以选择最合适的语音,并在许多国家/地区发布具有语音功能的应用程序。

语言
澳大利亚英语 Nicole Russell
巴西葡萄牙语 Vitória Ricardo
加拿大法语 Chantal  
丹麦语 Naja Mads
荷兰语 Lotte Ruben
法语

Léa

Céline

Mathieu

 

德国 Vicki Hans
  Marlene  
印地语 Aditi
 
冰岛语 Dóra Karl
印度英语

Raveena

Aditi

 
意大利语 Carla Giorgio
日语 Mizuki Takumi
朝鲜语 Seoyeon  
普通话 Zhiyu  
挪威语 Liv  
波兰语 Ewa Jacek
  Maja Jan
葡萄牙伊比利亚语 Inês Cristiano
罗马尼亚语 Carmen  
俄语 Tatyana Maxim
西班牙卡斯蒂利亚语 Conchita Enrique
瑞典语 Astrid  
土耳其语 Filiz  
英国英语 Amy Brian
  Emma  
美国英语 Joanna Matthew
  Salli Justin
  Kendra Joey
  Kimberly  
  Ivy  
美国西班牙语 Penélope Miguel
威尔士语 Gwyneth  
威尔士英语   Geraint

使用合成语音功能,获得增强的视觉体验

Amazon Polly 让您可以轻松请求额外的元数据流,以了解特定语句、词语和声音的发出时间。将这一元数据流与合成语音音频流配合使用,您能够在应用程序中提供增强的视觉体验,例如语音同步的面部动画或卡拉 OK 式的字词高亮显示。

要详细了解如何使用语音标记功能,请访问此文档。 

优化您的流音频

使用 Amazon Polly,您可以接近实时地通过应用程序向用户流式传输各种各样的信息。Amazon Polly 还提供多种采样率供您选择,便于您为应用程序优化带宽和音频质量。Amazon Polly 支持 MP3、Vorbis 和原始 PCM 音频流格式。

采样率 MP3 大小   OGG 大小
PCM 大小
22.05kHz 试听
19.02kB 19.14kB N/A
16.05kHz 试听 16.04kB
16.35kB
99.53kB
8.00kHz 试听 13.26kB 10.40kB 49.76kB

调节语速、音调和音量

Amazon Polly 支持语音合成标记语言 (SSML),它是一种适用于语音合成应用程序的基于 XML 的 W3C 标准标记语言;Amazon Polly 还支持常用的 SSML 标签,用于调整措辞、强调和语调。这种灵活性可以帮助您制作生动逼真的语音,以更好地吸引受众的注意力。

要了解更多信息,请访问关于 SSML 标签的 Amazon Polly 文档

样本 SSML
这是我平常说话的方式 (无)
我可以用较高的音调说话,或者我可以用较低的音调说话 <speak>我可以用<prosody pitch="high">较高的音调</prosody>说话,或者我可以用<prosody pitch="low">较低的音调</prosody></speak>说话
我可以说得很慢,或者我可以说得很快 <speak>我可以说得<prosody rate="x-slow">很慢</prosody>,或者我可以说得<prosody rate="x-fast">很快</prosody></speak>
我还可以非常大声地说话,或者我可以非常小声地说话 <speak>我还可以<prosody volume="x-loud">非常大声</prosody>地说话,或者我可以<prosody volume="x-soft">非常小声</prosody>地说话</speak>
我可以悄声说话。 <speak>我有一个秘密要告诉你,我来悄悄地告诉你。<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">我不是人类。</prosody></prosody></amazon:effect>你相信吗?</speak>

调节语音的最长持续时间

使用 Amazon Polly,您可以使用一个叫“时间驱动的韵律”的功能,基于您所设定的最长分配时间自动调整语速。这对许多使用案例都是有利的,尤其是在本地化方面。

例如,假设您的培训视频中嵌入的是美国英语语音,您想将此视频本地化为德语。假设您翻译了视频文本,并使用 Amazon Polly 制作了德语语音。将本地化后的德语语音流准确放入视频相应的帧中非常关键,德语语音的持续时间不能比美国英语语音的持续时间长。您可以使用此功能使配音过程更加便利。

平台和变成语言支持

Amazon Polly 支持 AWS 软件开发工具包中包含的所有编程语言(Java、Node.js、.NET、PHP、Python、Ruby、Go 和 C++)和 AWS 移动软件开发工具包中包含的所有编程语言 (iOS/Android)。Polly 还支持 HTTP API,因此您可以实施自己的访问层。

通过 API、控制台或命令行使用语音合成功能

您可以通过 Polly API(各种特定语言的软件开发工具包)、AWS 管理控制台和 AWS 命令行界面 (CLI) 访问 Amazon Polly。您可以完全控制 Amazon Polly 的所有功能,无论您是通过控制台、API 还是 CLI 使用此服务。

自定义字典

借助 Amazon Polly 的自定义字典或词汇表,您可以使用修改公司名称、首字母缩略词、外来词和新词等特定词语的发音,例如“ROTFL”和用非法语语音说出的“C’est la vie”。要自定义这些发音,您需要上传一份包含词汇条目的 XML 文件。例如,您可以通过在该 XML 文件中提供语音来自定义“Nguyen”的发音:

<lexeme>
            <grapheme>Nguyen</grapheme>
            <grapheme>nguyen</grapheme>
            <grapheme>NGUYEN</grapheme>
            <phoneme>"nu.jEn'</phoneme>
</lexeme>

了解有关 Amazon Polly 定价的更多信息

访问定价页面
准备好开始使用了吗?
注册
还有更多问题?
联系我们