发布于: Aug 9, 2022

你知道哪些视频云服务平台?你知道这些平台各有什么功能吗?去年,突如其来的疫情给我们的生活和学习,带来了极大的影响。一方面需要减少人员聚集、降低疫情传播风险,同时又需要兼顾好日常工作推进,很多客户把线下会议转移到线上举办,亚马逊云科技也不例外。尤其是去年底的 re:Invent 2020, 史无前例采用免费线上会议的方式举办,同时,为了中国客户更好的观看体验,我们也推出了本地化的亚马逊 re:Invent 国内站点,方便国内的客户观看,相信不少的粉丝已经通过国内的站点观看了最新的 fable 和技术画。

由于 re:Invent 在全球主要采用英语进行直播,尤其是来自不同国家的英语口音对国内的开发者去学习和了解 re:Invent 的技术内容会有较大的挑战。在收到全球站点传来视频之后,我们既需要第一时间在国内站点播出,又希望能够为中国客户和开发者的体验增加英文字幕,这就需要我们能极短的时间内为每天新增的数十个甚至上百个视频增加英文字幕。在以往,为一个1小时的英文视频增加字幕,就需要翻译人员数小时的工作,去听取英文文本,同时还需要借助一些专业的工具,为听录的文本增加时间轴,这个过程成本极高,也无法满足我们第一时间希望能够发布的需求。

细心的小伙伴们可能已经发现了,在国内站点的视频英文字幕前面都有一句话:“字幕由 Amazon Transcribe 服务提供”,那么这是一个怎样神奇的服务,又是如何快速帮助我们解决视频的英文字幕问题呢?

Amazon Transcribe 是一项自动 语音识别 (ASR) 服务,让开发人员能够轻松地为其应用程序添加语音转文本功能,他可以支持多种语言的 语音识别服务,其中包括英文和中国普通话的支持,而且在北京区域 (BJS) 和宁夏区域 (ZHY) 也已支持该项服务。
 
为了让国内的客户和粉丝能够第一时间看到 re:Invent 视频,很多时候从拿到数十个视频到发布,只有几个小时,这么短啊的时间,我们是如何借助 Amazon Transcribe 来为每天上线的英文视频增加字幕呢?下面我就介绍一下,这个简单易用,无服务器架构的自动生成字幕的解决方案。如果您也刚好有一个同样的需求,可以直接用起来噢!
示例的总体架构如下图所示:

1. 上传视频文件到 Amazon S3 存储桶,可以选定一个特定的文件夹;
2. Amazon S3 监测到存储桶中某个文件夹有新增的文件,触发 lambda 函数;
3. Lambda 函数调用 Amazon Transcribe 服务,生成视频对应的文本(json 格式);
4. 对字幕文本进行格式转换,生成支持播放器的字幕文件格式(srt);
5. 上传字幕文件到存储桶指定的文件夹中。

相关文章