回归基础:媒体无障碍服务

作者: Roman Chekmazov, Ben Formesyn |

在当今世界,可访问性不仅仅是一项功能,它改变了内容的消费量。虽然大多数人都熟悉字幕,但无障碍服务为各种能力的电视观众提供了更广泛的解决方案。在亚马逊云科技,我们专注于让所有人都能访问媒体,今天我们将探索实现这一目标的技术。

电视作为我们生活中娱乐、新闻等的主要来源,是最早关注无障碍环境的电视之一。无障碍是指使信息、活动和环境变得合理、有意义和可供尽可能多的人使用的做法。

电视无障碍服务为欧盟 7% 的视力障碍人口提供支持,五分之一的人一生中通常有视力丧失。同样,据估计,约有 20% 的人口患有某种形式的听力损失或耳聋。但是,最近的一项研究指出,没有听力损失的年轻一代消费带有字幕的内容的可能性是老一代的四倍。

在这里,我们将介绍一个由两部分组成的博客,第一部分探讨电视 (TV) 服务的无障碍标准,第二部分探讨如何为亚马逊云科技原生服务通过互联网交付的内容提供无障碍功能。

字幕和字幕在无障碍环境中的作用

在电视屏幕上显示文字以表示对话和其他音频信息的无障碍功能以两种形式存在:字幕和字幕。从技术上讲,字幕为失聪和听力不佳的观众提供完整的音频体验,而字幕主要侧重于显示或将口语对话翻译成文本。从技术上讲,观众启用字幕显示功能将其定义为隐藏字幕,但在某些地区(例如英国(UK)),它们也可以通俗地称为字幕。

图片显示了启用字幕功能的视频帧示例。这张图片是 Amazon Elemental MediaLive 的图片,字幕已开始显示在屏幕底部,

图 1:字幕 — 英文字幕。

MPEG 传输流 (MPEG TS) 是一种传输容器,通常用于数字电视广播以及互联网协议电视 (IPTV) 分发。在传输流中添加字幕和字幕使失聪、听力障碍或有其他音频限制的观众能够阅读对话和其他环境音频线索。

传输流中最常见的字幕和字幕格式是:

  • 刻录字幕:将字幕转换为文本,然后直接叠加在视频流中的图片顶部。
  • EIA-608 之后CEA-608 字幕:隐藏字幕的标准格式与视频信号一起出现在垂直空白间隔 (VBI) 的第 21 行。这在标清模拟和数字电视中很常见。
  • EIA-708 后来CEA-708 字幕:适用于高级电视系统委员会 (ATSC) 和数字电视的更新数字字幕系统。它们作为数字数据插入到视频传输流中。EIA-708 更加灵活,支持更多的字幕语言和样式。
  • SCTE-27 字幕:一种将 608/708 风格的字幕作为数据包嵌入 MPEG-2 传输流中的另一种方法。

还有其他无障碍格式,例如在欧洲,数字视频广播 (DVB) 图文电视以及基于 DVB 图片/位图的字幕。

  • DVB 图文电视是在 DVB 传输流中与视频节目一起传输交互式图文电视服务的标准。与传统的图文电视一样,它显示文本信息页面,可以使用遥控器键入页码来访问这些信息。图文电视对于观众获取新闻、体育赛事动态、节目指南等非常有用。在传输流中以数字方式传输它在数字时代保留了这种无障碍服务。
图片显示了图文电视页面的示例。

图 2:带有节目指南的 DVB 图文电视页面。

  • DVB 图文电视字幕在特定的图文电视杂志和页面上带有字幕。然后,观众可以使用远程控制键并选择正确的杂志页面(例如 888、777 等)直接快速访问此页面。程序特定信息 (PSI) 由程序映射表 (PMT) 中传输流中的字幕组件描述符组成,用于宣布所携带字幕的存在和格式(参见图 3)。
MPEG TS PSI/PMT 中如何描述图文电视的示例。它显示了信息的文件夹树。

图 3:在 PMT 表中的 MPEG TS 中如何描述 DVB 图文电视的示例。

如果当前程序带有 DVB Teletext 字幕,则观看者将能够看到覆盖在视频上的音频转录文本。

来自《钢铁之泪》的单帧,屏幕底部显示图文电视字幕。画面显示 3 名演员,其中一人使用通信设备。图文电视的字幕上写着:

图 4:摘自《钢铁之泪:DVB 图文电视字幕视频》— (CC) Blender 基金会 | mango.blender.org

  • DVB 位图字幕以图形对象的形式呈现,允许使用更高分辨率的字体,这些字体可以按比例间隔并放置在黑色背景上以增强可读性。使用这种方法,可以将多种语言的位图字幕作为单独的数据包标识符 (PID) 嵌入到单个传输流中。这允许观众为对话和音频提示启用所选语言的字幕。DVB 字幕规范以及 DVB Teletext 字幕还支持一系列具有样式功能的全球语言,包括文字颜色和定位。
来自《钢铁之泪》的单帧,屏幕底部显示 DVB 位图字幕。画面显示 3 名演员,其中一人使用通信设备。DVB 位图字幕上写着:

图 5:使用 Tiresias 字体的 DVB 位图字幕 — (CC) Blender Foundation | mango.blender.org

DVB 位图字幕是由广播公司选择创建的字体,由解码器在视频顶部的图层中在屏幕上呈现为位图。选择字体以提高可读性是一个重要的考虑因素。

DVB 位图字幕还可用于携带音频提示以添加上下文(参见图 6)。

图像显示了可以通过 DVB 字幕传输的其他功能,例如叮当声、抖音和电话提醒等音频提示。

图 6:音频提示的 DVB 位图字幕。

字幕描述符是 PSI/PMT 的关键部分,接收者可以识别程序中是否有可访问性数据(参见图 7)。

MPEG TS SI/PMT 表中如何描述 DVB 字幕的示例。

图 7:在 PMT 表中的 MPEG TS 中如何描述 DVB 字幕的示例。

音频描述在无障碍环境中的作用

音频描述适用于有视觉障碍的人,在节目内容的自然停顿期间提供额外的背景和相关描述。带有音频描述的内容来源可能包括:

  • 描述性音频:一首额外的旁白曲目,旨在让盲人和弱视观众了解关键的视觉细节,这些细节对于关注节目的情节或动作非常重要。
  • 干净的音频:具有增强对话效果和减少背景噪音或音乐的独立音轨。这可以提高听力受限者的清晰度。
  • 音频描述元数据:嵌入在直播中的数据,用于根据节目时间码表明何时应播放描述性音频和信号。

编码器可以利用这些来制作广播混音音频描述曲目(也称为预混音频描述)。这是将主节目音频与描述性音频混合的地方,如果需要,可以调整主节目内容的音频电平,以适应音频描述。图 8 显示了传输流如何表明它有音频无障碍数据。

MPEG TS PSI/PMT 表中如何描述 AD 描述符的示例。

图 8:MPEG TS PSI/PMT 中如何描述音频描述的示例。

以下屏幕截图显示了电子节目指南,包括节目内容包含音频描述 (AD)、字幕 (S) 和手语 (SL) 的指示。该结构也可以通过 OTT 直播获得。

电子节目指南中如何支持节目的无障碍功能示例,显示在电视菜单上,指针指向音频描述、字幕和手语指示器。

图 9:电视菜单中广告描述符的显示示例。

Over The Top (OTT) 时代

近年来,电视传输已从射频(有线电视、卫星和地面)广播转向通过 IP(IPTV 和 OTT)进行消费。您可以通过阅读 "回到基础知识:HTTP 视频流" 来了解有关此内容的更多信息。虽然广播电视提供无障碍服务,例如隐藏字幕和音频描述,但 IP 交付的服务通常仅提供视频和音频服务。

欧洲和英国的法规正在推动提供无障碍服务的项目比例的增加,包括为手语消费者提供的视频内签名。同时,还有一种将分发从广播转移到 IP 的动力。

广播公司希望将当今的体验与其新 IP 产品的无障碍服务相匹配,因为观众期望至少拥有与广播电视当前相同水平的功能。

因此,无障碍功能对于迁移到新的 OTT 分发平台至关重要。

如何在电视菜单中配置无障碍选项的示例。该图像显示一个人在电视机前拿着遥控器显示音频选项菜单。

图 10:如何在电视菜单中配置无障碍选项的示例。

OTT 中的字幕

字幕仍然是 OTT 视频的重要无障碍功能,允许失聪或听力障碍的人访问对话和音频内容。

主要的 OTT 平台和国家广播公司团体已经采用了定时文本标记语言(TTML)及其配置文件 SMPTE 定时文本(SMPTE-TT)等格式。互联网媒体字幕和字幕(IMSC)、EBU-TT-D(欧洲广泛采用的 TTML 标准的增强版)以及网络视频文字轨道(WebVTT)也被用来提供字幕。这些格式建立在电视字幕标准之上,但它们适用于现代流媒体。

具体而言,TTML 和 WebVTT 字幕是将字幕与视频时间码同步的边车文本文件。它们支持文本颜色、位置、字体样式和大小等样式。在播放器方面,现代浏览器和视频 SDK 完全支持解码字幕文件并在播放过程中将文本叠加在视频上。这提供了无缝的隐藏字幕观看体验。

视频顶部显示的字幕示例。这张照片是一位演讲者在舞台上用他们的母语英语进行演讲。副本显示在他们身后的屏幕上,上面写着:Amazon Transcibe,自动语音识别,现已提供预览版。图片的顶部是德语的隐藏字幕,内容为:Menschenandern mochten。所以,我已经准备好了,没有服务。

图 11:视频顶部显示的字幕示例。

OTT 中的音频可访问性

OTT 平台还有各种其他机会可以增加有视觉和听力障碍的观众的可访问性。一些优秀实践包括:

  • 将音频描述旁白混合到主节目音频中时,控制音频电平。
  • 添加元数据,例如音频描述指示器和音量标准化标签。这有助于兼容设备知道何时以及如何处理特殊曲目。
  • 在视频播放器界面中构建自定义音频设置,例如对话增强器、左右音频平衡以及集成音量控制。

随着 OTT 消费的增长,包括无障碍服务可确保它们可供最广泛的受众使用。如果被广泛采用,描述性音轨等访问功能更有可能扩大可访问性。

结论

在本系列的第一部分中,我们讨论了无障碍环境在社会中的作用。

我们审查了广播和互联网传输的不同无障碍服务,例如 DVB 图文电视、DVB 位图字幕和音频描述。我们还谈到了过去为观众提供此功能的不同标准和协议,例如通过射频和 IP 进行广播,以及通过顶级平台进行广播。

在本系列的第二部分中,我们将研究如何使用亚马逊云科技 Elemental Media 服务来满足这些 OTT 的可访问性要求。

联系亚马逊云科技代表以了解更多信息并了解我们如何帮助加速您的业务。

进一步阅读

  • IBC Show 2024 演示展示——亚马逊云科技上的内容本地化和可访问性
  • Amazon Elemental MediaConvert 现已支持音频描述混音
  • 在频道中加入字幕


罗曼·切克马佐夫

Roman Chekmazov

亚马逊云科技 Elemental 高级解决方案架构师

Ben Formesyn

Ben Formesyn

Ben Formesyn 是亚马逊云科技媒体服务和边缘高级专业解决方案架构师。Ben 在广播和内容交付方面拥有 20 年的经验。


*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您发展海外业务和/或了解行业前沿技术选择推荐该服务。