如何实时翻译直播内容
要想通过视频生成字幕并实现翻译,需要经过声音读取、神经网络算法(包括对音频分析、过滤、转换、调整、修正、输出等)...以及到最后显示的过程,每一步都需要一定耗时。虽然在理论上可以提升到很快,但现实情况下花的时间都要更长,对神经网络算法的性能也是巨大考验。如果是在线播放或直播,对机器运算压力也更大,更容易造成延迟。
目前已有字幕生成方法基本都是在PC端进行,包含通过机器算法或手动生成字幕文件或对已有字幕翻译的情况下满足观看需要,包括传统字幕和新型自动字幕。具体体现为:
① 字幕文件(传统模式,多为人工、人机合作)
由字幕组或其他组织制作并上传相关字幕到云端,其他人获取字幕后,在线/离线播放时直接外挂。(相关字幕网站有很多,如SubHD、Subom、伪射手、字幕库、OpenSubtitles、A7美剧字幕站..等等。主要针对影视剧视频)
即先通过机翻+人工校正做好字幕,审核通过后连同视频一并压制并上传分发到不同的视频网站。
- 常见的如柚子木、远鉴字幕组等等,成员各司其职负责翻译、打轴、校正、压制等工作。
有一些网站或服务器可以对用户上传的视频声音通过软件程序算法或调用相关API自动识别并生成字幕(需要等待一定时间,而且一般都要付费,免费的较少),用户可以在线上直接预览、下载或压制字幕。
② 压制字幕(机器翻译、人工校正)
③ 机器学习+神经网络算法生成字幕
主要是基于AI技术和算法,DNN(深度神经网络技术)、Residual/Highway 网络和粗粒度建模单元等,实现机器自动识别。比如:
2023-08-25 广告