一种双语字幕制作方法及系统技术领域
本发明属于计算机技术领域,尤其涉及一种双语字幕制作方法及系统。
背景技术
随着网络视频技术的发展,音乐、电台等音频节目以及电视剧、电影、综艺、网络直
播等视频节目成为人们业余生活必不可少的部分,其中来自韩国、日本、美国的电视剧、电
影、综艺等节目备受欢迎。人们既要欣赏这些原汁原味的音视频节目,又要很好地理解这些
节目的语言意思,就离不开双语字幕的帮助。
然而,现有的双语字幕制作技术是通过字幕人员听音频记录字幕文本,人工翻译,
使用字幕制作软件,手动添加时间轴,才得到最后的字幕文件。双语字幕制作的现有技术存
在效率低、耗时长、耗费人力的缺点,无法满足用户随时为无字幕视频生成字幕的需求。
发明内容
本发明的目的在于提供一种双语字幕制作方法及系统,旨在解决由于现有技术无
法提供一种高效的双语字幕制作方法,导致双语字幕制作效率低、耗费时间和人力。
一方面,本发明提供了一种双语字幕制作方法,所述方法包括下述步骤:
接收用户输入的音视频文件,提取所述音视频文件中的音频;
将所述音频分割为多个音频段,记录每个音频段的时间信息;
对所述多个音频段进行语音识别,生成属于第一语种的字幕文本;
将所述属于第一语种的字幕文本翻译为属于第二语种的字幕文本;
根据所述时间信息,输出所述属于第一语种的字幕文本和属于第二语种的字幕文
本。
另一方面,本发明提供了一种双语字幕制作系统,所述系统包括:
音频获取单元,用于接收用户输入的音视频文件,提取所述音视频文件中的音频;
音频分割单元,用于将所述音频分割为多个音频段,记录每个音频段的时间信息;
语音识别单元,用于对所述多个音频段进行语音识别,生成属于第一语种的字幕
文本;
文本翻译单元,用于将所述属于第一语种的字幕文本翻译为属于第二语种的字幕
文本;以及
双语字幕生成单元,用于根据所述时间信息,输出所述属于第一语种的字幕文本
和属于第二语种的字幕文本。
本发明在接收用户输入的音视频文件后,提取音视频文件中的音频,将音频分割
为多个音频段,记录每个音频段的时间信息,对多个音频段进行语音识别,生成属于第一语
种的字幕文本,将属于第一语种的字幕文本翻译为属于第二语种的字幕文本,根据时间信
息,输出属于第一语种的字幕文本和属于第二语种的字幕文本,从而提高了双语字幕的生
成效率,降低了双语字幕的制作成本,实现为无字幕视频自动、快速地提供双语字幕。
附图说明
图1是本发明实施例一提供的双语字幕制作方法的实现流程图;
图2是本发明实施例二提供的双语字幕制作方法中将音频分割为多个音频段,记
录每个音频段的时间信息步骤的实现流程图;
图3是本发明实施例三提供的双语字幕制作方法中对多个音频段进行语音识别,
生成属于第一语种的字幕文本步骤的实现流程图;
图4是本发明实施例四提供的双语字幕制作方法中将属于第一语种的字幕文本翻
译为属于第二语种的字幕文本的步骤的实现流程图;
图5是本发明实施例五提供的双语字幕制作系统的结构图;以及
图6是本发明实施例六提供的双语字幕制作系统的结构图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对
本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并
不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的双语字幕制作方法的实现流程,为了便于说明,
仅示出了与本发明实施例相关的部分,详述如下:
在步骤S101中,接收用户输入的音视频文件,提取音视频文件中的音频。
本发明实施例适用于支持音视频播放的计算机、智能手机等音视频播放设备,其
中,音视频文件为无字幕的音频或者视频,当音视频文件为视频文件时,需分离出该视频文
件的音频流,将音频流保存为音频文件,方便后续的分割和识别操作。
优选地,提取出音视频文件中的音频后可对该音频进行预处理,预处理方式包括
音频信号去噪、分贝值设置等,以去除音频中的噪音干扰和弱化背景音,从而使得音频中的
发音更为清晰,得到更适于语音识别的音频。
在步骤S102中,将音频分割为多个音频段,记录每个音频段的时间信息。
在本发明实施例中,预先设定语音停顿时间间隔阈值和播放该音频的音视频播放
设备的显示屏幕的宽度阈值,依据这两个阈值对音频进行分割,具体分割方法如实施例二
所述,在此不再赘述。分割后得到多个音频段,其中,每个音频段的时间信息包括播放整段
音频时该音频段的开始时间和结束时间,开始时间和结束时间用于计算每个音频段的持续
时间间隔以及用于制作字幕文本的时间轴。
在步骤S103中,对多个音频段进行语音识别,生成属于第一语种的字幕文本。
在本发明实施例中,根据音频段对应的语音特征,识别出每个音频段对应的字幕
段,进而得到以第一语种表示的字幕文本,在这里第一语种即为音频段的原有语种。
在步骤S104中,将属于第一语种的字幕文本翻译为属于第二语种的字幕文本。
在本发明实施例中,预先设定双字幕中另一字幕所属语种,为了便于描述,在这里
将该语种称为第二语种。在得到属于第一语种的字幕文本后,可通过能够实现多语言互译
的翻译程序或系统,将第一语种的字幕文本翻译为第二语种的字幕文本。
在步骤S105中,根据时间信息,输出属于第一语种的字幕文本和属于第二语种的
字幕文本。
在本发明实施例中,时间信息是指每个音频段的时间信息,可包括每个音频段在
完整音频播放过程中对应的开始时间和结束时间,根据开始时间和结束时间,分别为属于
第一语种的字幕文本和属于第二语种的字幕文本建立时间轴,时间轴用于字幕显示和视频
播放两者间的校准,根据属于第一语种的字幕文本和属于第二语种的字幕文本的时间轴的
对应关系,同步输出两种语种的字幕内容,最终得到双语字幕,从而实现双语字幕的自动生
成或制作,提高了双语字幕的制作效率。
实施例二:
图2示出了本发明实施例二提供的双语字幕制作方法中将音频分割为多个音频
段,记录每个音频段的时间信息的实现流程,为了便于说明,仅示出了与本发明实施例相关
的部分,详述如下:
在步骤S201中,根据音频的语音停顿,对音频进行初步分割。
在本发明实施例中,预先设定用于分割音频的语音停顿时间间隔阈值。由于人进
行说话时通常在两句话之间会有短暂的停顿,因此,可检测音频中语音停顿处或者静音处,
计算停顿或静音持续的时间间隔,当该时间间隔大于预先设定的语音停顿时间间隔阈值
时,对音频分割。从而实现依据语音停顿对音频进行分割的操作,可有效提高后续对音频段
进行语音识别的准确率。
在步骤S202中,根据显示屏幕的宽度,对初步分割后的音频进行二次分割和合并,
以得到多个音频段,并记录每个音频端的时间信息。
在本发明实施例中,音频经初步分割后得到持续时间间隔长短不一的音频段。有
些持续时间间隔过长的音频段超出播放该视频的音视频显示设备的显示屏幕的宽度,无法
完整显示。有些持续时间间隔过短的音频段单独显示时播放时间太短而不利于观看。因此,
可预先设置播放该音频的音视频播放设备的显示屏幕的宽度阈值,根据显示屏幕的宽度阈
值设置最长音频时间间隔阈值和最短音频时间间隔阈值。遍历初步分割后得到的音频段,
对持续时间间隔大于最长音频时间间隔阈值的音频段进行二次分割,为避免二次分割后得
到持续时间间隔小于最短音频时间间隔的音频段,二次分割可采用平均分割的方法。对初
步分割后持续时间间隔小于最短音频时间间隔阈值的音频段,查询该音频段相邻音频段的
持续时间间隔,将该音频段和持续时间间隔较短的相邻音频段合并。最终,经过初步分割、
二次分割、合并这三步操作得到多个音频段,可有效提高后续对音频段进行语音识别的准
确率。
音频段的时间信息包括该音频段在完整音频播放过程中对应的开始时间以及结
束时间,此时间信息用于分割操作中计算音频段的持续时间间隔以及用于后续字幕文本时
间轴的制作。
优选地,为了避免分割出现错误以及减少分割过程中的误差,在初步分割以及二
次分割过程中,可只对音频段的开始时间和结束时间进行标记,并不进行实际的分割行为,
这样,在首次标记后可进一步对标记点不断进行调整,从而可对分割后的音频段再次进行
多次调整,调整完成后再进行实际的分割操作。
实施例三:
图3示出了本发明实施例三提供的双语字幕制作方法中对多个音频段进行语音识
别,生成属于第一语种的字幕文本步骤的实现流程,为了便于说明,仅示出了与本发明实施
例相关的部分,详述如下:
在步骤S301中,在预先构建的高频语音识别库中对待识别的音频段进行匹配。
在本发明实施例中,提取待识别音频段的语音特征,将该语音特征输入到预先构
建的高频语音识别库,和高频语音识别库中的语音特征进行匹配,得到语音识别结果。预先
构建的高频语音识别库收集了常见的语音和该语音对应的识别结果,从而提高语音识别的
准确率和效率。
在步骤S302中,当对待识别的音频段匹配成功时,获取待识别的音频段对应的属
于第一语种的字幕文本。
在本发明实施例中,当对待识别的音频段匹配成功时,以第一语种记录语音识别
的结果,得到属于第一语种的字幕文本。当待识别的音频段匹配不成功时,可将待识别语音
段输入预设的语音识别系统进行识别。优选地,预设的语音识别系统可以为优同科技语音
识别系统、科大讯飞语音识别系统,从而可有效提高识别结果的准确率。
实施例四:
图4示出了本发明实施例四提供的双语字幕制作方法中将属于第一语种的字幕文
本翻译为属于第二语种的字幕文本的步骤的实现流程,为了便于说明,仅示出了与本发明
实施例相关的部分,详述如下:
在步骤S401中,将属于第一语种的字幕文本划分为多个文本段。
在步骤S402中,在预先构建的高频词翻译库中对待翻译的文本段进行匹配。
在本发明实施例中,对属于第一语种的字幕文本进行划分,得到便于翻译的文本
段,将待翻译的文本段输入到预先构建的高频词翻译库中,得到翻译结果。预先构建的高频
词翻译库中收集了常见的词汇或短语,以及这些词汇和短语对应的翻译结果,从而可有效
提高文本翻译的准确率和效率。
在步骤S403中,当对待翻译的文本段匹配成功时,获取待翻译的文本段对应的属
于第二语种的字幕文本。
在本发明实施例中,当对待翻译的文本段匹配成功时,以第二语种记录翻译结果,
得到属于第二语种的字幕文本。当待翻译的文本段未匹配成功时,可将待翻译文本输入预
设的翻译系统。优选地,预设的翻译系统可以为google在线翻译系统、有道在线翻译系统
等,从而可有效提高翻译结果的准确率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以
通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,
所述的存储介质,如ROM/RAM、磁盘、光盘等。
实施例五:
图5示出了本发明实施例五提供的双语字幕制作系统的结构,为了便于说明,仅出
示与本发明实施例有关的部分。
在本发明实施例中,双语字幕制作系统包括音频获取单元51、音频分割单元52、音
频识别单元53、文本翻译单元54、双语字幕生成单元55,其中:
音频获取单元51,用于接收用户输入的音视频文件,提取音视频文件中的音频。
音频分割单元52,用于将音频分割为多个音频段,记录每个音频段的时间信息。
语音识别单元53,用于对多个音频段进行语音识别,生成属于第一语种的字幕文
本。
文本翻译单元54,用于将属于第一语种的字幕文本翻译为属于第二语种的字幕文
本。
双语字幕生成单元55,用于根据时间信息,输出属于第一语种的字幕文本和属于
第二语种的字幕文本。
在本发明实施例中,双语字幕制作系统的各单元可由相应的硬件或软件单元实
现,各单元可以为独立的软、硬件单元,也可以集成为计算机设备或系统的一个软、硬件单
元,在此不用以限制本发明。双语字幕制作系统的各单元的具体实施方式可参考实施例一
对应步骤的描述,在此不再赘述。
实施例六:
图6示出了本发明实施例六提供的双语字幕制作系统的结构,为了便于说明,仅示
出了与本发明实施例相关的部分,该双语字幕制作系统包括:
音频获取单元61,用于接收用户输入的音视频文件,提取音视频文件中的音频;
音频分割单元62,用于将音频分割为多个音频段,记录每个音频段的时间信息;
语音识别单元63,用于对多个音频段进行语音识别,生成属于第一语种的字幕文
本;
文本翻译单元64,用于将属于第一语种的字幕文本翻译为属于第二语种的字幕文
本;以及
双语字幕生成单元65,用于根据时间信息,输出属于第一语种的字幕文本和属于
第二语种的字幕文本。
在本发明实施例中,优选地,音频分割单元62包括:
初步处理单元621,用于根据音频的语音停顿,对音频进行初步分割;以及
二次处理单元622,用于根据显示屏幕的宽度,对初步分割后的音频进行二次分割
和合并。
优选地,语音识别单元63包括:
语音匹配单元631,用于在预先构建的高频语音库中对待识别的音频进行匹配;以
及
第一文本生成单元632,用于当待识别语音匹配成功时,获取待识别的音频段对应
的属于第一语种的字幕文本。
优选地,文本翻译单元64包括:
文本划分单元641,用于将属于第一语种的字幕文本划分为多个文本段;
文本匹配单元642,用于在预先构建的高频词翻译库中对待翻译的文本段进行匹
配;以及
第二文本生成单元643,用于当对待翻译的文本段匹配成功时,获取待翻译的文本
段对应的属于第二语种的字幕文本。
优选地,双语字幕生成单元65包括:
时间轴制作单元651,用于根据时间信息构建属于第一语种的字幕文本的第一时
间轴、属于第二语种的字幕文本的第二时间轴;以及
双语字幕生成子单元652,用于根据第一时间轴和第二时间轴的对应关系,同步输
出属于第一语种的字幕文本和属于第二语种的字幕文本,以得到双语字幕。
在本发明实施例中,根据开始时间和结束时间,分别为属于第一语种的字幕文件
和属于第二语种的字幕文本建立时间轴,进而根据属于第一语种的字幕文本和属于第二语
种的字母文本的时间轴的对应关系,同步输出两种语种的字幕内容,以得到双语字幕,从而
提高了双语字幕的生成效率,降低了双语字幕的制作成本,实现为无字幕视频自动、快速地
提供双语字幕。
在本发明实施例中,双语字幕系统装置的各单元可由相应的硬件或软件单元实
现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本
发明。双语字幕制作系统的各单元的具体实施方式可参考前述实施例对应步骤的描述,在
此不再赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精
神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。