《具有影音文件处理功能的电子装置及影音文件处理方法.pdf》由会员分享,可在线阅读,更多相关《具有影音文件处理功能的电子装置及影音文件处理方法.pdf(8页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 102982800 A(43)申请公布日 2013.03.20CN102982800A*CN102982800A*(21)申请号 201210443124.8(22)申请日 2012.11.08G10L 15/02(2006.01)G10L 15/30(2013.01)G06F 17/30(2006.01)(71)申请人鸿富锦精密工业(深圳)有限公司地址 518109 广东省深圳市宝安区龙华镇油松第十工业区东环二路2号申请人鸿海精密工业股份有限公司(72)发明人蒋浩良(54) 发明名称具有影音文件处理功能的电子装置及影音文件处理方法(57) 摘要本发明提供一种具有影音。
2、文件处理功能的电子装置及影音文件处理方法,电子装置包括处理器、存储器、语音识别单元和匹配单元,存储器中存储有语音特征数据库,语音特征数据库包括多个用户的语音特征,每个语音特征与一用户名相对应;语音识别单元用于提取所述音频/视频文件中的语音特征,然后将提取出的语音特征与语音特征数据库中的多个语音特征进行比较,从而能够确定所述音频/视频文件中发言的用户的用户名;匹配单元用于记录与所述确定在的所述音频/视频文件中发言的用户的用户名相对应的发言的时间段;处理器用于根据所述确定的在所述音频/视频文件中发言的用户的用户名及与所述用户名相对应的时间段生成一标签文件。(51)Int.Cl.权利要求书1页 说明。
3、书4页 附图2页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书 1 页 说明书 4 页 附图 2 页1/1页21.一种具有影音文件处理功能的电子装置,包括处理器和存储单元,其特征在于:还包括语音识别单元和匹配单元,该存储单元中存储有语音特征数据库,该语音特征数据库包括多个用户的语音特征,每个语音特征与一用户名相对应;该处理器响应使用者的请求而播放特定的音频文件或视频文件,该语音识别单元用于提取所述播放的音频文件或视频文件中的语音特征,然后将提取出的语音特征与该语音特征数据库中的多个语音特征进行比较,从而能够确定所述音频文件或视频文件中发言用户的用户名;该匹配单元用于记录与所。
4、述播放的音频文件或视频文件中发言用户的用户名相对应的发言时间段;该处理器用于根据所述播放的音频文件或视频文件中发言用户的用户名及与所述用户名相对应的发言时间段生成一标签文件,该处理器将所述标签文件与所述播放的音频文件或视频文件关联起来,从而允许用户通过标签文件找到与标签文件相关联的音频文件或视频文件。2.如权利要求1所述的具有影音文件处理功能的电子装置,其特征在于,该匹配单元将所述播放的音频文件或视频文件的时长均分为多个子区间,依次记录每个子区间所对应的用户名,并当连续子区间均对应同一用户名时,该匹配单元将该些连续子区间整理为一时间段。3.如权利要求2所述的具有影音文件处理功能的电子装置,其特。
5、征在于,还包括语音转换文字单元,在播放所述音频文件或视频文件时,该语音转换文字单元将所述播放的音频文件或视频文件中的语音内容转换为文字,该匹配单元记录每个子区间所对应的该语音转换文字单元所转换的文字,从而将所述用户名与所述语音转换文字单元所转换的文字相匹配,该处理器还在每个标签文件中插入与每个标签文件中的用户名相对应的文字。4.如权利要求1所述的具有影音文件处理功能的电子装置,其特征在于,该处理器在每个标签文件中插入一链接,该链接用于将该标签文件与相应的音频文件或视频文件相关联。5.如权利要求4所述的具有影音文件处理功能的电子装置,其特征在于,当每个标签文件中的链接被点击时,该处理器播放相应的。
6、音频文件或视频文件中与每个标签文件中的时间段相对应的部分。6.一种影音文件处理方法,包括:接收待处理的音频文件/视频文件;提取待处理的音频文件/视频文件中的用户语音特征;确定与待处理的音频文件/视频文件中的用户语音特征相对应的用户名;确定每个用户名所对应的发言时间段;生成与待处理的音频文件/视频文件中的用户语音特征相关联的标签文件。权 利 要 求 书CN 102982800 A1/4页3具有影音文件处理功能的电子装置及影音文件处理方法技术领域0001 本发明涉及一种电子装置,尤其涉及一种具有影音文件处理功能的电子装置。背景技术0002 通常,人们在作会议记录时会使用录音笔,在会后可以通过听取录。
7、音笔录制的内容补充会上没有记住的内容。有时,需要听完把录音笔录制的内容全部听完才能确定每个发言人的发言内容,这样可能需要较长的时间。发明内容0003 有鉴于此,本发明提供一种电子装置,其能够生成包含用户名和其发言的时间段的标签文件,用户能够根据标签文件的内容快速的确定每个会议参加者发言时的时间段。0004 一种具有影音文件处理功能的电子装置,包括处理器和存储单元,还包括语音识别单元和匹配单元,该存储单元中存储有语音特征数据库,该语音特征数据库包括多个用户的语音特征,每个语音特征与一用户名相对应;该处理器响应使用者的请求而播放特定的音频文件或视频文件,该语音识别单元用于提取所述音频文件或视频文件。
8、中的语音特征,然后将提取出的语音特征与该语音特征数据库中的多个语音特征进行比较,从而能够确定所述音频文件或视频文件中发言的用户的用户名;该匹配单元用于记录与所述确定在的所述音频文件或视频文件中发言的用户的用户名相对应的发言的时间段;该处理器用于根据所述确定的在所述音频文件或视频文件中发言的用户的用户名及与所述用户名相对应的时间段生成一标签文件,该处理器将所述标签文件与所述音频文件或视频文件关联起来,从而允许用户通过标签文件找到与标签文件相关联的音频文件或视频文件。0005 一种音频文件/视频文件处理方法,包括:接收待处理的音频文件/视频文件;提取待处理的音频文件/视频文件中的用户语音特征;确定。
9、与待处理的音频文件/视频文件中的用户语音特征相对应的用户名;确定每个用户名所对应的发言时间段;生成与待处理的音频文件/视频文件中的用户语音特征相关联的标签文件。0006 使用本发明的电子装置生成的标签文件,用户能够快速的确定每个会议参加者发言时的时间段,从而便于用户快速的确定某个特定人员的发言内容。附图说明0007 图1为本发明的电子装置的模块图。0008 图2为本发明的电子装置处理音频文件/视频文件的流程图。0009 图3为本发明的电子装置的供用户查询的查询界面。0010 主要元件符号说明电子装置100影音录制装置200处理器10存储单元20说 明 书CN 102982800 A2/4页4语。
10、音识别单元30语音转换文字单元40匹配单元50查询界面60检索条件区61输入框611输入框612输入框613检索结果区62用户名621标签文件名622时间段623播放模块63文字显示框64如下具体实施方式将结合上述附图进一步说明本发明。具体实施方式0011 请参阅图1,在本实施方式中,本发明的电子装置100包括语音特征数据库,该语音特征数据库中包括多个用户的语音特征,该电子装置100能够根据所述多个用户的语音特征识别出待处理的音频文件/视频文件中发言的用户。该电子装置100能记录识别出来的用户的发言的时间段。该电子装置100能够基于识别出来的用户以及该用户发言的时间段生成可编辑的、可搜索的标签。
11、文件。每一个标签文件与相应的音频文件/视频文件相关联,如此,用户可以通过关键词搜索方式找到其所需的音频文件/视频文件。0012 例如,假定一个名称为“会议记录20120820”的音频文件的内容为用户甲、用户乙、用户丙、用户丁讨论商品买卖合同的事宜,该电子装置100能够至少建立4个标签文件,每个标签文件的内容分别为“用户甲,发言时间段:0:00-1:30、2:10-5:20”、“用户乙,发言时间段:1:30-2:10、5:20-6:40”、“用户丙,发言时间段:6:40-8:50”、“用户丙,发言时间段:8:50-10:30”。当使用者以“用户甲”为关键词在电子装置100中搜索时,能够搜索到标签。
12、文件“用户甲,发言时间段:0:00-1:30、2:10-5:20”,如此使用者能够在听音频文件“会议记录20120820”时,可以有选择的听取0:00-1:30及2:10-5:20两个时间段的内容即可确定用户甲的发言内容,不必听完整个音频文件。0013 在本实施方式中,该电子装置100为远程的服务器,用户可以通过手机等手持设备或计算机访问该电子装置100。该电子装置100可以基于用户的请求而对用户选定的音频文件/视频文件进行处理,该电子装置100还可以通过有线网络或者无线网络而与一影音录制装置200(例如,录音笔、DV摄像机或者具有影音录制功能的手机)相连接,并且影音录制装置200与电子装置1。
13、00通讯时会向电子装置100发送一标识符(identifier),该电子装置100能通过该标识符识别出该影音录制装置200,如此,在接收到影音录制装置200传送的音频文件/视频文件后,该电子装置100立即对该音频文件/视频文件进行处理。0014 在本实施方式中,该电子装置100包括处理器10、存储单元20、语音识别单元30、语音转换文字单元40和匹配单元50。该存储单元20存储有上述的语音特征数据库,该语音特征数据库中的每个语音特征对应唯一的用户名。该语音特征数据库是可更新的,例如,参加一个会议的人员中有一个或多个人的语音特征没有存储在该语音特征数据库中时,该说 明 书CN 102982800。
14、 A3/4页5一个或多个人员可以各自录制一段语音样本上传到电子装置100,该处理器10响应用户的语音特征提取请求根据上传的语音样本提取语音特征,然后根据用户的输入将该提取出的语音特征与一输入的用户名相关联,最后将提取出的语音特征及与之相关联的用户名存储到语音特征数据库中,从而完成语音特征数据库的更新。0015 当接收到用户的请求或者待处理的音频文件/视频文件后,该处理器10播放待处理的音频文件/视频文件,该语音识别单元30提取该音频文件/视频文件中的语音特征,并且将该提取出的语音特征与存储单元20中存储的语音特征相比较,从而能够确定音频文件/视频文件中的每段语音所对应的用户名。在待处理的音频文。
15、件/视频文件播放过程中,该语音转换文字单元40将待处理的音频文件/视频文件中的语音内容转换为文字。0016 该匹配单元50用于将语音识别单元30确定的用户名与语音转换文字单元40转换的文字匹配起来。在本实施方式中,该匹配单元50首先获取该待处理的音频文件/视频文件的播放时长,然后将该播放时长均分为N个子区间,自该待处理的音频文件/视频文件播放开始,该匹配单元50依次记录在每个子区间内的语音内容所对应的用户名以及语音转换文字单元40转换的文字。最终,该匹配单元50将均对应为同一用户名的连续子区间整理为一时间段,生成包含用户名、与之对应的时间段、以及与每个时间段对应的文字内容。0017 该处理器1。
16、0在匹配单元50生成的文本文件的基础上生成标签文件,并将标签文件存储在该存储单元20中。在本实施方式中,该处理器10首先获取存储单元20中的语音数据库中的用户名,然后在上述文本文件中搜索上述获得的用户名,最后将每个搜索到的用户名及与其对应的文字和时间段根据预定的模板整合为一标签文件。0018 在其它实施方式中,该处理器10会获取待处理文件的创建时间,将该创建日期默认为待处理音频文件/视频文件中的语音内容发生的日期并将该创建日期与用户名及与其对应的文字和时间段整合为一标签文件。由于该每个标签文件均是可编辑的,在需要时,用户可以在标签文件中进行修改或者添加其它的信息,例如,语音内容发生的地点。00。
17、19 在本实施方式中,该处理器10在还可在每一标签文件中的插入链接,通过该链接将每一标签文件与相应的音频文件/视频文件关联起来。当用户点击标签文件中的链接时,该处理器10依次播放与该标签文件中的时间段相对应的部分。还以前文中的例子为例,对于包含“用户甲,发言时间段:0:00-1:30、2:10-5:20”的标签文件,当用户点击该标签文件中的链接时,该处理器10依次播放音频文件/视频文件“会议记录20120820”中的0:00-1:30部分及2:10-5:20部分。如此,用户无须手动操作音频/视频播放软件中的进度条来调节其想要听到内容,极大的方便了用户。0020 在其它实施方式中,该处理器10可。
18、以在该标签文件的文件属性的备注部分中写入与该标签文件相对应的音频文件/视频文件的存储路径以及文件名称,如此,将标签文件与该音频文件/视频文件关联起来。0021 参阅图2,在本实施方式中,该电子装置100还提供一查询界面60,用户可以通过如智能手机或者计算机等设备通过网络访问该查询界面60。该查询界面60包括检索条件区61和检索结果区62。该检索条件区61种包括多个输入框,用户可以在该多个输入框中输入检索条件。例如,在输入框611中输入日期、在输入框612中输入用户名、在输入框613中输入地点等。用户可以仅输入一个检索条件进行检索,也可以同时输入多个检索条件进行检索。处理器10根据用户输入的一个。
19、或者多个检索条件搜索符合条件的标签文件,检索说 明 书CN 102982800 A4/4页6到的标签文件的相关信息会显示在检索结果区62中。例如,检索结果区62中会显示用户名621、标签文件名622、标签文件中包含的与该用户名对应的时间段623等。在本实施方式中,该查询界面60包括音频播放模块63,用户点击一时间段623时,该处理器10执行该音频播放模块63,播放相应的音频文件的与该时间段623相对应的部分。该检索结果区62还包括文字显示框64,该文字显示框64用于显示与所播放的音频文件中的语音内容相对应的文字。0022 在本实施方式中,该查询界面60还包括下载按钮,当用户选择检索结果区62中。
20、的内容并点击下载按钮时,处理器10将用户选择的单一或是多个内容整合为一个文件,并且将上述文件复制到用户指定的存储路径中。以图2为例,用户可以选择时间段0:20-0:50及0:50-1:00,处理器10能根据上述选择将会议记录1中的0:20-0:50部份的内容以及将会议记录1中的0:50-1:00部份的内容整合为一个音频/视频文件,用户可以将上述音频/视频文件下载到其所需要的存储路径中。0023 请参阅图3,利用本发明的电子装置100进行音频文件/视频文件处理的方法包括步骤S100-S500。具体地,在步骤S100中,电子装置100接收待处理的音频文件/视频文件。0024 在步骤S200中,该语。
21、音识别单元30提取正在播放的音频文件/视频文件中的语音特征。在步骤S300中,该语音识别单元30将该提取出的语音特征与存储单元20中存储的语音特征相比较,从而能够确定音频文件/视频文件中的每段语音所对应的用户名。0025 在步骤S400中,该匹配单元50首先获取该待处理的音频文件/视频文件的播放时长,然后将该播放时长均分为N个子区间,自该待处理的音频文件/视频文件播放开始,该匹配单元50依次记录在每个子区间内的语音内容所对应的用户名以及语音转换文字单元40转换的文字。最终,该匹配单元50将均对应为同一用户名的连续子区间整理为一时间段,生成包含用户名、与之对应的时间段、以及与每个时间段对应的文字内容。0026 在步骤S500中,该处理器10在匹配单元50生成的文本文件的基础上生成标签文件,并将该标签文件与其相应的音频文件/视频文件相关联。说 明 书CN 102982800 A1/2页7图1图2说 明 书 附 图CN 102982800 A2/2页8图3说 明 书 附 图CN 102982800 A。