视频广告语音交互系统及方法.pdf

摘要
申请专利号：	CN201510145559.8	申请日：	2015.03.30
公开号：	CN104754364A	公开日：	2015.07.01
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):H04N 21/233申请日:20150330\|\|\|公开
IPC分类号：	H04N21/233(2011.01)I; H04N21/472(2011.01)I; H04N21/2668(2011.01)I	主分类号：	H04N21/233
申请人：	合一信息技术（北京）有限公司
发明人：	张云锋; 蒋子俊; 周盛; 姚键; 张大伟; 曹磊; 唐端荣; 潘柏宇; 卢述奇
地址：	100080北京市海淀区海淀大街8号中钢国际广场6层
优先权：
专利代理机构：	北京中誉威圣知识产权代理有限公司11279	代理人：	蒋常雪
PDF下载：	PDF下载

内容摘要

本发明公开了一种视频广告语音交互系统及方法，属于互联网视频广告技术领域。为解决现有技术中用户对视频广告进行跳过选择需要注册并付费，并且简单的跳过视频广告，必然使得广告主受到损失的问题，提供一种视频广告语音交互系统，包括视频播放客户端、广告投放服务器、语音识别服务器，由上述系统实现的视频广告语音交互方法，视频播放客户端播放视频广告，用户开启语音监听开关，进行语音输入，语音监听模块收集语音信息，提取语音数据发送给语音识别服务器，语音识别服务器将语音数据识别的结果文本返回给视频播放客户端，视频播放客户端调用播放器的相关接口触发相关事件。用于互联网视频广告播放中实现语音交互。

权利要求书

权利要求书1. 一种视频广告语音交互系统，包括视频播放客户端、广告投放服务器、语音识别服务器，广告投放服务器用于根据视频播放客户端的视频广告请求提供视频广告代码给视频播放客户端，其特征在于，所述视频播放客户端包括语音监听开关、语音监听模块，语音监听模块用于收集语音信息，提取语音数据发送给语音识别服务器，语音识别服务器用于识别语音并将识别结果文本返回给视频播放客户端。2. 如权利要求1所述的视频广告语音交互系统，其特征在于，所述语音识别服务器包括语音识别模块，所述语音识别模块包括声学模型、字典文件、语言模型，声学模型通过对语音库进行特征提取和声学模型训练后得到，语言模型根据文本库中提供的文本进行语言模型训练后得到，字典文件中存放单词和音素的映射关系表。3. 如权利要求1所述的视频广告语音交互系统，其特征在于，所述视频播放客户端为手机、平板电脑、笔记本电脑或台式机。4. 根据权利要求1至3任一项所述的系统实现的视频广告语音交互方法，其特征在于，所述方法为：视频播放客户端发送广告请求给广告投放服务器，广告投放服务器提供广告代码给视频播放客户端，视频播放客户端播放视频广告，当语音监听开关状态为开启状态时，如果用户进行语音输入，语音监听模块会收集到语音信息，并将语音数据发送给语音识别服务器，语音识别服务器将语音数据识别的结果文本返回给视频播放客户端，视频播放客户端判断结果文本中是否包含指定命令，如果有，则用这些命令来调用播放器的相关接口触发相关事件。5. 如权利要求4所述的视频广告语音交互方法，其特征在于，所述指定命令包括内置命令及非内置命令。6. 如权利要求4所述的视频广告语音交互方法，其特征在于，每次触发事件发生后，视频播放客户端通过调用广告投放服务器提供的日志记录接口进行日志记录。

说明书

说明书视频广告语音交互系统及方法
技术领域
本发明具体涉及一种视频广告语音交互系统及方法，属于互联网视频广告技术领域。
背景技术
视频广告目前已经成为互联网中主要的广告形式，越来越多的视频广告给用户带来了很大烦恼，为此，一些网站开始针对一些高级客户提供可选择播放的视频广告，用户可以选择跳过某些广告，但这需要用户注册并付费，大多数用户都不会选择注册并付费的形式，并且简单的跳过视频广告，必然使得广告主受到损失，失去了宣传产品的机会。
发明内容
因此，本发明针对现有技术中用户对视频广告进行跳过选择需要注册并付费，大多数用户都不会选择注册并付费的形式，并且简单的跳过视频广告，必然使得广告主受到损失，失去了宣传产品的机会的问题，提供一种视频广告语音交互系统，包括视频播放客户端、广告投放服务器、语音识别服务器，广告投放服务器用于根据视频播放客户端的视频广告请求提供视频广告代码给视频播放客户端，其特征在于，所述视频播放客户端包括语音监听开关、语音监听模块，语音监听模块用于收集语音信息，提取语音数据发送给语音识别服务器，语音识别服务器用于识别语音数据并将结果文本返回给视频播放客户端。
所述语音识别服务器包括语音识别模块，所述语音识别模块包括声学模型、字典文件、语言模型，声学模型通过对语音库进行特征提取和声学模型训练后得到，语言模型根据文本库中提供的文本进行语言模型训练后得到，字典文件中存放单词和音素的映射关系表。
所述视频播放客户端为手机、平板电脑、笔记本电脑或台式机。
由上述系统实现的视频广告语音交互方法，其特征在于，所述方法为：视频播放客户端发送广告请求给广告投放服务器，广告投放服务器提供广告代码给视频播放客户端，视频播放客户端播放视频广告，当语音监听开关状态为开启状态时，如果用户进行语音输入，语音监听模块会收集到语音信息，并将语音数据发送给语音识别服务器，语音识别服务器将语音数据识别的结果文本返回给视频播放客户端，视频播放客户端判断结果文本中是否包含指定命令，如果有，则用这些命令来调用播放器的相关接口触发相关事件。
指定命令包括内置命令及非内置命令。
每次触发事件发生后，视频播放客户端通过调用广告投放服务器提供的日志记录接口进行日志记录。
本发明的有益效果在于：采用本发明的视频广告语音交互系统及方法，通过语音交互技术，实现了用户与系统的语音交互，既满足了客户不需要注册付费即可跳过广告的需求，又可以通过语音交互系统的限定，如客户需要说出广告产品名称等方式，使得广告主的产品得到超出预期的宣传效果。用户还可以通过语音交互实现重播、暂停等其它功能。
附图说明
图1为本发明视频广告语音交互系统的结构示意图；
图2为视频播放客户端的播放控制流程图；
图3为语音识别服务实现流程图。
附图标记如下：
1、视频播放客户端；
2、广告投放服务器；
3、语音识别服务器。
具体实施方式
下面结合附图对本发明的具体实施方式进行说明：
如图1所示，视频广告语音交互系统，包括视频播放客户端1、广告投放服务器2、语音识别服务器3，广告投放服务器2用于根据视频播放客户端1的视频广告请求提供视频广告代码给视频播放客户端1，视频播放客户端1包括语音监听开关、语音监听模块，语音监听开关用于开启和关闭语音监听模块，语音监听模块用于收集语音信息，提取语音数据发送给语音识别服务器，语音识别服务器3用于识别语音数据并将结果文本返回给视频播放客户端1。视频播放客户端1的播放控制流程如图2所示。
语音识别服务器3包括语音识别模块，语音识别模块包括声学模型、字典文件、语言模型，声学模型通过对语音库进行特征提取和声学模型训练后得到，语言模型根据文本库中提供的文本进行语言模型训练后得到，字典文件中存放单词和音素的映射关系表。语音识别服务实现流程如图3所示。
视频播放客户端1为手机、平板电脑、笔记本电脑或台式机。适用于各种平台。
由上述系统实现的视频广告语音交互方法，视频播放客户端1发送广告请求给广告投放服务器2，广告投放服务器2提供广告代码给视频播放客户端1，广告代码是根据事先定义好广告交互协议来生成的XML或JSON格式的字符串，里面包含了各种与广告播放相关的信息，如：广告素材的URL、广告的曝光和点击计数以及播放完成的URL、广告的曝光和点击监测URL等等，客户端会解析XML或JSON串，然后进行广告播放和相关事件的触发。每个有语音交互效果需求的广告都会有一个名为“跳过广告关键词”的属性，一般会取该广告的品牌名称作为关键词，新增语音交互效果日志的记录，用于统计用户对播放的广告的一些交互信息，可以提供给广告主参考。具体方法为在每个广告对应的ad节点下新增一个节点“skipword”，其取值为跳过广告的关键词，此外再在skipword节点后新增一个节点“recurl”，其取值为记录用户交互行为的日志接口URL，该URL中包含的参数会被记录到日志中，其中有一个actid参数，取值为一个宏：“##ACTIONID##”，在实际发送请求的时候会根据用户实际触发的请求而将其替换成相应的值再将此URL对应的请求发送出去。视频播放客户端1播放视频广告，当语音监听开关状态为开启状态时，如果用户进行语音输入，语音监听模块会收集到语音信息，并将语音数据发送给语音识别服务器3，语音识别服务器3将语音数据识别的结果文本返回给视频播放客户端1，视频播放客户端1判断结果文本中是否包含指定命令，如果有，则用这些命令来调用播放器的相关接口触发相关事件。
指定命令包括内置命令及非内置命令。例如
“重播”：内置命令，重新播放当前广告；
“暂停”：内置命令，暂停播放当前广告；
“长城”：非内置命令，对于这种命令，当用户说出了当前广告的广告跳过关键词(Skipword)，即当前广告的品牌名称，所以跳过当前广告。
每次触发事件发生后，视频播放客户端1通过调用广告投放服务器2提供的日志记录接口进行日志记录。
如下所示的JSON片段，为一个客户端发送的某次广告请求时得到的广告投放服务端的返回结果，分别是长城和长江两个品牌的两个市场推广广告。其中“ads”是一个数组，里面存放了多个“ad”子节点，每个“ad”子节点对应一个广告，每个“ad”子节点中又有一个“skipword”子节点，当用户开启语音监听开关并发出“长城”的音时，id为123的广告就会停止播放，直接跳到下一个id为124的广告进行播放。
客户端在收集到语音信息后，会检查下面的recurl节点，如果该节点存在，则取出其URL，然后将URL中的“##ACTIONID##”替换为实际通过语音识别出来的字符串所触发的事件的编号(编号格式如：1：重播、2：暂停、3：跳过等)，然后访问这个URL，该URL对应于广告投放服务端的一个日志收集服务，该服务接收请求后会解析相关参数，并完成日志的记录。主要JSON代码如下：

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。