视频处理方法和视频处理装置.pdf

摘要
申请专利号：	CN201410851966.6	申请日：	2014.12.31
公开号：	CN104602128A	公开日：	2015.05.06
当前法律状态：	实审	有效性：	审中
法律详情：	实质审查的生效IPC(主分类):H04N 21/472申请日:20141231\|\|\|公开
IPC分类号：	H04N21/472(2011.01)I; H04N21/25(2011.01)I	主分类号：	H04N21/472
申请人：	北京百度网讯科技有限公司
发明人：	张志辉
地址：	100085北京市海淀区上地十街10号百度大厦2层
优先权：
专利代理机构：	北京鸿德海业知识产权代理事务所(普通合伙)11412	代理人：	袁媛
PDF下载：	PDF下载

内容摘要

本发明提供了一种视频处理方法和视频处理装置，其中方法包括：预先对视频画面中的对象进行位置信息和对象描述的标记；接收客户端发送的查询请求，所述查询请求中包含用户在视频画面中所选择对象的位置信息；将所述所选择对象的位置信息与标记的位置信息进行匹配，确定匹配得到的标记对象所对应的对象描述；利用确定出的对象描述进行查询，将查询得到的相关信息返回给所述客户端。本发明能够实现在视频播放过程中基于视频画面中的内容与用户进行交互，方便用户获取视频画面中内容的相关信息。

权利要求书

权利要求书1. 一种视频处理方法，其特征在于，预先对视频画面中的对象进行位置信息和对象描述的标记；该方法包括：接收客户端发送的查询请求，所述查询请求中包含用户在视频画面中所选择对象的位置信息；将所述所选择对象的位置信息与标记的位置信息进行匹配，确定匹配得到的标记对象所对应的对象描述；利用确定出的对象描述进行查询，将查询得到的相关信息返回给所述客户端。 2. 根据权利要求1所述的方法，其特征在于，对视频画面中的对象进行位置信息的标记包括：对视频画面中的对象所在的区域范围以及所在帧的信息进行标记；所述用户在视频画面中所选择对象的位置信息包括：所述用户在视频画面中选择位置的坐标信息或范围信息，以及所在帧的信息。 3. 根据权利要求2所述的方法，其特征在于，将所述所选择对象的位置信息与标记的位置信息进行匹配包括：确定与用户在视频画面中选择位置位于相同帧的标记区域范围，将所述坐标信息所落在的标记区域范围对应的对象确定为匹配的标记对象，或者将与所述范围信息具有最多重叠的标记区域范围对应的对象确定为匹配的标记对象。 4. 根据权利要求1所述的方法，其特征在于，对视频画面中的对象进行对象描述的标记包括：获取人工对视频画面中的对象标记的对象描述；或者，通过图像识别对视频画面中的对象进行识别，利用识别结果对视频画面中的对象标记对象描述。 5. 根据权利要求1或4所述的方法，其特征在于，所述对象描述包括关键词；所述利用确定出的对象描述进行查询包括：利用所述关键词进行本地查询或网络查询；或者，所述对象描述包括指向第三方接口的链接；所述利用确定出的对象描述进行查询包括：根据所述指向第三方接口的链接向所述第三方查询并获取相关信息；或者，所述对象描述包括指向第三方的内容；所述利用确定出的对象描述进行查询包括：查询并获取所述指向第三方的内容。 6. 根据权利要求1至4任一权项所述的方法，其特征在于，所述对象包括：人物、物体、文字或场景。 7. 一种视频处理方法，其特征在于，该方法包括：确定用户在视频画面中所选择对象的位置信息；向服务器端发送包含所述位置信息的查询请求；获取所述服务器端返回的所述对象的相关信息；其中所述相关信息是所述服务器端将所述位置信息与预先对视频画面中的对象进行标记的位置信息进行匹配后，利用匹配得到的标记对象所对应的对象描述进行查询得到的。 8. 根据权利要求7所述的方法，其特征在于，所述对象包括：人物、物体、文字或场景。 9. 根据权利要求7或8所述的方法，其特征在于，该方法还包括：展现获取的所述相关信息，具体包括：当所述相关信息为文本时，采用浮动窗口或滚动条的方式展现所述文本；当所述相关信息为音频时，播放所述音频，在播放所述音频的过程中所述视频暂停播放；当所述相关信息为视频时，采用浮动窗口的方式播放该视频。 10. 一种视频处理装置，其特征在于，该装置包括：标记单元，用于对视频画面中的对象进行位置信息和对象描述的标记；交互单元，用于接收客户端发送的查询请求，所述查询请求中包含用户在视频画面中所选择对象的位置信息；将查询单元提供的相关信息返回给所述客户端；匹配单元，用于将所述所选择对象的位置信息与所述标记单元标记的位置信息进行匹配，确定匹配得到的标记对象所对应的对象描述；查询单元，用于利用所述匹配单元确定出的对象描述进行查询，将查询得到的相关信息提供给所述交互单元。 11. 根据权利要求10所述的装置，其特征在于，所述标记单元在对视频画面中的对象进行位置信息标记时，具体执行：对视频画面中的对象所在的区域范围以及所在帧的信息进行标记；所述用户在视频画面中所选择对象的位置信息包括：所述用户在视频画面中选择位置的坐标信息或范围信息，以及所在帧的信息。 12. 根据权利要求11所述的装置，其特征在于，所述匹配单元在将所述所选择对象的位置信息与标记的位置信息进行匹配时，具体执行：确定与用户在视频画面中选择位置位于相同帧的标记区域范围，将所述坐标信息所落在的标记区域范围对应的对象确定为匹配的标记对象，或者将与所述范围信息具有最多重叠的标记区域范围对应的对象确定为匹配的标记对象。 13. 根据权利要求10所述的装置，其特征在于，所述标记单元在对视频画面中的对象进行对象描述的标记时，具体执行：获取人工对视频画面中的对象标记的对象描述；或者，通过图像识别对视频画面中的对象进行识别，利用识别结果对视频画面中的对象标记对象描述。 14. 根据权利要求10或13所述的装置，其特征在于，所述对象描述包括关键词时，所述查询单元利用所述关键词进行本地查询或网络查询；或者，所述对象描述包括指向第三方接口的链接时，所述查询单元根据指向第三方接口的链接向所述第三方查询并获取相关信息；或者，所述对象描述包括指向第三方的内容时，所述查询单元查询并获取所述指向第三方的内容。 15. 根据权利要求10至13任一权项所述的装置，其特征在于，所述对象包括：人物、物体、文字或场景。 16. 一种视频处理装置，其特征在于，该装置包括：确定单元，用于确定用户在视频画面中所选择对象的位置信息；交互单元，用于向服务器端发送包含所述位置信息的查询请求；获取所述服务器端返回的所述对象的相关信息；其中所述相关信息是所述服务器端将所述位置信息与预先对视频画面中的对象进行标记的位置信息进行匹配后，利用匹配得到的标记对象所对应的对象描述进行查询得到的。 17. 根据权利要求16所述的装置，其特征在于，所述对象包括：人物、物体、文字或场景。 18. 根据权利要求16或17所述的装置，其特征在于，该装置还包括：展现单元，用于展现所述交互单元获取的所述相关信息，具体包括：当所述相关信息为文本时，采用浮动窗口或滚动条的方式展现所述文本；当所述相关信息为音频时，播放所述音频，在播放所述音频的过程中所述视频暂停播放；当所述相关信息为视频时，采用浮动窗口的方式播放该视频。

说明书

说明书视频处理方法和视频处理装置
【技术领域】
本发明涉及计算机应用技术领域，特别涉及一种视频处理方法和视频处理装置。
【背景技术】
随着智能手机、平板电脑、智能电视、智能家居等智能终端的普及，通过智能终端观看视频成为主流。目前的智能终端只能对视频进行播放，但在视频播放过程中用户无法基于视频画面中的内容进行交互。用户在视频播放过程中可能对其中播放的某个人物、物体甚至场景等感兴趣，现在只能手动通过搜索引擎等其他工具进行查询，一方面用户操作比较麻烦，需要在额外的工具进行手动查询，另一方面用户可能会面临不知道查询什么的问题，例如用户可能对视频中的某个人物感兴趣，但并不知道这个人物是谁，那么也就不知道如何在搜索引擎的搜索框中输入怎样的关键词。
【发明内容】
有鉴于此，本发明提供了一种视频处理方法和视频处理装置，以便于实现在视频播放过程中基于视频画面中的内容与用户进行交互，方便用户获取视频画面中内容的相关信息。
具体技术方案如下：
本发明提供了一种视频处理方法，预先对视频画面中的对象进行位置信息和对象描述的标记；该方法包括：
接收客户端发送的查询请求，所述查询请求中包含用户在视频画面中所选择对象的位置信息；
将所述所选择对象的位置信息与标记的位置信息进行匹配，确定匹配得到的标记对象所对应的对象描述；
利用确定出的对象描述进行查询，将查询得到的相关信息返回给所述客户端。
根据本发明一优选实施方式，对视频画面中的对象进行位置信息的标记包括：对视频画面中的对象所在的区域范围以及所在帧的信息进行标记；
所述用户在视频画面中所选择对象的位置信息包括：所述用户在视频画面中选择位置的坐标信息或范围信息，以及所在帧的信息。
根据本发明一优选实施方式，将所述所选择对象的位置信息与标记的位置信息进行匹配包括：
确定与用户在视频画面中选择位置位于相同帧的标记区域范围，将所述坐标信息所落在的标记区域范围对应的对象确定为匹配的标记对象，或者将与所述范围信息具有最多重叠的标记区域范围对应的对象确定为匹配的标记对象。
根据本发明一优选实施方式，对视频画面中的对象进行对象描述的标记包括：
获取人工对视频画面中的对象标记的对象描述；或者，
通过图像识别对视频画面中的对象进行识别，利用识别结果对视频画面中的对象标记对象描述。
根据本发明一优选实施方式，所述对象描述包括关键词；所述利用确定出的对象描述进行查询包括：利用所述关键词进行本地查询或网络查询；或者，
所述对象描述包括指向第三方接口的链接；所述利用确定出的对象描述进行查询包括：根据所述指向第三方接口的链接向所述第三方查询并获取相关信息；或者，
所述对象描述包括指向第三方的内容；所述利用确定出的对象描述进行查询包括：查询并获取所述指向第三方的内容。
根据本发明一优选实施方式，所述对象包括：人物、物体、文字或场景。
本发明还提供了一种视频处理方法，该方法包括：
确定用户在视频画面中所选择对象的位置信息；
向服务器端发送包含所述位置信息的查询请求；
获取所述服务器端返回的所述对象的相关信息；其中所述相关信息是所述服务器端将所述位置信息与预先对视频画面中的对象进行标记的位置信息进行匹配后，利用匹配得到的标记对象所对应的对象描述进行查询得到的。
根据本发明一优选实施方式，所述对象包括：人物、物体、文字或场景。
根据本发明一优选实施方式，该方法还包括：展现获取的所述相关信息，具体包括：
当所述相关信息为文本时，采用浮动窗口或滚动条的方式展现所述文本；
当所述相关信息为音频时，播放所述音频，在播放所述音频的过程中所述视频暂停播放；
当所述相关信息为视频时，采用浮动窗口的方式播放该视频。
本发明还提供了一种视频处理装置，该装置包括：
标记单元，用于对视频画面中的对象进行位置信息和对象描述的标记；
交互单元，用于接收客户端发送的查询请求，所述查询请求中包含用户在视频画面中所选择对象的位置信息；将查询单元提供的相关信息返回给所述客户端；
匹配单元，用于将所述所选择对象的位置信息与所述标记单元标记的位置信息进行匹配，确定匹配得到的标记对象所对应的对象描述；
查询单元，用于利用所述匹配单元确定出的对象描述进行查询，将查询得到的相关信息提供给所述交互单元。
根据本发明一优选实施方式，所述标记单元在对视频画面中的对象进行位置信息标记时，具体执行：对视频画面中的对象所在的区域范围以及所在帧的信息进行标记；
所述用户在视频画面中所选择对象的位置信息包括：所述用户在视频画面中选择位置的坐标信息或范围信息，以及所在帧的信息。
根据本发明一优选实施方式，所述匹配单元在将所述所选择对象的位置信息与标记的位置信息进行匹配时，具体执行：
确定与用户在视频画面中选择位置位于相同帧的标记区域范围，将所述坐标信息所落在的标记区域范围对应的对象确定为匹配的标记对象，或者将与所述范围信息具有最多重叠的标记区域范围对应的对象确定为匹配的标记对象。
根据本发明一优选实施方式，所述标记单元在对视频画面中的对象进行对象描述的标记时，具体执行：
获取人工对视频画面中的对象标记的对象描述；或者，
通过图像识别对视频画面中的对象进行识别，利用识别结果对视频画面中的对象标记对象描述。
根据本发明一优选实施方式，所述对象描述包括关键词时，所述查询单元利用所述关键词进行本地查询或网络查询；或者，
所述对象描述包括指向第三方接口的链接时，所述查询单元根据指向第三方接口的链接向所述第三方查询并获取相关信息；或者，
所述对象描述包括指向第三方的内容时，所述查询单元查询并获取所述指向第三方的内容。
根据本发明一优选实施方式，所述对象包括：人物、物体、文字或场景。
本发明还提供了一种视频处理装置，该装置包括：
确定单元，用于确定用户在视频画面中所选择对象的位置信息；
交互单元，用于向服务器端发送包含所述位置信息的查询请求；获取所述服务器端返回的所述对象的相关信息；
其中所述相关信息是所述服务器端将所述位置信息与预先对视频画面中的对象进行标记的位置信息进行匹配后，利用匹配得到的标记对象所对应的对象描述进行查询得到的。
根据本发明一优选实施方式，所述对象包括：人物、物体、文字或场景。
根据本发明一优选实施方式，该装置还包括：展现单元，用于展现所述交互单元获取的所述相关信息，具体包括：
当所述相关信息为文本时，采用浮动窗口或滚动条的方式展现所述文本；
当所述相关信息为音频时，播放所述音频，在播放所述音频的过程中所述视频暂停播放；
当所述相关信息为视频时，采用浮动窗口的方式播放该视频。
由以上技术方案可以看出，本发明通过服务器端将用户在视频画面中所选择对象的位置信息与已标记的位置信息进行匹配，确定匹配得到的标记对象所对应的对象描述，将利用确定出的对象描述查询到的相关信息返回给客户端，从而实现在视频播放过程中基于视频画面中的内容与用户进行交互，方便用户获取视频画面中内容的相关信息，另一方面，用户只需要在视频画面中选择对象，无需认识该对象或对该对象有一定了解，解决了用户不知道如何查询的问题。
【附图说明】
图1为本发明实施例所基于的系统结构图；
图2为本发明实施例提供的方法流程图；
图3为本发明实施例提供的一个用户点击视频画面的实例图；
图4为图3所示的视频画面的标记示意图；
图5为图3所示视频画面展现相关信息的实例图；
图6为本发明实施例提供的另一个用户点击视频画面的实例图；
图7为图6所示的视频画面的标记示意图；
图8为图6所示视频画面展现相关信息的实例图；
图9为本发明实施例提供的设置于服务器端的装置结构图；
图10为本发明实施例提供的设置于客户端的装置结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。
本发明实施例基于如图1中所示的系统结构，该系统由服务器端和客户端构成，该服务器端可以是视频服务器，也可以是多个视频服务器构成的服务器集群，客户端是用于视频播放的客户端，该客户端能够实现与用户之间的交互以及与服务器端之间的交互。
下面基于上述系统架构，对本发明提供的方法进行详细描述。图2为本发明实施例提供的方法流程图，如图2中所示，该方法可以包括以下步骤：
在201中，在服务器端预先对视频画面中的对象进行位置信息和对象描述的标记。
针对视频文件，可以将该视频文件的视频画面中关键的对象进行标记，例如对关键的任务、物体、文字、场景等信息进行标记，这里所做的标记至少包括位置信息的标注和对象描述的标记。
在标记位置信息时，可以将对象在视频画面中的区域范围以及所在帧的信息进行标记。例如对于视频画面中的人物，可以提取该任务的轮廓，将该轮廓的区域范围进行标记，并标记对应的帧。
在标记对象描述时，可以采用标记关键词的方式。需要说明的是，本发明实施例中涉及的“关键词”包含字、词语、短语、句子等形式，是广义的关键词。例如对于视频画面中的人物，可以标记该人物的角色名、演员名等，对于视频画面中的场景，可以标记该场景的地点名、风景名等，对于视频画面中的文本，可以标记该文本中的关键词，等等。除了采用标记关键词的方式之外，还可以采用标记指向第三方接口的链接或指向的第三方内容。例如，视频画面中的某个电器类物品，可以针对该物品标记指向购物平台的链接，从该链接能够获得该电器类物品的相关价格、评价、参数等信息。再例如，视频画面中有某个汽车，针对该汽车可以标记指向某个广告平台的一段广告视频。再例如，视频画面中有一段英文文本，针对该英文文本可以标记指向该英文本文对应的中文翻译。
另外，上述标记可以采用人工方式，也可以通过图像识别的方式。当采用图像识别的方式时，通过图像识别对视频画面中的对象进行识别，利用识别结果对视频画面中的对象进行标记。例如针对视频画面中的人物，可以采用人脸识别的方式，对该任务进行识别并利用识别结果进行对象描述的标记。针对视频画面中的一段文字，可以通过OpenCV(Open Source Computer Vision Library，基于开源的跨平台视觉库)进行文字内容的识别，然后将识别结果标记为对象描述。
在202中，客户端获取用户在视频画面中所选择对象的位置信息，将该位置信息携带在查询请求中发送给服务器端。
客户端在视频播放的过程中，如果用户对视频画面中的某个对象感兴趣，可以通过点击、圈选等方式选择该对象，客户端获取用户在视频画面中所选择对象的位置信息。该位置信息可以是一个坐标信息和帧的信息的组合，例如用户点击视频画面中的某个对象时，客户端将用户点击位置的坐标信息以及所在帧的信息发送给服务器端。该位置信息也可以是一个范围信息和帧的信息的组合，例如用户圈选视频画面中的某个对象时，客户端将用户圈选位置的范围信息以及所在帧的信息发送给服务器端。
客户端可将上述位置信息通过查询请求的方式发送给服务器端，当然该查询请求中还会包含客户端的信息以及所播放视频的标识信息。
在203中，服务器端接收客户端发送的查询请求，将查询请求中携带的位置信息与标记的位置信息进行匹配，确定匹配得到的标记对象所对应的对象描述。
在进行匹配时，首先确定与用户在视频画面中选择位置位于相同帧的标记区域范围，如果用户在视频画面中选择位置是坐标信息，则将坐标信息所落在的标记区域范围对应的对象确定为匹配的标记对象，如果用户在视频画面中选择位置是范围信息，则将与该范围信息具有最多重叠的标记区域范围对应的对象确定为匹配的标记对象。当然，也可以采用其他方式，例如将坐标信息与标记区域范围的中心位置进行距离计算，将距离最近的标记区域范围对应的对象确定为匹配的标记对象，等等，在此不再穷举。
在204中，服务器端利用确定出的对象描述进行查询，将查询得到的相关信息返回给客户端。
本步骤中进行的查询可以是在服务器端本地进行的查询，也可以是网络查询。假设服务器端确定出的对象描述是关键词，例如是人物名、风景名、物品名等等，可以利用该关键词在本地数据库中进行查询，确定该关键词对应的相关信息。例如在服务器端本地的数据库中存储有关于某人物名对应的该人物的介绍，则可以将该人物的介绍返回给客户端。还可以利用关键词在网络中进行查询，例如进行网络的大数据搜索，从搜索结果中获取该关键词对应的相关信息并返回给客户端。其中从搜索结果中选择返回给客户端的相关信息时，可以依据预设的选择策略，例如选择排在前N个的搜索结果，N 为预设的正整数。
对于对象描述包括指向第三方接口的链接的情况，在进行查询时，可以根据该指向第三方接口的链接向第三方查询并获取相关信息。例如，视频画面中的某个电器类物品的对象描述包括指向购物平台的链接，从该链接能够获得该电器类物品的相关价格、评价、参数等信息，将该信息返回给客户端。
对于对象描述包括指向第三方的内容的情况，可以查询并获取该指向的第三方内容并返回给客户端。例如，视频画面中的某个汽车的对象描述包括指向一段广告视频，则可以将该广告视频返回给客户端。再例如，视频画面中一段英文文本的对象描述包括指向其对应的中文翻译文本，则可以将该中文翻译文本返回给客户端。
在205中，客户端展现接收到的相关信息。
客户端在进行展现时，可以采用多种展现形式。对于相关信息是文本的情况，可以采用浮动窗口或滚动条等形式，另外，在展现文本的过程中正在播放的视频可以暂停播放，在用户触发继续播放时视频再播放，也可以在文本展现的过程中继续播放视频。
对于相关信息是音频的情况，客户端播放该音频，在播放该音频的过程中正在播放的视频可以暂停播放，在用户触发继续播放时视频再继续播放。
对于相关信息是视频的情况，客户端可以采用弹出浮动窗口等方式播放该视频，对于原来正在播放的视频可以暂停播放，也可以继续播放。
下面举一个具体的实例，假设用户正在观看一个电影视频《大话西游》，在观看该电影视频的过程中，用户对该电影视频中的一个人物感兴趣，在视频画面中点击了该人物，例如点击了图3所示的视频画面中的周星驰，点击位置如图3中所示的光标位置。客户端捕捉到用户的该点击行为后，将点击的坐标信息所在帧的帧号，以及该电影视频的标识信息一同携带在查询请求中发送给服务器端。
服务器端接收到该查询请求后，假设预先已经针对该视频画面中的人物进行了标注，例如标注的示意图如图4中所示，预先将该视频画面中的两个人物的轮廓作为两个人物对应的区域范围进行标记，另外标记了该视频画面所在的帧号，并且分别针对两个人物对象进行对象描述，假设对应的对象描述分别为：“周星驰”、“朱茵”。服务器端将查询请求中的位置信息与标记的位置信息进行匹配，首先确定与查询请求中的帧号一致的已标记区域范围，即图4中所示的两个区域范围：区域范围1和区域范围2。然后看查询请求中的坐标信息落在哪个已标记区域范围，确定落在区域范围1中，该区域范围1对应的对象就是匹配得到的对象。进一步确定该区域范围1对应的对象描述为“周星驰”，利用该关键词进行查询，可以进行本地搜索，也可以进行网络搜索。假设搜索得到的相关信息，为周星驰的相关介绍，服务器端将该相关介绍返回给客户端。客户端接收到该相关介绍后，可以不暂停视频的播放，以滚动条的形式显示相关介绍，如图5中所示。
再举一个实例，假设用户正在观看一个电影视频，对其中一个视频画面中的电脑感兴趣，采用圈选的方式选择了该电脑，圈选位置如图6中所示。客户端捕捉到用户的该圈选行为后，将圈选的范围信息以及所在帧的帧号，以及该电影视频的标识信息一同携带在查询请求中发送给服务器端。
服务器端接收到该查询请求后，假设预先已经针对该视频画面中的物品、人物进行了标注，例如标注的示意图如图7中所示，预先将该视频画面中的一个重点人物的轮廓作为该人物对应的区域范围进行标记，并将该视频画面中的一个重点物品(即该电脑)的轮廓作为该物品对应的区域范围进行标记，另外标记了该视频画面所在的帧号，并且分别针对人物对象和物品对象进行对象描述，假设人物对应的对象描述为：“刘德华”、物品对应的对象描述为指向一个购物平台接口的链接。服务器端将查询请求中的位置信息与标记的位置信息进行匹配，首先确定与查询请求中的帧号一致的已标记区域范围，即图7中所示的两个区域范围：区域范围1和区域范围2。然后看查询请求中的范围信息与哪个已标记区域范围重叠得最多，确定与区域范围 2重叠得最多，该区域范围2对应的对象就是匹配得到的对象。进一步确定该区域范围2对应的对象描述为指向一个购物平台接口的链接，通过该链接可以查询得到该电脑在该购物平台上的相关信息，假设为一个页面。服务器端将该页面返回给客户端。客户端接收到该页面后，可以不暂停视频的播放，浮动窗口的形式展现该页面，如图8中所示。
以上是对本发明提供的方法进行的详细描述，下面对本发明提供的装置进行详细描述。
图9为本发明实施例提供的设置于服务器端的装置结构图，如图9所示，该装置可以包括：标记单元01、交互单元02、匹配单元03和查询单元04。
其中，标记单元01负责对视频画面中的对象进行位置信息和对象描述的标记。
针对视频文件，标记单元01可以将该视频文件的视频画面中关键的对象进行标记，例如对关键的任务、物体、文字、场景等信息进行标记，这里所做的标记至少包括位置信息的标注和对象描述的标记。
标记单元01在标记位置信息时，可以将对象在视频画面中的区域范围以及所在帧的信息进行标记。例如对于视频画面中的人物，可以提取该任务的轮廓，将该轮廓的区域范围进行标记，并标记对应的帧。
标记单元01在标记对象描述时，可以采用标记关键词的方式。例如对于视频画面中的人物，可以标记该人物的角色名、演员名等，对于视频画面中的场景，可以标记该场景的地点名、风景名等。除了采用标记关键词的方式之外，还可以采用标记指向第三方接口的链接或指向的第三方内容。例如，视频画面中的某个电器类物品，可以针对该物品标记指向购物平台的链接，从该链接能够获得该电器类物品的相关价格、评价、参数等信息。再例如，视频画面中有某个汽车，针对该汽车可以标记指向某个广告平台的一段广告视频。再例如，视频画面中有一段英文文本，针对该英文文本可以标记指向该英文本文对应的中文翻译。
另外，上述标记可以采用人工方式，也可以通过图像识别的方式。当采用图像识别的方式时，通过图像识别对视频画面中的对象进行识别，利用识别结果对视频画面中的对象进行标记。例如针对视频画面中的人物，可以采用人脸识别的方式，对该任务进行识别并利用识别结果进行对象描述的标记。针对视频画面中的一段文字，可以通过OpenCV进行文字内容的识别，然后将识别结果标记为对象描述。
交互单元02负责接收客户端发送的查询请求，查询请求中包含用户在视频画面中所选择对象的位置信息。
匹配单元03负责将所选择对象的位置信息与标记单元01标记的位置信息进行匹配，确定匹配得到的标记对象所对应的对象描述。
具体地，匹配单元03可以确定与用户在视频画面中选择位置位于相同帧的标记区域范围，将坐标信息所落在的标记区域范围对应的对象确定为匹配的标记对象，或者将与范围信息具有最多重叠的标记区域范围对应的对象确定为匹配的标记对象。
查询单元04负责利用匹配单元03确定出的对象描述进行查询，将查询得到的相关信息提供给交互单元02。
如果对象描述包括关键词，例如是人物名、风景名、物品名等等，查询单元04可以利用关键词进行本地查询或网络查询。
如果对象描述包括指向第三方接口的链接，查询单元04可以根据指向第三方接口的链接向第三方查询并获取相关信息。
如果对象描述包括指向第三方的内容，则查询单元04查询并获取指向第三方的内容。
然后交互单元02将查询单元04提供的相关信息返回给客户端。
图10为本发明实施例提供的设置于客户端的装置结构图，如图10中所示，该装置包括：确定单元11和交互单元12，还可以包括展现单元13。
确定单元11负责确定用户在视频画面中所选择对象的位置信息。客户端在视频播放的过程中，如果用户对视频画面中的某个对象感兴趣，可以通过点击、圈选等方式选择该对象，确定单元11获取用户在视频画面中所选择对象的位置信息。该位置信息可以是一个坐标信息和帧的信息的组合，例如用户点击视频画面中的某个对象时，确定单元11获取用户点击位置的坐标信息以及所在帧的信息。该位置信息也可以是一个范围信息和帧的信息的组合，例如用户圈选视频画面中的某个对象时，确定单元11获取用户圈选位置的范围信息以及所在帧的信息。
交互单元12负责向服务器端发送包含位置信息的查询请求，获取服务器端返回的对象的相关信息。其中相关信息是服务器端将位置信息与预先对视频画面中的对象进行标记的位置信息进行匹配后，利用匹配得到的标记对象所对应的对象描述进行查询得到的。
上述的对象可以包括但不限于：人物、物体、文字或场景。
然后展现单元13展现交互单元12获取的相关信息，在进行展现时，可以采用多种展现形式。对于相关信息是文本的情况，可以采用浮动窗口或滚动条等形式，另外，在展现文本的过程中正在播放的视频可以暂停播放，在用户触发继续播放时视频再播放，也可以在文本展现的过程中继续播放视频。
对于相关信息是音频的情况，客户端播放该音频，在播放该音频的过程中正在播放的视频可以暂停播放，在用户触发继续播放时视频再继续播放。
对于相关信息是视频的情况，客户端可以采用弹出浮动窗口等方式播放该视频，对于原来正在播放的视频可以暂停播放，也可以继续播放。
本发明上述实施例可以依托云端服务器强大的计算功能，例如跟云端的人脸识别、物体识别、文字识别翻译等结合在一起，为用户实时地提供视频画面中对象的相关信息。也可以跟厂商联合，将广告链接在视频画面中，达到推广效果。
在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等) 或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。