基于人工智能的谣言识别方法及装置.pdf

上传人:v**** 文档编号:6105312 上传时间:2019-04-12 格式:PDF 页数:17 大小:1.07MB
返回 下载 相关 举报
摘要
申请专利号:

CN201610974822.9

申请日:

2016.11.04

公开号:

CN106570162A

公开日:

2017.04.19

当前法律状态:

实审

有效性:

审中

法律详情:

实质审查的生效IPC(主分类):G06F 17/30申请日:20161104|||公开

IPC分类号:

G06F17/30; G06F17/27

主分类号:

G06F17/30

申请人:

北京百度网讯科技有限公司

发明人:

张军

地址:

100085 北京市海淀区上地十街10号百度大厦2层

优先权:

专利代理机构:

北京清亦华知识产权代理事务所(普通合伙) 11201

代理人:

宋合成

PDF下载: PDF下载
内容摘要

本发明提出了一种基于人工智能的谣言识别方法及装置,其中,方法包括:获取待识别文本;基于词袋BOW模型生成与待识别文本对应的词向量;利用投影矩阵模型将词向量转换为长度为2的向量;将长度为2的向量作为输入,通过回归函数SOFTMAX计算待识别文本为谣言的概率。通过本发明能够快速地识别互联网信息中的网络谣言,提高网络谣言的识别率和时效性。

权利要求书

1.一种基于人工智能的谣言识别方法,其特征在于,包括:
获取待识别文本;
基于词袋BOW模型生成与所述待识别文本对应的词向量;
利用投影矩阵模型将所述词向量转换为长度为2的向量;
将所述长度为2的向量作为输入,通过回归函数SOFTMAX计算所述待识别文本为谣言的
概率。
2.如权利要求1所述的方法,其特征在于,基于词袋模型BOW生成与所述待识别文本对
应的词向量,包括:
将所述待识别文本切分为多个分词;
获取所述多个分词对应的分词向量;
利用所述BOW模型,对所述分词向量进行运算,以生成所述待识别文本对应的词向量。
3.如权利要求1所述的方法,其特征在于,利用投影矩阵模型将所述词向量转换为长度
为2的向量,包括:
利用投影矩阵模型对所述词向量进行投影运算,生成所述词向量对应的矩阵;
通过非线性变化函数,对所述矩阵进行运算,生成所述长度为2的向量。
4.如权利要求3所述的方法,其特征在于,所述非线性变化函数包括sigmoid函数、正切
函数以及激活函数中的一种。
5.如权利要求1所述的方法,其特征在于,还包括:
训练所述投影矩阵模型的参数。
6.如权利要求5所述的方法,其特征在于,训练所述投影矩阵模型的参数,包括:
获取样本数据,所述样本数据包括官方报道样本和谣言样本;
将所述官方报道样本作为正例,所述谣言样本作为负例,训练生成所述参数,并利用基
于梯度的模型优化所述参数。
7.如权利要求1所述的方法,其特征在于,还包括:
在计算出所述待识别文本为谣言的概率之后,根据所述概率对所述待识别文本进行相
应的处理。
8.一种基于人工智能的谣言识别装置,其特征在于,包括:
获取模块,用于获取待识别文本;
生成模块,用于基于词袋BOW模型生成与所述待识别文本对应的词向量;
转换模块,用于利用投影矩阵模型将所述词向量转换为长度为2的向量;
计算模块,用于将所述长度为2的向量作为输入,通过回归函数SOFTMAX计算所述待识
别文本为谣言的概率。
9.如权利要求8所述的装置,其特征在于,所述生成模块,包括:
切分单元,用于将所述待识别文本切分为多个分词;
第一获取单元,用于获取所述多个分词对应的分词向量;
运算单元,用于利用所述BOW模型,对所述分词向量进行运算,以生成所述待识别文本
对应的词向量。
10.如权利要求8所述的装置,其特征在于,所述转换模块,用于:
利用投影矩阵模型对所述词向量进行投影运算,生成所述词向量对应的矩阵;
通过非线性变化函数,对所述矩阵进行运算,生成所述长度为2的向量。
11.如权利要求10所述的装置,其特征在于,所述非线性变化函数包括sigmoid函数、正
切函数以及激活函数中的一种。
12.如权利要求8所述的装置,其特征在于,还包括:
训练模块,用于训练所述投影矩阵模型的参数。
13.如权利要求12所述的装置,其特征在于,所述训练模块,包括:
第二获取单元,用于获取样本数据,所述样本数据包括官方报道样本和谣言样本;
训练单元,用于将所述官方报道样本作为正例,所述谣言样本作为负例,训练生成所述
参数,并利用基于梯度的模型优化所述参数。
14.如权利要求8所述的装置,其特征在于,还包括:
处理模块,用于在计算出所述待识别文本为谣言的概率之后,根据所述概率对所述待
识别文本进行相应的处理。

说明书

基于人工智能的谣言识别方法及装置

技术领域

本发明涉及互联网技术领域,尤其涉及一种基于人工智能的谣言识别方法及装
置。

背景技术

人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、
延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算
机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式
做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专
家系统等。人工智能技术的发展也带动了其他相关技术的进步,比如网络谣言识别技术。

网络谣言是指通过网络介质(比如电子邮箱、聊天软件、社交网站、网络论坛等)传
播的没有事实依据的话语,主要涉及突发事件、公共领域、名人要员、颠覆传统、离经叛道等
内容。网络谣言的传播极易扰乱正常的社会秩序,对社会造成不良影响。

随着互联网技术的不断发展,互联网信息的传播速度越来越快,网络谣言的传播
速度也随之加快。因此,如何有效识别互联网信息中的网络谣言,成为互联网技术领域亟待
解决的问题。

现有的网络谣言识别方法中,通常根据预设的关键词列表来判断网络信息是否为
谣言。当互联网信息中存在与关键词列表中的词匹配的词时,则认为该互联网信息为谣言。
由于现有的网络谣言识别方法是通过预设关键词进行网络谣言识别的,因而识别率低,且
由于关键词列表的滞后性,使现有的网络谣言识别方法识别谣言的时效性差。

发明内容

本发明的目的旨在至少在一定程度上解决上述的技术问题之一。

为此,本发明的第一个目的在于提出一种基于人工智能的谣言识别方法,该方法
能够快速地识别互联网信息中的网络谣言,提高网络谣言的识别率和时效性。

本发明的第二个目的在于提出一种基于人工智能的谣言识别装置。

本发明的第三个目的在于提出一种终端。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为了实现上述目的,本发明第一方面实施例提出了一种基于人工智能的谣言识别
方法,包括:获取待识别文本;基于词袋BOW模型生成与待识别文本对应的词向量;利用投影
矩阵模型将词向量转换为长度为2的向量;将长度为2的向量作为输入,通过回归函数
SOFTMAX计算待识别文本为谣言的概率。

本发明第一方面实施例提出的基于人工智能的谣言识别方法,通过获取待识别文
本,基于词袋模型生成与待识别文本对应的词向量,利用投影矩阵模型将词向量转换为长
度为2的向量,并作为输入通过回归函数计算出待识别文本为谣言的概率。由此,能够快速
地识别互联网信息中的网络谣言,提高网络谣言的识别率和时效性。

为了实现上述目的,本发明第二方面实施例提出了一种基于人工智能的谣言识别
装置,包括:获取模块,用于获取待识别文本;生成模块,用于基于词袋BOW模型生成与待识
别文本对应的词向量;转换模块,用于利用投影矩阵模型将词向量转换为长度为2的向量;
计算模块,用于将长度为2的向量作为输入,通过回归函数SOFTMAX计算待识别文本为谣言
的概率。

本发明第二方面实施例提出的基于人工智能的谣言识别装置,通过获取待识别文
本,基于词袋模型生成与待识别文本对应的词向量,利用投影矩阵模型将词向量转换为长
度为2的向量,并作为输入通过回归函数计算出待识别文本为谣言的概率。由此,能够快速
地识别互联网信息中的网络谣言,提高网络谣言的识别率和时效性。

为了实现上述目的,本发明第三方面实施例提出了一种终端,包括:处理器;用于
存储处理器可执行指令的存储器。其中,处理器被配置为执行以下步骤:

获取待识别文本;

基于词袋BOW模型生成与待识别文本对应的词向量;

利用投影矩阵模型将词向量转换为长度为2的向量;

将长度为2的向量作为输入,通过回归函数SOFTMAX计算待识别文本为谣言的概
率。

本发明第三方面实施例提出的终端,通过获取待识别文本,基于词袋模型生成与
待识别文本对应的词向量,利用投影矩阵模型将词向量转换为长度为2的向量,并作为输入
通过回归函数计算出待识别文本为谣言的概率。由此,能够快速地识别互联网信息中的网
络谣言,提高网络谣言的识别率和时效性。

为了实现上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储
介质,用于存储一个或多个程序,当存储介质中的指令由移动终端的处理器执行时,使得移
动终端能够执行一种基于人工智能的谣言识别方法,方法包括;

获取待识别文本;

基于词袋BOW模型生成与待识别文本对应的词向量;

利用投影矩阵模型将词向量转换为长度为2的向量;

将长度为2的向量作为输入,通过回归函数SOFTMAX计算待识别文本为谣言的概
率。

本发明第四方面实施例提出的非临时性计算机可读存储介质,通过获取待识别文
本,基于词袋模型生成与待识别文本对应的词向量,利用投影矩阵模型将词向量转换为长
度为2的向量,并作为输入通过回归函数计算出待识别文本为谣言的概率。由此,能够快速
地识别互联网信息中的网络谣言,提高网络谣言的识别率和时效性。

为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,当计算
机程序产品中的指令被处理器执行时,执行一种基于人工智能的谣言识别方法,方法包括:

获取待识别文本;

基于词袋BOW模型生成与待识别文本对应的词向量;

利用投影矩阵模型将词向量转换为长度为2的向量;

将长度为2的向量作为输入,通过回归函数SOFTMAX计算待识别文本为谣言的概
率。

本发明第五方面实施例提出的计算机程序产品,通过获取待识别文本,基于词袋
模型生成与待识别文本对应的词向量,利用投影矩阵模型将词向量转换为长度为2的向量,
并作为输入通过回归函数计算出待识别文本为谣言的概率。由此,能够快速地识别互联网
信息中的网络谣言,提高网络谣言的识别率和时效性。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得
明显和容易理解,其中:

图1是本发明一实施例提出的基于人工智能的谣言识别方法的流程示意图;

图2是基于BOW模型生成与待识别文本对应的词向量的流程示意图;

图3是以待识别文本为网络文章内容为例对本实施例进行说明的示例图;

图4是本发明另一实施例提出的基于人工智能的谣言识别方法的流程示意图;

图5是训练投影矩阵模型的参数的流程示意图;

图6是本发明又一实施例提出的基于人工智能的谣言识别方法的流程示意图;

图7是本发明一实施例提出的基于人工智能的谣言识别装置的结构示意图;

图8是本发明另一实施例提出的基于人工智能的谣言识别装置的结构示意图;

图9是本发明又一实施例提出的基于人工智能的谣言识别装置的结构示意图;

图10是本发明再一实施例提出的基于人工智能的谣言识别装置的结构示意图;

图11是本发明还一实施例提出的基于人工智能的谣言识别装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终
相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附
图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。相反,
本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同
物。

图1是本发明一实施例提出的基于人工智能的谣言识别方法的流程示意图。

如图1所示,本实施例的基于人工智能的谣言识别方法包括:

S11:获取待识别文本。

本实施例中,为了判断某互联网信息是否为谣言,首先要通过互联网获取该互联
网信息作为待识别文本。

其中,互联网信息可以是篇幅较长的网络文章,也可以是新闻的标题等。

S12:基于词袋BOW模型生成与待识别文本对应的词向量。

本实施例中,在获取到待识别文本之后,即可根据词袋(Bag Of Words,BOW)模型
生成与待识别文本对应的词向量。

其中,BOW模型是信息检索领域常用的文档表示方法。在信息检索中,BOW模型假定
对于一个文档,不考虑该文档的单词顺序、语法和句法等要素,将其仅仅看作是若干个词汇
的集合,该文档中每个单词的出现都是独立的,不依赖于其它单词是否出现。

我们假设,在一个巨大的文档集合中,包含有若干个文档。提取所有文档里的所有
单词,构成一个包含Q个单词的词典。利用BOW模型,每个文档都可以被表示为一个Q维的向
量,Q为正整数。其中,向量中的第i个元素表示词典中第i个单词在该文档中出现的次数,i
为正整数。

具体地,如图2所示,基于BOW模型生成与待识别文本对应的词向量,可以包括以下
步骤:

S121:将待识别文本切分为多个分词。

本实施例中,为了基于BOW模型获得与待识别文本对应的词向量,在获得待识别文
本之后,首先利用相关技术对待识别文本进行分词处理,将待识别文本切分为多个分词。

S122:获取多个分词对应的分词向量。

本实施例中,在将待识别文本进行分词处理之后,进而获取各个分词对应的分词
向量。其中,各个分词对应的分词向量可以通过查找词典的方式获得。

具体而言,假设存在一个包含N个词的词典,每个词的词向量大小(embedding
size)为M,则该词典可以表示成一个N*M的词向量矩阵。其中,N、M为正整数,M的大小通常设
定为50~1000之间。对于一个给定的词,假设该词对应于词向量矩阵中的第k行,则通过查
找该词向量矩阵,即可获得该词的词向量。其中,k为正整数。

以待识别文本为网络文章内容content为例。首先采用相关技术将content切分为
多个分词,分别记为w1,w2,…,wn。随后,根据上述词向量矩阵,通过查找词典的方式即可获
得该n个分词各自对应的词向量,分别记为emb(w1),emb(w2),…,emb(wn)。

需要说明的是,词向量是将语言中的词进行数字化的一种方式,即把一个词表示
成一个向量。最简单的词向量表示方法是One-hot Representation,这种方法把每个词表
示为一个很长的向量,向量的维度表示词表的大小,只有一个维度的向量分量值为“1”,其
他分量值全为“0”,“1”的位置对应该词在词表中的位置。举例而言,“麦克风”表示为[0 0 0
0 0 0 0 010 0 0 0 0 0 0...],假设从0开始记,麦克风记为8,表示麦克风这个词处于词
表中的第8个位置。还有一种词向量表示方法是Distributed Representation,其基本想法
是:通过训练将某种语言中的每一个词映射成一个固定长度的向量,将所有向量集合形成
一个词向量空间,其中每一向量表示该空间中的一个点。在词向量空间中引入“距离”的概
念,即可根据词之间的距离来判断词与词在语法、语义上的相似性。本发明可以采用任一方
法表示词向量,对此不作限制。

S123:利用BOW模型,对分词向量进行运算,以生成待识别文本对应的词向量。

本实施例中,在获得分词向量之后,即可利用BOW模型对分词向量进行运算,以生
成待识别文本对应的词向量。

具体地,BOW模型将各个分词对应的分词向量进行简单的求和运算,即对各分词向
量进行逐元素相加,所得的结果即为待识别文本对应的词向量。

因此,上述content对应的词向量rep(content)可以表示为:

rep(content)=sum(emb(w1),emb(w2),…,emb(wn))

S13:利用投影矩阵模型将词向量转换为长度为2的向量。

本实施例中,在获取到待识别文本对应的词向量之后,即可利用投影矩阵模型将
词向量转换为长度为2的向量。

具体地,利用投影矩阵模型将词向量转换为长度为2的向量,包括:利用投影矩阵
模型对词向量进行投影运算,生成词向量对应的矩阵;通过非线性变化函数,对矩阵进行运
算,生成长度为2的向量。其中,非线性变化函数包括sigmoid函数、正切函数以及激活函数
中的一种。

需要说明的是,投影运算和通过非线性变化函数对矩阵进行运算的操作不限于一
次,可以通过多次运算获得长度为2的向量,本发明对此不作限制。

仍以待识别文本为网络文章内容content为例,前述已利用BOW模型获得content
对应的词向量rep(content)。rep(content)是一个长度为N的向量,利用投影矩阵模型对
rep(content)进行投影运算,即另rep(content)乘以一个N*M的矩阵,则获得一长度为M的
向量。接着,通过非线性变化函数比如sigmoid函数,对获得的向量进行非线性运算,得到的
仍然是长度为M的向量。继续对非线性运算后获得的向量进行投影运算,另其乘以一个M*2
的矩阵,即可获得一个长度为2的向量。其中,M、N为正整数。

S14:将长度为2的向量作为输入,通过回归函数SOFTMAX计算待识别文本为谣言的
概率。

本实施例中,在将待识别文本对应的词向量转换为长度为2的向量后,将所得向量
作为输入,通过回归函数SOFTMAX即可计算获得待识别文本为谣言的概率。

其中,SOFTMAX函数是一种能够解决多分类问题的函数,其本质是将一个K维的任
意实数向量映射成另一个K维的实数向量,其中向量中的每个元素取值介于(0,1)之间,向
量中所有元素的和为1,K为正整数。因此,当输入长度为2的向量时,经过SOFTMAX函数输出
的也是长度为2的向量,且向量中两个元素的取值均在0~1之间,两个向量的和为1,因而能
够分别表示待识别文本为谣言的概率和不为谣言的概率。

举例而言,对于SOFTMAX函数,其输出可以表示为y=[y1,y2,…,yk],其中,k为正整
数,表示输出向量的长度。本实施例中,取k=2。假设SOFTMAX函数输出的长度为2的向量的
第一个元素表示待识别文本不为谣言的概率,第二个元素表示待识别文本为谣言的概率。
若对于某一待识别文本,SOFTMAX函数的输出向量为y=[0.8,0.2],即不是谣言的概率为
0.8,是谣言的概率为0.2,则表明该待识别文本不是谣言。若对于某一待识别文本,SOFTMAX
函数的输出向量为y=[0.26,0.74],不是谣言的概率为0.26,是谣言的概率为0.74,则表明
该待识别文本是谣言。

本实施例的基于人工智能的谣言识别方法,可以被部署于内容生产服务器(比如,
贴吧)、内容转发服务器(比如,必应bing)等服务器中使用,以用于判断互联网信息是否为
谣言。

下面以待识别文本为网络文章内容为例对本实施例进行具体说明。如图3所示,本
实施例中,首先从互联网数据库中获取已有的官方报道样本和谣言样本,并分别标注为正
例和负例作为训练样本,利用基于梯度的模型进行训练,得到投影矩阵模型的参数。在获得
互联网中的某一网络文章内容后,基于BOW模型生成该网络文章内容的词向量表示,进而结
合训练所得的投影矩阵模型的参数,将该网络文章内容的词向量表示转换为长度为2的向
量,并作为SOFTMAX函数的输入,最终根据SOFTMAX函数的输出判定该网络文章内容是否为
谣言。本发明实施例提出的基于人工智能的谣言识别方法,通过获取待识别文本,基于词袋
模型生成与待识别文本对应的词向量,利用投影矩阵模型将词向量转换为长度为2的向量,
并作为输入通过回归函数计算出待识别文本为谣言的概率。由此,能够快速地识别互联网
信息中的网络谣言,提高网络谣言的识别率和时效性。

图4是本发明另一实施例提出的基于人工智能的谣言识别方法的流程示意图。

如图4所示,基于上述实施例,在利用投影矩阵模型将词向量转换为长度为2的向
量之前,还可以包括以下步骤:

S15:训练投影矩阵模型的参数。

本实施例中,为了能够利用投影矩阵模型对待识别文本的词向量进行转换生成长
度为2的向量,需要首先训练投影矩阵模型的参数。

需要说明的是,训练投影矩阵模型的参数并不一定是在步骤S12之后进行的,可以
在执行步骤S13之前的任一时刻进行,本发明对此不作限制。

具体地,如图5所示,训练投影矩阵模型的参数,可以包括以下步骤:

S151:获取样本数据,样本数据包括官方报道样本和谣言样本。

本实施例中,可以从互联网数据库中获取样本数据作为训练投影矩阵模型的参数
所需的训练数据,其中,样本数据包括官方报道样本和谣言样本。

S152:将官方报道样本作为正例,谣言样本作为负例,训练生成参数,并利用基于
梯度的模型优化参数。

本实施例中,在获得样本数据后,将获得的官方报道样本标注为正例,将获得的谣
言样本标注为负例,并在标注完成后将标注过的样本数据作为训练数据,训练生成投影矩
阵模型的参数,进而利用基于梯度的模型对生成的参数进行优化。

具体地,可以利用基于样本对的pair-wise训练方法或者利用基于单个样本的
point-wise训练方法对样本数据进行训练以生成投影矩阵模型的参数。利用基于梯度的模
型优化参数的方法也可以有多种,比如随机梯度下降(Stochastic Gradient Descent,
SGD)算法、矩量(Momentum)算法、自适应梯度(Adaptive Gradient,AdaGrad)算法、反向传
播(Back Propagation,BP)算法等。

以SGD优化算法为例。SGD算法的思想是通过计算某一组样本数据的梯度(参数的
偏导数),来迭代更新生成的投影矩阵模型的参数。迭代更新的过程为:前一次迭代所得的
参数的梯度乘以学习率(learning rate)即步长,将此次迭代所得的结果更新到参数上。经
过多次迭代后,能够使最终得到的参数的值与实际值之间的差收敛于负对数损失
(negative log loss)函数。

需要说明的是,可以利用pair-wise方法或者point-wise方法对样本数据进行训
练生成投影矩阵模型的参数,也可以利用其他训练方法生成投影矩阵模型的参数。另外,也
可以使用其他损失函数作为优化目标,比如0-1损失函数、平方损失函数、绝对损失函数等。
本发明对参数的训练方法、优化方法和优化目标函数均不作限制。

本发明实施例提出的基于人工智能的谣言识别方法,通过获取官方报道样本和谣
言样本作为样本数据,分别作为正例和负例用于训练投影矩阵模型的参数,并基于梯度的
模型优化参数,能够使投影矩阵模型的运算结果更精确,进一步提高网络谣言识别的准确
率。

图6是本发明又一实施例提出的基于人工智能的谣言识别方法的流程示意图。

如图6所示,基于上述实施例,在计算出待识别文本为谣言的概率之后,还可以包
括以下步骤:

S16:根据概率对待识别文本进行相应的处理。

本实施例中,在计算出待识别文本为谣言的概率之后,即可判断该待识别文本是
否为谣言,并根据判断结果对待识别文本进行相应的处理。比如,若确定待识别文本为谣
言,可以对待识别文本进行账号封禁、醒目标示等处理;若确定待识别文本不为谣言,则直
接显示待识别文本。

本发明实施例提出的基于人工智能的谣言识别方法,通过在计算出待识别文本为
谣言的概率之后,根据所得概率对待识别文本进行相应的处理,能够帮助用户识别网络谣
言,避免用户遭受谣言信息的危害。

为了实现上述实施例,本发明还提出了一种基于人工智能的谣言识别装置,图7是
本发明一实施例提出的基于人工智能的谣言识别装置的结构示意图。

如图7所示,本实施例的基于人工智能的谣言识别装置包括:获取模块710、生成模
块720、转换模块730,以及计算模块740。其中,

获取模块710,用于获取待识别文本。

生成模块720,用于基于词袋BOW模型生成与待识别文本对应的词向量。

具体地,如图8所示,生成模块720包括:

切分单元721,用于将待识别文本切分为多个分词。

第一获取单元722,用于获取多个分词对应的分词向量。

运算单元723,用于利用BOW模型,对分词向量进行运算,以生成待识别文本对应的
词向量。

转换模块730,用于利用投影矩阵模型将词向量转换为长度为2的向量。

具体地,转换模块730用于:

利用投影矩阵模型对词向量进行投影运算,生成词向量对应的矩阵;

通过非线性变化函数,对矩阵进行运算,生成长度为2的向量。

其中,非线性变化函数包括sigmoid函数、正切函数以及激活函数中的一种。

计算模块740,用于将长度为2的向量作为输入,通过回归函数SOFTMAX计算待识别
文本为谣言的概率。

需要说明的是,前述实施例中对基于人工智能的谣言识别方法实施例的解释说明
也适用于本实施例的基于人工智能的谣言识别装置,其实现原理类似,此处不再赘述。

本发明实施例提出的基于人工智能的谣言识别装置,通过获取待识别文本,基于
词袋模型生成与待识别文本对应的词向量,利用投影矩阵模型将词向量转换为长度为2的
向量,并作为输入通过回归函数计算出待识别文本为谣言的概率。由此,能够快速地识别互
联网信息中的网络谣言,提高网络谣言的识别率和时效性。

图9是本发明又一实施例提出的基于人工智能的谣言识别装置的结构示意图。如
图9所示,在如图7所示的基础上,本实施例提出的基于人工智能的谣言识别装置,还可以包
括:

训练模块750,用于训练投影矩阵模型的参数。

具体地,如图10所示,训练模块750包括:

第二获取单元751,用于获取样本数据,样本数据包括官方报道样本和谣言样本。

训练单元752,用于将官方报道样本作为正例,谣言样本作为负例,训练生成参数,
并利用基于梯度的模型优化参数。

需要说明的是,前述实施例中对基于人工智能的谣言识别方法实施例的解释说明
也适用于本实施例的基于人工智能的谣言识别装置,其实现原理类似,此处不再赘述。

本发明实施例提出的基于人工智能的谣言识别装置,通过获取官方报道样本和谣
言样本作为样本数据,分别作为正例和负例用于训练投影矩阵模型的参数,并基于梯度的
模型优化参数,能够使投影矩阵模型的运算结果更精确,进一步提高网络谣言识别的准确
率。

图11是本发明还一实施例提出的基于人工智能的谣言识别装置的结构示意图。如
图11所示,在如图7所示的基础上,本实施例提出的基于人工智能的谣言识别装置,还可以
包括:

处理模块760,用于在计算出待识别文本为谣言的概率之后,根据概率对待识别文
本进行相应的处理。

本实施例中,在计算出待识别文本为谣言的概率之后,即可判断该待识别文本是
否为谣言,并根据判断结果对待识别文本进行相应的处理。比如,若确定待识别文本为谣
言,可以对待识别文本进行账号封禁、醒目标示等处理;若确定待识别文本不为谣言,则直
接显示待识别文本。

需要说明的是,前述实施例中对基于人工智能的谣言识别方法实施例的解释说明
也适用于本实施例的基于人工智能的谣言识别装置,其实现原理类似,此处不再赘述。

本发明实施例提出的基于人工智能的谣言识别装置,通过在计算出待识别文本为
谣言的概率之后,根据所得概率对待识别文本进行相应的处理,能够帮助用户识别网络谣
言,避免用户遭受谣言信息的危害。

为了实现上述实施例,本发明还提出了一种终端,包括:处理器,以及用于存储处
理器可执行指令的存储器。其中,处理器被配置为执行以下步骤:

S11’:获取待识别文本。

S12’:基于词袋BOW模型生成与待识别文本对应的词向量。

S13’:利用投影矩阵模型将词向量转换为长度为2的向量。

S14’:将长度为2的向量作为输入,通过回归函数SOFTMAX计算待识别文本为谣言
的概率。

需要说明的是,前述实施例中对基于人工智能的谣言识别方法实施例的解释说明
也适用于本实施例的终端,其实现原理类似,此处不再赘述。

本发明实施例提出的终端,通过获取待识别文本,基于词袋模型生成与待识别文
本对应的词向量,利用投影矩阵模型将词向量转换为长度为2的向量,并作为输入通过回归
函数计算出待识别文本为谣言的概率。由此,能够快速地识别互联网信息中的网络谣言,提
高网络谣言的识别率和时效性。

为了实现上述实施例,本发明还提出了一种非临时性计算机可读存储介质,用于
存储一个或多个程序,当存储介质中的指令由移动终端的处理器执行时,使得移动终端能
够执行本发明第一方面实施例提出的基于人工智能的谣言识别方法。

本发明实施例提出的非临时性计算机可读存储介质,通过获取待识别文本,基于
词袋模型生成与待识别文本对应的词向量,利用投影矩阵模型将词向量转换为长度为2的
向量,并作为输入通过回归函数计算出待识别文本为谣言的概率。由此,能够快速地识别互
联网信息中的网络谣言,提高网络谣言的识别率和时效性。

为了实现上述实施例,本发明还提出了一种计算机程序产品,当计算机程序产品
中的指令被处理器执行时,执行本发明第一方面实施例提出的基于人工智能的谣言识别方
法。

本发明实施例提出的计算机程序产品,通过获取待识别文本,基于词袋模型生成
与待识别文本对应的词向量,利用投影矩阵模型将词向量转换为长度为2的向量,并作为输
入通过回归函数计算出待识别文本为谣言的概率。由此,能够快速地识别互联网信息中的
网络谣言,提高网络谣言的识别率和时效性。

需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不
能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义
是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括
一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部
分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺
序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明
的实施例所属技术领域的技术人员所理解。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述
实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件
或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下
列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路
的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场
可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步
骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介
质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以
是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模
块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如
果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机
可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示
例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特
点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不
必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任
一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技
术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结
合和组合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例
性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述
实施例进行变化、修改、替换和变型。

基于人工智能的谣言识别方法及装置.pdf_第1页
第1页 / 共17页
基于人工智能的谣言识别方法及装置.pdf_第2页
第2页 / 共17页
基于人工智能的谣言识别方法及装置.pdf_第3页
第3页 / 共17页
点击查看更多>>
资源描述

《基于人工智能的谣言识别方法及装置.pdf》由会员分享,可在线阅读,更多相关《基于人工智能的谣言识别方法及装置.pdf(17页珍藏版)》请在专利查询网上搜索。

本发明提出了一种基于人工智能的谣言识别方法及装置,其中,方法包括:获取待识别文本;基于词袋BOW模型生成与待识别文本对应的词向量;利用投影矩阵模型将词向量转换为长度为2的向量;将长度为2的向量作为输入,通过回归函数SOFTMAX计算待识别文本为谣言的概率。通过本发明能够快速地识别互联网信息中的网络谣言,提高网络谣言的识别率和时效性。。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 物理 > 计算;推算;计数


copyright@ 2017-2020 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备2021068784号-1