基于电子邮件信息的快速建档方法及系统技术领域
本发明涉及通信技术领域,特别涉及一种基于电子邮件信息的快速建档方法及系
统。
背景技术
随着互联网技术的发展,电子邮件承载着大量的商业信息及客户信息,其已经成
为日常工作中与外界业务联系的重要沟通工具,尤其是在外贸业务场景中,用于询盘的电
子邮件中包含有最初的客户信息,需要从上述询盘电子邮件中抽取客户信息,以对客户进
行建档。
目前,现有技术中客户建档方法通常是手工录入客户信息的建档方法,即用户往
往一边打开邮件,一边打开新建客户页面,从邮件中复制粘贴信息到新建客户页,其不但工
作强度大,容易出现录入的差错,而且工作效率低下。
发明内容
本发明的目的是提出一种基于电子邮件信息的快速建档方法及系统,其提高预设
模板匹配的效率及准确率,极大地提高客户信息建档的工作效率。
为达到上述目的,本发明提出了一种基于电子邮件信息的快速建档方法,所述方
法包括:
获取电子邮件的邮件内容;
根据优先级依次从模板库中选择预设模板,每一预设模板具有一匹配阈值;
根据预设模板中的字段从所述邮件内容中查找对应的字段;
当所述邮件内容的字段数与预设模板的字段数比值大于所述匹配阈值时,确定该预设
模板为目标模板;
根据所述目标模板从所述邮件内容提取对应的字段及其字段值,根据提取的字段及其
字段值生成客户信息档案。
进一步,所述根据优先级依次从模板库中选择预设模板的步骤之前包括:
建立包含多个预设模板的模板库,分别设置每一预设模板的匹配阈值及优先级。
进一步,所述建立包含多个预设模板的模板库的步骤具体包括:。
确定有效的邮件样本;
根据定义的字段名称对邮件样本进行分析,得到最有代表性的目标邮件样本;
提取所述目标邮件样本的字段名称,并根据所述目标邮件样本的字段名称生成预设模
板。
进一步,所述设置每一预设模板的匹配阈值的步骤具体包括:
设置一取值范围数组,所述取值范围数组包括匹配阈值可能的多个数值;
将所有邮件样本与该预设模板进行匹配,记录所述取值范围数组中每一数值的匹配成
功次数;
根据所述匹配成功次数对所述取值范围数组中多个数值进行排序,选择中间
位置的数值作为所述预设模板的匹配阈值。
进一步,所述设置每一预设模板的优先级的步骤具体包括:
将所有邮件样本与该预设模板进行匹配,根据确定的匹配阈值记录所述预设模板的匹
配成功次数;
按照所述预设模板的匹配成功次数由高到低的顺序设置预设模板的优先级。
进一步,所述当所述邮件内容的字段数与预设模板的字段数比值大于所述匹配阈
值时,确定该预设模板为目标模板的步骤具体包括:
判断所述邮件内容的字段数与预设模板的字段数比值是否大于所述匹配阈值,若是,
则确定该预设模板为目标模板;若否,则返回根据优先级依次从模板库中选择预设模板的
步骤。
另,本发明还提供一种基于电子邮件信息的快速建档系统,所述系统包括:
获取单元,用于获取电子邮件的邮件内容;
模板选择单元,用于根据优先级依次从模板库中选择预设模板,每一预设模板具有一
匹配阈值;
字段查找单元,用于根据预设模板中的字段从所述邮件内容中查找对应的字段;
目标模板确定单元,用于当所述邮件内容的字段数与预设模板的字段数比值大于所述
匹配阈值时,确定该预设模板为目标模板;
信息提取及建档单元,用于根据所述目标模板从所述邮件内容提取对应的字段及其字
段值,根据提取的字段及其字段值生成客户信息档案。
进一步,所述系统还包括:连接于模板选择单元的模板库生成单元,用于建立包含
多个预设模板的模板库以及分别设置每一预设模板的匹配阈值及优先级。
进一步,所述模板库生成单元具体用于:确定有效的邮件样本;根据定义的字段名
称对所述邮件样本进行分析,得到最有代表性的目标邮件样本;提取所述目标邮件样本的
字段名称,并根据所述目标邮件样本的字段名称生成预设模板
进一步,所述设置每一预设模板的匹配阈值具体包括:
设置一取值范围数组,所述取值范围数组包括匹配阈值可能的多个数值;
将所有邮件样本与该预设模板进行匹配,记录所述取值范围数组中每一数值的匹配成
功次数;
根据所述匹配成功次数对所述取值范围数组中多个数值进行排序,选择中间
位置的数值作为所述预设模板的匹配阈值。
进一步,所述设置每一预设模板的优先级具体包括:
将所有邮件样本与该预设模板进行匹配,根据确定的匹配阈值记录所述预设模板的匹
配成功次数;
按照所述预设模板的匹配成功次数由高到低的顺序设置预设模板的优先级。
本发明基于电子邮件信息的快速建档方法及系统通过设置多个预设模板的匹配
阈值及使用优先级,提高了预设模板匹配的效率及准确率,极大地提高了客户信息建档的
工作效率。
附图说明
图1为本发明基于电子邮件信息的快速建档方法的流程图;
图2为图1中预设模板生成的流程图;
图3为本发明基于电子邮件信息的快速建档方法的结构示意图。
具体实施方式
下面结合附图详细说明本发明的优选实施例。
本发明提供一种基于电子邮件信息的快速建档方法,包括以下步骤:获取电子邮
件的邮件内容;根据优先级依次从模板库中选择预设模板,每一预设模板具有一匹配阈值;
根据预设模板中的字段从所述邮件内容中查找对应的字段;当所述邮件内容的字段数与预
设模板的字段数比值大于所述匹配阈值时,确定该预设模板为目标模板;根据所述目标模
板从所述邮件内容提取对应的字段及其字段值,根据提取的字段及其字段值生成客户信息
档案。本发明通过将邮件内容与按照优先级排序的预设模板逐一比对,以确定匹配的目标
模板,根据所述目标模板提取邮件内容的字段信息并自动快速生成客户信息档案,极大地
提高了客户信息建档的工作效率。
请参阅图1及图2,是本发明基于电子邮件信息的快速建档方法的流程图,所述方
法应用在电子设备中。所述方法具体包括以下步骤:
步骤101:获取电子邮件的邮件内容;
具体实现时,接收客户的电子邮件,具体可以接收邮件服务器发送的电子邮件,所述电
子邮件的邮件内容包含有需要建档的客户信息。本实施例中,所述电子邮件为多数来源于
外贸平台的询盘邮件,该询盘邮件中包含有客户信息,以及普通邮件中也可能包含有客户
签名信息,邮件内容通常使用HTML语言标记,经过对样本的分析可知客户的联系人资料通
常是使用表格Table来呈现的。
步骤102:建立包含多个预设模板的模板库,分别设置每一预设模板的匹配阈值及
优先级;
具体实现时,为了便于获取到邮件内容的信息提取及建档,需要通过对大量邮件样本
分析从而建立一包含多个预设模板的模板库。具体地,可以采用数据挖掘的方式,首先确定
有效的邮件样本,例如,定义一组跟客户信息有关的字段名称的关键词,通过对大量的询盘
邮件进行文本数据挖掘,选择出最有代表性的目标邮件样本;接着,通过分析每一个目标邮
件样本,提取出所有跟客户信息有关的字段名称(例如姓名、邮件地址、公司名称等),并以
所述字段名称生成一预设模板;最后,分别设置每一预设模板的匹配阈值及优先级。
即所述步骤102具体包括:
步骤S1:确定有效的邮件样本;
步骤S2:根据定义的字段名称对邮件样本进行分析,得到最有代表性的目标邮件样本;
步骤S3:提取所述目标邮件样本的字段名称,并根据所述目标邮件样本的字段名称生
成预设模板;
步骤S4:分别设置每一预设模板的匹配阈值及优先级。
其中,对于刚刚建立好的模板库,为了提高预设模板匹配的效率及准确率,需要设
置多个预设模板的匹配阈值及使用优先级。
所述设置每一预设模板的匹配阈值的步骤具体包括:
设置一取值范围数组,所述取值范围数组包括匹配阈值可能的多个数值;
将所有邮件样本与该预设模板进行匹配,记录所述取值范围数组中每一数值的匹配成
功次数;
根据所述匹配成功次数对所述取值范围数组中多个数值进行排序,选择中间
位置的数值作为所述预设模板的匹配阈值。
其中,在设置预设模板的匹配阈值时,考虑预先确定一匹配阈值可能的取值范围
数组,例如: [50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 100%],所述取值
范围数组中包括11个由大到小排序的数值,每一数值代表匹配阈值可能的取值;接着,再根
据大量邮件样本对取值范围数组与该预设模板进行匹配,匹配的方式可以是:根据预设模
板中的字段从所述邮件样本中查找对应的字段;计算查找到的所述邮件样本字段数与预设
模板的字段数比值,例如某一邮件样本字段数与预设模板的字段数比值为60%,即此时记录
60%的数值命中(即邮件样本与预设模板匹配成功)该预设模板的次数增加一次,依次类推,
通过大量邮件样本对取值范围数组与该预设模板进行匹配,可记录所述取值范围数组中每
一数值的匹配成功次数,例如表一所示,所述取值范围数组中每一数值的匹配成功次数关
系如下:
表一
取值范围数组 命中次数
50% 80
55% 75
60% 70
65% 65
70% 60
75% 50
80% 40
85% 25
90% 18
95% 15
100% 0
在得到所述取值范围数组中每一数值的匹配成功次数对应关系后,综合考虑预设模板
的命中率和准确率,取出所述取值范围数组中命中次数为0的数值(例如100%),根据所述匹
配成功次数对所述取值范围数组中多个数值进行排序,选择中间位置的数值(例如75%)作
为所述预设模板的匹配阈值。
在设置好预设模板的匹配阈值后,为了进一步提高预设模板匹配的效率及准确
率,还需要对预设模板的使用优先级进行设置,以确定与邮件内容进行匹配的预设模板使
用的先后顺序。
所述设置每一预设模板的优先级的步骤具体包括:
将所有邮件样本与该预设模板进行匹配,根据确定的匹配阈值记录所述预设模板的匹
配成功次数;
按照所述预设模板的匹配成功次数由高到低的顺序设置预设模板的优先级。
其中,对于模板库中多个设置好匹配阈值的预设模板,通过将所有邮件样本与该
预设模板进行匹配测试,即根据预设模板中的字段从所述邮件样本中查找对应的字段;计
算查找到的所述邮件样本字段数与预设模板的字段数比值,例如某一邮件样本字段数与预
设模板的字段数比值大于该预设模板的匹配阈值(例如75%),即此时记录该预设模板的命
中次数(即邮件样本与预设模板匹配成功)增加一次,依次类推。最后,按照所述预设模板的
匹配成功次数由高到低的顺序设置预设模板的优先级,即优先级高的预设模板优先进行匹
配。
步骤103:根据优先级依次从模板库中选择预设模板,每一预设模板具有一匹配阈
值;
具体实现时,可根据上述设置好的优先级依次从模板库中选择预设模板,即优先级高
的预设模板优先被选出进行匹配,匹配过程是按优先级顺序逐一进行匹配。
步骤104:根据预设模板中的字段从所述邮件内容中查找对应的字段;
具体实现时,邮件内容通常使用HTML语言标记,经过对邮件样本的分析,客户联系人资
料通常是使用表格Table来呈现的。根据预设模板中信息字段名称的关键词,通过定义一个
正则表达式,可从HTML文档的顶部逐级往下查找Table表格,从而从所述邮件内容中查找到
与预设模板中的字段对应的字段,例如姓名、邮件地址,国籍、联系电话等字段。
步骤105:判断所述邮件内容的字段数与预设模板的字段数比值是否大于所述匹
配阈值,若是,则确定该预设模板为目标模板;若否,则返回步骤103;
具体实现时,在步骤104中从所述邮件内容中查找对应的字段后,计算所述邮件内容的
字段数与预设模板的字段数比值,例如预设模板的字段数为10个,而从所述邮件内容中查
找对应的字段数为8个,则所述邮件内容的字段数与预设模板的字段数比值为0.8,若该预
设模板的匹配阈值为75%,则表示当前预设模板命中此邮件,即确定该预设模板为目标模
板;若所述邮件内容的字段数与预设模板的字段数比值小于或等于该预设模板的匹配阈
值,则表示当前预设模板未命中此邮件,返回步骤103对下一个预设模板进行匹配,直至某
一预设模板匹配成功。
需要说明的是,本发明的模板库按照优先级降序,依次选择预设模板进行匹配,只
要有一个预设模板匹配成功,则模板匹配流程结束。
步骤106:根据所述目标模板从所述邮件内容提取对应的字段及其字段值,根据提
取的字段及其字段值生成客户信息档案。
具体实现时,在确定目标模板之后,即可根据该目标模板中信息字段名称的关键
词,通过定义一个正则表达式,从所述邮件内容的HTML文档的顶部逐级往下查找Table表
格,提取到与目标模板中的字段对应的字段及其字段值,例如姓名:张三;邮件地址:XXX@
163.com;电话:XXXX;等等。为了防止表格多重嵌套而导致获取不到准确的数据,在提取过
程中遇到多重嵌套表格需要继续往下匹配,找到最小的符合要求的表格Table,再根据信息
字段名称,逐一获取字段值。
在从所述邮件内容提取对应的字段及其字段值之后,可将提取对应的字段及其字
段值存储于页面中,在接到操作命令输入,例如一键建档操作命令,可自动将提取对应的字
段及其字段值填充到建档页面对应的字段中,从而生成客户信息档案。
另,请参阅图3,是本发明提供的一种上述基于电子邮件信息的快速建档系统的功
能模块图, 所述系统可以包括多个由计算机程序代码组成的程序段,可以安装在电子设备
中,并由所述电子设备所执行。 所述系统包括:
获取单元10,用于获取电子邮件的邮件内容;
模板选择单元20,用于根据优先级依次从模板库中选择预设模板,每一预设模板具有
一匹配阈值;
字段查找单元30,用于根据预设模板中的字段从所述邮件内容中查找对应的字段;
目标模板确定单元40,用于当所述邮件内容的字段数与预设模板的字段数比值大于所
述匹配阈值时,确定该预设模板为目标模板;
信息提取及建档单元50,用于根据所述目标模板从所述邮件内容提取对应的字段及其
字段值,根据提取的字段及其字段值生成客户信息档案。
其中,所述系统还包括:连接于模板选择单元20的模板库生成单元60,用于建立包
含多个预设模板的模板库以及分别设置每一预设模板的匹配阈值及优先级。
所述模板库生成单元60具体用于:确定有效的邮件样本;根据定义的字段名称对
所述邮件样本进行分析,得到最有代表性的目标邮件样本;提取所述目标邮件样本的字段
名称,并根据所述目标邮件样本的字段名称生成预设模板.
所述设置每一预设模板的匹配阈值具体包括:
设置一取值范围数组,所述取值范围数组包括匹配阈值可能的多个数值;
将所有邮件样本与该预设模板进行匹配,记录所述取值范围数组中每一数值的匹配成
功次数;
根据所述匹配成功次数对所述取值范围数组中多个数值进行排序,选择中间
位置的数值作为所述预设模板的匹配阈值。
所述设置每一预设模板的优先级具体包括:
将所有邮件样本与该预设模板进行匹配,根据确定的匹配阈值记录所述预设模板的匹
配成功次数;
按照所述预设模板的匹配成功次数由高到低的顺序设置预设模板的优先级。
本发明所述的电子设备可以是不同类型的智能型电子设备,例如,服务器、电脑、
智能手机、平板电脑、掌上电脑以及移动互联网设备等。所述电子设备包括:至少一个收发
器,至少一个处理器,例如CPU,至少一个存储器及系统总线。所述系统总线用于实现这些组
件之间的连接通信。所述存储器存储有程序代码,例如所述基于电子邮件信息的快速建档
系统,及各个应用程序运行中产生及使用的数据,且所述处理器可通过系统总线调用所述
存储器中存储的程序代码及数据以执行相关的功能从而实现所述基于电子邮件信息的快
速建档方法。
相比于现有技术,本发明基于电子邮件信息的快速建档方法及系统通过设置多个
预设模板的匹配阈值及使用优先级,提高了预设模板匹配的效率及准确率,极大地提高了
客户信息建档的工作效率。
这里本发明的描述和应用是说明性的,并非想将本发明的范围限制在上述实施例
中。这里所披露的实施例的变形和改变是可能的,对于那些本领域的普通技术人员来说实
施例的替换和等效的各种部件是公知的。本领域技术人员应该清楚的是,在不脱离本发明
的精神或本质特征的情况下,本发明可以以其它形式、结构、布置、比例,以及用其它组件、
材料和部件来实现。在不脱离本发明范围和精神的情况下,可以对这里所披露的实施例进
行其它变形和改变。