《机密信息识别方法、信息处理装置和程序.pdf》由会员分享,可在线阅读,更多相关《机密信息识别方法、信息处理装置和程序.pdf(21页珍藏版)》请在专利查询网上搜索。
1、(10)申请公布号 CN 103136189 A(43)申请公布日 2013.06.05CN103136189A*CN103136189A*(21)申请号 201210483638.6(22)申请日 2012.11.23258813/2011 2011.11.28 JP221514/2012 2012.10.03 JPG06F 17/27(2006.01)(71)申请人国际商业机器公司地址美国纽约(72)发明人吉滨佐知子(74)专利代理机构北京市中咨律师事务所 11247代理人于静 张亚非(54) 发明名称机密信息识别方法、信息处理装置和程序(57) 摘要识别服务器等积蓄的记录中包含的机密信息。
2、。一种信息处理装置,包括:簇部214,从记录读出消息,应答消息的类似性将消息进行簇化分;可变部特定部216,在信息间指定可变的部分;属性决定部218,使用预先设定的规则尝试决定可变的部分的机密属性;属性推定部220,在存在根据规则使机密属性不能决定的部分的场合,使用消息内的出现位置的对应关系决定,或使用机密属性决定的部分和机密属性不能决定的部分的共现关系,推定上述机密属性不能决定的部分的机密属性。(30)优先权数据(51)Int.Cl.权利要求书2页 说明书11页 附图7页(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书2页 说明书11页 附图7页(10)申请公布号 CN 1。
3、03136189 ACN 103136189 A1/2页21.一种识别信息处理装置积蓄的记录的机密信息的方法,上述方法包括以下步骤:从记录读出关于上述消息处理装置的工作的消息,与上述消息的类似性关联将消息进行簇划分;在上述簇包括的消息中指定消息间可变的部分;使用预先设定的规则尝试决定上述可变的部分的机密属性;在存在根据上述规则使机密属性不能决定的部分的场合,从上述机密属性被决定的部分推定决定上述机密属性不能决定的部分的机密属性。2.如权利要求1所述的方法,还包括以下步骤:应答被决定的上述机密属性,用其他显示置换上述消息内的可变的部分的显示,生成安全记录。3.如权利要求1所述的方法,推定决定上述。
4、机密属性的步骤还包括以下步骤:使用上述消息内上述机密属性不能决定的部分的出现位置和上述机密属性被决定的部分的出现位置的对应关系来推定。4.如权利要求1所述的方法,还包括以下步骤:从上述机密属性被决定的部分和上述机密属性不能决定的部分的共现频度推定上述机密属性不能决定的部分的机密属性。5.如权利要求1所述的方法,还包括以下步骤:使用构成上述消息的文字、字符、空间的编辑距离来数值化上述消息的类似性。6.如权利要求1所述的方法,上述可变的部分是依据构成上述消息的语言、串列、或以正则表达式给予的规则而记述的编码信息。7.如权利要求1所述的方法,上述规则,对上述部分的每个语义,将依据应该为机密的语言、串。
5、列、或以正则表达式给予的规则而记述的编码信息分类登记。8.如权利要求3所述的方法,还包括:使用上述消息内上述机密属性不能决定的部分的出现位置和上述机密属性被决定的部分的出现位置的对应关系来推定;关于上述簇包含的上述消息的可变的部分检查对出现位置和机密属性对应附加的模板;作为上述模板的机密属性决定上述模板的相同的出现位置的部分。9.如权利要求1所述的方法,推定上述机密属性决定的步骤包括以下步骤:基于应该为机密的部分和机密属性不能决定的部分的共现频度的条件,机密地设定上述机密属性不能决定的部分的机密属性。10.如权利要求1所述的方法,包括以下步骤:向上述规则追加登记并学习依据推定而决定机密属性的上。
6、述部分的数据。11.如权利要求1所述的方法,推定决定上述机密属性的步骤,关于上述模板的上述可变部分在相同的簇的消息中任一个至少包含1个机密部分的情况下,作为机密推定上述模板的上述可变部分的机密属性。12.如权利要求1所述的方法,用其他显示置换上述消息内的可变的部分的显示,生成安全记录的步骤包括以下步骤:选择保持上述可变的部分具有的语义的其他显示来置换。权 利 要 求 书CN 103136189 A2/2页313.如权利要求1所述的方法,包括以下步骤:在上述消息内的源的部分的显示相同的情况下,选择相同的其他显示。14.如权利要求2所述的方法,包括以下步骤:仅向上述信息处理装置外部传送上述安全记录。
7、并输出。15.一种识别记录的机密信息的信息处理装置,上述信息处理装置包括:簇部,从记录读出关于上述消息处理装置的工作的消息,与上述消息的类似性关联将消息进行簇划分;可变部特定部,在上述簇包括的消息中指定消息间可变的部分;属性决定部,使用预先设定的规则尝试决定上述可变的部分的机密属性;属性推定部,在存在根据上述规则使机密属性不能决定的部分的场合,从上述消息内上述机密属性不能决定的部分的出现位置和上述机密属性被决定的部分的出现位置的对应关系推定,或从上述机密属性被决定的部分和上述机密属性不能决定的部分的共现频度推定上述机密属性不能决定的部分的机密属性。16.如权利要求15所述的信息处理装置,还包括。
8、:消息解析部,上述记录读出上述消息,按上述消息的类似性的顺序将上述消息归类;显示置换部,应答被决定的上述机密属性,用其他显示置换上述消息内的可变的部分的显示,生成安全记录;其中,上述消息解析部使用构成上述消息的文字、字符、空间的编辑距离来数值化上述消息的类似性。17.如权利要求15所述的信息处理装置,上述可变的部分是依据构成上述消息的语言、串列、或以正则表达式给予的规则而记述的编码信息。18.一种装置能够实行的程序,用于信息处理装置实行权利要求114中任意1项记载的方法。权 利 要 求 书CN 103136189 A1/11页4机密信息识别方法、 信息处理装置和程序技术领域0001 本发明涉及。
9、识别机密信息的技术,更详细地,涉及指定在信息处理装置积蓄的记录中包括的机密信息的技术。背景技术0002 近年来,各种信息经由因特网、局域网、LAN等的网络来共享,信息的利用性和访问性提高。为了在因特网等中管理信息,和对信息的利用者提供信息,利用管理应该提供内容等的服务器。服务器从经由网络连接的客户端装置接受访问,进行请求的内容的提供、利用者登记、个人信息的登记/变更等的处理。0003 作为与网络连接的服务器,使用能够通过SMTP接收电子邮件的发送和接收的邮件服务器、HTTP协议进行Web服务,因此,除了安装CGI等的Web服务器、FTP服务器等之外,还可列举出管理各种数据,应答访问请求并提供数。
10、据的数据库服务器等。这些服务器,每次实行处理时,积蓄访问的用户的信息、认证结果、为了处理而发送的数据内容、实行结果等。积蓄的信息,根据服务器的类型有不同内容,包括:访问源的IP地址、访问源的域名、被访问的日期和时刻、被访问的文件名、链接源的页的URL、访问者的Web浏览器名和/或OS名、处理花费的时间、接收字节数、发送字节数、服务状态编码等。以下,将通过服务器等的信息处理装置的工作积蓄的、积蓄工作相关的信息的文件仅作为记录来参照。0004 服务器生成的记录,如上述,高密度地包含利用值高的信息,还有,通过记录分析,能适用于服务器的例如分散DoS攻击的所谓恶意攻击的履历、不正当访问的履历、访问内容。
11、的统计分析等的市场分析等。0005 还有,记录涉及近年来屡次发生的服务器的不正当访问等,通过横向地分析由多个组织取得的记录,还能够用于正确地掌握网络上的攻击者的时系列的及目标的推移的信息。然而,由于记录包含上述网络的基本信息和/或个人信息,在记录分析取决于外部分析者的情况下,和/或,在记录跨越多个域的情况下,即使是有可靠性的域也可能产生因记录公开导致的泄漏风险。0006 在图10,例示地示出使用Apache2.0安装的Web服务器的访问记录1000及FTP服务器的事务记录1100。再者,图10中,关于网络信息和/或私人信息、端口信息,由于隐藏的目的,用星号“”置换表示。在如图10所示的记录中,。
12、除了服务器的固定IP地址、使用的端口号、所谓目录分层结构的服务器的基础信息之外,还包含用户ID的所谓私人信息和/或密码等机密性的极高的信息。然而,在有登记多种信息的可能性的记录中,在任意位置可包含机密性高的信息,存在根据记录的内容而不同这样的问题。0007 例如,如图10所示的记录原样提供到外部,因为向外部提供企业和组织的网络信息和服务器信息、个人信息等,所以可生成其自身、企业风险。还有,在记录被有恶意的攻击者泄露情况下,企业积蓄的高附加值的信息被破坏,还考虑到由于黑客被盗用的忧虑,以及,被认为是DoS攻击等的目标。0008 因此,对利用服务器的企业和组织来说,将记录按其原样提供给外部分析,作。
13、为能说 明 书CN 103136189 A2/11页5得到有用的信息的代价,产生机密泄漏、隐私信息泄漏、由向服务器的不正当访问的信息泄漏等高的风险。根据这样的理由,即使以解析向服务器的访问履历,反映服务器的功能为目的,向记录的第三者的公开时,存在因秘密保持契约而不能提供的高的屏障,成为灵活的记录解析的时候的阻碍的主要原因。还有,即使从记录信息特定了机密性高的信息,若通过访问机密性高的信息来一并置换,存在访问者的相同性和访问的数据的相同性等失去的情况,为了隐藏记录的信息,优选地能识别出原来的数据的属性和相同性等。0009 至此,已知判断记录的机密度的方法,例如,在特开2009-116680号公报。
14、(专利文献1)中记载了通过机器学习高精度地判断数据类型的技术,其中,关于向计算机输入输出的数据简便且高精度地检测机密性的有无等的数据类型,以提供有助于数据的适当管理的技术为目的,包括:输入输出数据的读入装置;取得输入输出数据中包括的字符串的数据内容取得装置;将字符串、及其中包含的预定的字符群作为特征而提出的特征提出装置;在外存储器中,设置使用预先数据类型已知的教师数据并参照机器学习的数据类型学习结果来判断特征的数据类型的数据类型判断装置。0010 专利文献1记载的方法也能判断记录内的信息的机密性。然而,由于利用教导数据,对于教导数据不包括的信息则不能进行机密性的判断,存在产生机密信息的泄漏的忧。
15、虑。此外,根据正则表达式和单词列表检测机密字的技术,在正则表达式的类型的登记和单词列表的登记等、数据结构的工作量很大和在单词遗漏等的方面有限制,因此不能说是十分有效。还有,关于记录,考虑事先定义完全的方案,而且还据此将机密信息匿名化,但是,因为制作的记录的多样性,完全制作多种多样的方案也不现实。还有,有可能补充单词列表和方案,甚至是罕见的名字,此外,需要对应于用户ID、密码的打字错误和输入位置的错误等,登记错误输入的信息的记录。0011 【现有技术文献】0012 【专利文献1】特开2009-116680号公报发明内容0013 本发明鉴于上述的现有技术的问题而做出,作为课题提出一种机密信息识别方。
16、法、信息处理装置、和程序,通过识别记录内包括的机密信息,不损坏记录的有用性,能够扩大记录的利用性。0014 本发明为了解决上述课题,识别记录内的个别信息是否为机密信息。在记录内的个别信息的机密性的判断,根据消息的类似性将记录的消息进行簇划分,比较各簇包括的消息,由此从其差别识别信息的固定部分和可变部分。并且关于可变部分的各个,参照在判断规则中登记的语言、串列或编码信息判断机密度。并且,根据在判断规则中登记的语言、串列或编码信息判断为机密的语言、串列、编码信息出现的位置,作为该簇内的消息中的、应该为机密的部分来判断。也向该簇内的其他消息传播这个判断。即,在该簇内的其他消息中,应该为机密部分所在的。
17、字符串,即使根据判断规则没判断为机密的情况,也能判断为机密。0015 并且,在该簇内的其他消息中,通过在判断规则中登记应该为机密部分所在的字符串,在同样的字符串在其他的消息中出现的场合,也能判断为机密。0016 机密区域和被判断的区域,按适合各个的信息的形式用其他显示置换。置换,若完说 明 书CN 103136189 A3/11页6全掩蔽信息,则如图10表示地信息量变少,作为记录的有用性显著地下降,因此尽可能用同等的显示置换与原来的信息相同的类型或具有意义一致的语义。由于用与原来的信息相同的类型或意义一致的显示置换,能判断信息的类型,并且能用可以相同的形式置换。例如,如果是人名,其他的名字,例。
18、如,“Alice“Cathy“,“Bob“David“所谓别名匹配。0017 还有,例如IP地址等时,留下IP地址的网络结构的特定部分,将其他的部分用具有构成私人IP地址等的正则表达式给予的一定的规则的编码信息等置换,由此能掩蔽包含推定的部分的机密信息。0018 并且,本发明中,关于在判断规则中没登记的信息,使用在消息中的出现位置、机密语的共现关系从判断规则推定机密属性不能决定的区域的机密属性,由此一边记录的机密区域不泄露到外部,一边能够改善记录的利用性。附图说明0019 图1是表示本实施方式的信息处理系统100的实施方式的图。0020 图2是本实施方式中使用的安全记录生成部200的功能块图。。
19、0021 图3是表示本实施方式中认为是解析对象的记录300的图。0022 图4是表示本实施方式的判断规则224中登记的语言、串列、或正则表达式等可变部的列表的图。0023 图5是表示本实施方式的记录解析方法的流程图及记录解析的数据形态的图。0024 图6是图5后续的处理的流程图。0025 图7是图6中说明的机密度推定处理的流程图。0026 图8是表示对作为对象的记录810对应附加本实施方式中使用的机密度判断形态800的图。0027 图9是表示本实施方式的显示置换部222实行的置换处理的实施方式的图。0028 图10例示地示出使用Apache2.0安装的Web服务器的访问记录1000及FTP服务。
20、器的事务记录1100的图。具体实施方式0029 以下,用实施方式说明本发明,但是,本发明不限于后述的实施方式。图1表示适用本实施方式的机密信息识别方法的信息处理系统100的实施方式。服务器功能部120与网络110连接,应答来自与网络110连接的客户端装置112的请求,对客户端装置112提供Web服务、存储服务、检索服务等。0030 服务器功能部120包含:服务器装置122和数据库124,在所述数据库124中,通过服务器装置122安装的数据库应用等管理数据。除了管理应该提供的内容以外,数据库124还包含利用者登记、利用者信息变更、访问控制信息等的安全性信息。0031 在图1表示的服务器装置122。
21、可通过刀片服务器、机架固定件服务器、或大型机等的信息处理装置构成,能通过WINDOWS(注册商标)200X、UNIX(注册商标)、LINUX(注册商标)等的操作系统来控制。还有,服务器装置122处理来自客户端装置112的检索请求,尽可能向客户端装置112返回处理结果,能作为用于分散处理的代理服务器、网关服务器等安装,也能作为Web服务器安装。说 明 书CN 103136189 A4/11页70032 客户端102能作为包括所谓的单核处理器或双核处理器的微处理器、RAM、硬盘驱动器等的个人计算机、工作站来安装。还有,客户端装置112也能作为PDA、智能手机来安装。客户端装置112能通过WINDO。
22、WS(注册商标)、UNIX(注册商标)、LINUX(注册商标)、MAC OS(注册商标)、ANDOROID(注册商标)等任何操作系统来控制。0033 在客户端装置112和服务器功能部120之间,经由网络110,能使用TCP/IP等的事务协议连接。还有,在客户端装置112和服务器装置122之间的数据事务能使用RMI(Remote Method Invocation:远程方法调用)、RPC(Remote Procedure Call:远程过程调用)、EJB(Enterprise Java Beans)、CORBA(Common Object Broker Architecture:公共对象代理架构。
23、)等的分布式处理环境来构成。0034 其他的实施方式中,也能构成为,在服务器装置122和客户端装置112之间使用HTTP协议,在客户端装置112侧安装Web浏览器,在服务器装置122侧安装CGI(Common Gateway Interface:公共网关接口)、Servlets、数据库应用等的服务器程序。此外,其他的实施方式中,也能构成为,在服务器装置122侧安装FTP服务器应用,将客户端装置112作为FTP客户端,进行数据事务。0035 服务器装置122在服务器装置122或数据库124的适当的存储空间内保持记录126。在本说明书中,所谓记录126,仅作为记录能参照通过服务器等的信息处理装置的。
24、工作积蓄的、关于信息处理装置的工作积蓄的消息的文件,特定的实施方式中,例如记录126,在与客户端装置112之间进行的事务中,逐次记录生成表示服务器装置122的工作的信息。0036 记录126中,虽然信息有高附加值,但是大多情况下,因为用文本基础来记录,能用各种方法从外部访问,但是,高度限定的企业团体的负责者以外的人访问纯粹的记录,从安全性的观点是不利的。因此,本实施方式中,对服务器功能部120,不直接访问记录,生成遮蔽记录含有的重要的基本信息和个人信息的安全记录,在服务器装置122安装访问该安全记录的功能装置。还有,在本说明书中,所谓安全记录是以根据本发明识别记录126包含的机密信息,遮蔽或置。
25、换机密信息,不显示机密信息的方式修正的数据文件。0037 图2是为了从记录识别机密性高的区域而在本实施方式使用的安全记录生成部200的功能块图。如图2表示的安全记录生成部200能使用服务器装置122可以实行的程序,例如使用C+,Java(注册商标),Perl,Ruby,PHP等制作,通过与加密等的方式不同的方式,控制向记录的访问,例如能作为过滤器组件等向服务器装置122安装。0038 在图2表示的安全记录生成部200,对于服务器装置122生成的记录126,使用适当的输入接口,从记载记录的存储空间读出,识别隐藏性高的信息,适用各种的处理作为机密信息遮蔽。遮蔽机密信息的数据文件看作是安全记录126。
26、a,能经由输出接口等输出。在记录126的读出时,在密码设定记录的场合,能输入准备的密码和解密密钥以调用安全记录生成部200。还有,输出安全记录126a的形式,不做特别限定,但是,包括:向桌面画面的显示、HTML、XML等的结构化文件的作成,文本文件的作成,向制作的文件的硬盘驱动器等的外部存储介质的收置,经过网络的发送等。再者,图2中,为了说明的方便,省略表示输入输出接口。0039 使用图2,进一步说明本实施方式的安全记录生成部200。安全记录生成部200构成为包括:机密信息识别部210和显示置换部230。机密信息识别部210提供识别在记录126中存在的机密信息的功能,显示置换部230提供用其他。
27、的文字等置换机密信息识别部说 明 书CN 103136189 A5/11页8210识别的记录126的显示的功能。0040 机密信息识别部210包含:消息解析部212、簇部214、可变部特定部216。消息解析部212构成为包括对记录进行语法解析的解析程序,例如根据模板的比较等将记录126包含的信息的文章相似性量化,考虑以后的处理性,按相似性的顺序将消息归类。簇部214使用相似性对消息进行簇分类。可变部特定部216,通过消息互相的比较,在特定的簇包括的消息的区域中指定作为固定不变化的区域的固定部及作为每个消息变化的区域的可变部,在簇被归属的消息中识别应该作为变量处理的可变部的位置。以下,在消息中的。
28、区域中,将每个消息变化的区域作为可变部来参照,代替地将消息不变化的区域作为固定部来参照。0041 此外,机密信息识别部210还包括:属性决定部218和属性推定部220。属性决定部218参照判断规则224判断在信息中作为可变部被识别的字(语)、串列、具有正则表达式给予的一定的规则的编码信息等的机密性相关的属性。例如,检索是否作为可变部识别的区域的存在的语言、串列、正则表达式在判断规则224中登记,现在判断的可变部,在用判断规则机密地登记时,该可变部作为机密信息遮蔽,或作为应该置换的变量来记录。0042 还有,属性推定部220关于判断规则224中未登记的变量进行推定其机密性的判断。推定判断的第1实。
29、施方式中,与依据判断规则224判断为机密的可变部在消息中的位置相同的变量,推定具有与根据判断规则224判断为机密的可变部相同的机密水平。还有,推定判断的第2实施方式是,使用判断为机密的可变部和属性不明的可变部的共现关系,根据共现关系的形态推定属性不明的可变部的机密水平的实施方式。0043 本实施方式的属性推定部220,通过不是仅使用判断规则224,还使用消息内的语法解析的结果进行机密水平的推定,不仅根据在判断规则224中登记的语言、串列、正则表达式,还能够根据判断规则224进行机密水平不明的语言、串列、正则表达式(以下,本实施方式中,参照不明部。)的处理。0044 显示置换部230,对判断或推。
30、定为机密的可变部,原样保持可变部的语义,用不同的语言、串列、或正规化表示的所谓其他显示置换原来的显示。所谓用语“保持语义”意味着选择与可变部的意义内容或概念内容相同或类似的置换语。根据示例,在人名时,置换为:“Alice“Cathy“,“Bob“David“等。还有,在所谓IP地址的正则表达式时,置换为:“192.168.1.1”“192.1.1.2”,“10.1.5.6”“167.5.7.8”等的编码信息。还有,关于地名、陆地标志名、端口号、其他的可变部等,也用同样或类似的置换语进行置换的处理。0045 还有,在端口号和邮件地址时,即使使用了假名和不同的数值,也很有可能存在使用该邮件地址的第。
31、三者,服务器也有可能使用实际置换后的端口。因此,本实施方式中,在邮件地址和端口号等的信息时,留下邮件地址和端口号已知的程度的痕迹信息,除此之外能将原来的信息用数值以外的字符、星号、记号、其余适当的符号语言来置换。0046 另外,也能使用加密和其他的置换方法等,到现在为止知道的任何匿名化方法和隐藏方法。还有,在可变部的变换时,在可变部的语言和值相同而得到原来的语言等的出现履历的一致性的情况下,优选地,分配同样的置换语和值。0047 根据显示置换部230判断为机密的可变部被置换之后,能够输出作为以安全记录126a表示的数据文件。显示置换部230制作的安全记录126a,经由适当的输出接口,能作为文件。
32、等的传送介质来发送,能容纳于硬盘驱动器、USB存储器、软盘等的可移动性的记录说 明 书CN 103136189 A6/11页9介质中并输出。0048 如以上那样生成的安全记录,在因为暂时进行记录解析而由外部企业访问的情况下,向外部企业提供文件的情况下,因为能最低化企业风险的发生,所以均能够提高记录的利用性,实现网络系统的改善。再者,在访问纯粹的记录时,由于使用其他的安全性高的应用,能确保向记录的访问性和记录解析的隐藏性,但是用于访问纯粹的记录的应用不是本申请的主旨,所以省略详细的说明。0049 图3表示本实施方式中认为是解析对象的记录300。如图3表示的记录300包括:人名310、城市名320。
33、、电子邮件地址330。还有,记录300示例的信息,除了登录信息以外,还包括与特定的人名相关,与Tokyo、Osaka等的本地信息和邮件地址的更新相关的信息。还有,也包含一般认为是日本人名的串列的“Sachiko“340。在判断规则224中包含这些个人信息和个人信息不知晓的信息、或与个人信息相关并应该决定为机密信息等全部,要考虑记录的类型的多样性、用于判断规则224作成的程序设计工作量,因此不现实。0050 即使增加若干单词登记,例如根据印度/欧洲语言的人名“Alice“310和“Bob“是否登记的判断规则224,如日本人名的“Sachiko“,分类为其机密水平不明的不明部,不能保证充分的隐藏性。
34、。本实施方式,由于通过消息结构的解析关于不明部也推定其机密水平,来改善记录300隐藏性。0051 图4表示本实施方式的判断规则224中登记的语言、串列、或正则表达式等可变部的列表。判断规则224,对可变部的每个记录作为字段对应附加属性与语言/串列/正则表达式等的区域显示。属性是与机密部的语义相对应的类别,置换语能从分类为同样的属性的语言选择。还有,IP地址,由正则表达式给予,如果置换IP地址,能置换例如从私有地址中残留本来的IP地址的一部分的形式的显示。0052 此外,在图4,作为属性,也登记邮件地址,在邮件地址的场合,仅随机地置换比左面的串列不能排除实际的邮件地址的可能性,例如,对于串,在能。
35、识别“”(星号)和“!”(感叹号)等的邮件地址的范围内,能匿名化。0053 另外,在判断规则224中,也能登记非机密信息。非机密信息是判断规则224中不可避免的应该录入的数据,用途在于要求将基于解析器的语法解析效率化,能登记非机密信息。0054 使用图5的流程图及记录解析的数据形态,说明本实施方式的机密信息识别处理及安全记录生成处理。图5的处理,从步骤S500开始,在步骤S501,消息解析部212以消息为单位读入记录数据,对每个消息分割记录,对每个消息计算编辑距离。在步骤S502,使用编辑距离按照类似度对消息进行归类。在步骤S502得到的消息结构510,基于消息的编辑距离生成与类似度相应归类的。
36、结构,在图5表示的实施方式中,将用户概况更新的消息和登录消息识别为类似度不同的消息。消息结构510中,例示的表示消息中的可变部512、514。此外,“User Profile for”和“is updated”等的字符串是固定部。0055 若详细地说明,由句子“Use Profile for”和“is updated”夹着的语言“Alice”是个人名,“Tokyo”、“”分别是城市名、电子邮件地址,与表示各值的变量名一起识别为可变部。若参看消息结构510可以理解,类似度高的信息的可变部具有按文章结构中同样的顺序出现的特征。0056 再次,若使用流程图说明,在步骤S503,簇部214使用编辑距离。
37、将归类后的消息簇说 明 书CN 103136189 A7/11页10化为类似度高的消息的组。簇化对应于由归类的类似度的排序的程度,不一定是必要的处理,但是由于以簇为单位进行可变部、固定部的识别,能提高可变部的识别性、识别精度。在图5,对通过步骤S503处理生成的消息结构510的簇化的处理,表示簇结构520。说明的实施方式中,识别包含用户概况更新的消息的簇、和包含登录信息的簇。0057 并且,在步骤S503,作为模板结构530登记形成簇的消息的固定部及可变部的结构,对消息生成与各簇的可变部=变量存在的位置相关的模板,在适当的工作用的存储空间中登记。这时,消息的簇,例如,能作为簇识别值,编辑距离范。
38、围,模板识别值等附加索引,确保判断规则224的适当的存储区域,能预先登记簇的索引。0058 模板结构能对每个处理生成,但是关于同样的服务器功能部120,大多数场合,使用同样的消息。因此,一旦生成簇的索引之后,可如下的方式来组装:关于簇识别值作为信息模板在判断规则224中预先登记,通过读入处理对象的消息识别从编辑距离应该分类簇,立刻评价处理对象的消息中的可变部的机密度。0059 在图5表示的模板结构530中,可变部表示为“,但是,图5的模板结构530的可变部的显示是例示的,不意味着附加结构化文件的标签来识别。在模板中的可变部的识别,由可变部特定部216负责,例如能通过识别从前头开始的词数、空格的。
39、数、变量的两个引号之间等,特定的目的的程序来适宜地选择。步骤S504,作为用于判断规则224的检查的检索钥匙设定识别的可变部,从点A向下面的处理推进处理。0060 图6是图5中后续的处理的流程图。图6的处理,在步骤S601,通过由属性决定部218检索判断规则224,判断可变部的机密度。此后,在步骤S602,将检索的结果得到的机密度,作为当前判断的可变部的位置的可变部的机密度,与模板关联。关联对模板进行语法解析,也能作为语言/串/正则表达式的阶层结构、XML等的结构化文件来关联,更单纯作为模板识别值,从前头开始的词数,机密,从前头开始的词数,非机密,从前头开始的词数,机密等的表登记。0061 在。
40、图6表示,属性决定部218使用模板判断可变部的机密度的结果。消息结构610中,在判断规则224中登记“User Profile for”之后的“Alice“和“Bob“,判断其是机密的。另一方面,“Sachiko“,在说明的实施方式中,不在判断规则224中登记,属性决定部218作为检索的结果还值“false“。0062 这个状况,对登录消息也同样。若在步骤S602属性决定部218返回值=false,则安全记录生成部200调用属性推定部220。属性推定部220,在步骤S603,判断机密属性不明的可变部的模板上的位置,将对模板分配的该出现位置的机密度设定为属性决定部218应该分配的机密度,用于后述。
41、的显示置换部230的处理。关于这个处理说明了模板结构620。0063 在模板结构620,用户概况更新模板中,示出的可变部的位置已经作为机密属性登记,即使与的位置相当的不明部出现,也能设定为该不明部的机密属性=机密。此外,关于登录模板例示的表示的位置的不明部,设定为其机密属性=机密。0064 还有,属性推定部220,关于消息中存在的任意位置的可变部,在步骤S604,使用出现位置以外的信息进行任意的位置的可变部的机密度类推处理。机密度类推处理更详细地后述,但是,使用在消息中的机密部的存在的有无或与机密部的共现关系进行关于消息中任意的位置的不明部推定其机密属性的处理。步骤S604的处理后,在步骤S605,更新在特定的消息内机密水平不明的不明部的机密水平的设定,使处理进行至显示置换部230的说 明 书CN 103136189 A10。