《ANDROID应用相似性快速检测方法.pdf》由会员分享,可在线阅读,更多相关《ANDROID应用相似性快速检测方法.pdf(12页珍藏版)》请在专利查询网上搜索。
1、10申请公布号CN104063318A43申请公布日20140924CN104063318A21申请号201410288712822申请日20140624G06F11/3620060171申请人湘潭大学地址411105湖南省湘潭市雨湖区羊牯塘街道湘潭大学72发明人程戈张云74专利代理机构北京卓恒知识产权代理事务所特殊普通合伙11394代理人唐曙晖刘明芳54发明名称ANDROID应用相似性快速检测方法57摘要本发明涉及一种ANDROID应用相似性快速检测方法,包括S1采用ANDROIDAPI中的包名,类名,变量名与方法名作为关键词;S2获取ANDROID应用样本集;S3反编译ANDROID应用样。
2、本集中的所有样本,获取其DALVIK字节码文件;S4依据逆文本频率指数算法,在ANDROID应用样本集中的所有样本的DALVIK字节码文件中计算关键词的IDF;S5反编译待比较ANDROID应用,获取其DALVIK字节码文件;S6统计每一待比较ANDROID应用的DALVIK字节码文件中IDF非零的关键词的词频;S7依据TFIDF算法,计算每一个待比较ANDROID应用的DALVIK字节码文件中所有关键词的TFIDF权重;S8依据每一个待比较ANDROID应用的DALVIK字节码文件中所有关键词以及关键词的TFIDF权重,计算每一个待比较ANDROID应用的信息指纹;S9依据待比较ANDROI。
3、D应用的信息指纹比较它们的相似性。51INTCL权利要求书2页说明书6页附图3页19中华人民共和国国家知识产权局12发明专利申请权利要求书2页说明书6页附图3页10申请公布号CN104063318ACN104063318A1/2页21ANDROID应用相似性快速检测方法,所述方法包括以下步骤1、采用ANDROIDAPI中的包名,类名,变量名和方法名作为关键词;2、获取ANDROID应用样本集;3、反编译ANDROID应用样本集中的所有样本,获取其DALVIK字节码文件;4、依据逆文本频率指数INVERSEDOCUMENTFREQUENCY,缩写IDF算法,在ANDROID应用样本集中的所有样本。
4、的DALVIK字节码文件中计算关键词的IDF;5、反编译待比较ANDROID应用,获取其DALVIK字节码文件;6、统计每一个待比较ANDROID应用的DALVIK字节码文件中IDF非零的关键词的词频TERMFREQUENCY,缩写TF;7、依据TFIDF算法,计算每一个待比较ANDROID应用的DALVIK字节码文件中所有关键词的TFIDF权重;8、依据每一个待比较ANDROID应用的DALVIK字节码文件中所有关键词以及关键词的TFIDF权重,计算每一个待比较ANDROID应用的信息指纹;和9、依据待比较ANDROID应用的信息指纹比较它们的相似性。2根据权利要求1的方法,其中在所述步骤1。
5、中,ANDROIDAPI包括GOOGLE发布的所有版本的API;和/或在所述步骤1中,ANDROIDAPI的包名包含由符号“”连接的多个字段,将整个包名作为关键字或将每个字段作为关键词;优选的是,将每个字段作为一个关键词。3根据权利要求1或2的方法,其中在所述步骤2、3和4中,ANDROID应用样本集是指在GOOGLEPLAY市场或是第三方市场上发布的所有ANDROID应用,或是其中的一部分应用;优选的在GOOGLEPLAY市场上对于每一个人工分类中的最小ANDROID应用子类选取固定数量的ANDROID应用作为样本集。4根据权利要求13中任何一项的方法,其中在所述步骤3和5中,DALVIK字。
6、节码格式取决于其反编译工具;优选的是采用BAKSMALI作为反编译工具,该工具将ANDROID代码反编译为以SMALI格式的DALVIK字节码文件。5根据权利要求14中任何一项的方法,其中在所述步骤4和6中,将关键词转化为反编译工具决定的DALVIK字节码格式,优选的是将关键词转化为SMALI格式,和/或在所述的步骤4中,一个关键词W的IDF按照以下公式计算其中D表示ANDROID应用样本集中样本的个数,DW表示ANDROID应用样本集中包含关键词W的DALVIK字节码文件个数。6根据权利要求15中任何一项的方法,其中在所述步骤7中,一个待比较ANDROID应用中任何一个关键词的权重由该关键词。
7、在该ANDROID应用的DALVIK字节码文件中出现的频率TF和步骤4中计算出的该关键词的逆文本频率指数IDF共同决定;优选的是,一个待比较ANDROID应用中某一个关键词的权重TFIDF。7根据权利要求16中任何一项的方法,其中在所述步骤8中,一个ANDROID应用的信息指纹是由该应用DALVIK字节码文件中的关键词的哈希值和关键词的权重共同决定。8根据权利要求17中任何一项的方法,其中在步骤8中,选取一个ANDROID应用权利要求书CN104063318A2/2页3DALVIK字节码文件中权重N以上的关键词,使用哈希算法对这些关键词进行哈希运算;优选的是,使用MD5算法计算每个关键词的哈希。
8、值,则ANDROID应用信息指纹等于其所有权重为N以上的关键词的哈希值之和,进一步优选的是,如果一个ANDROID应用有K个权重大于N关键词构成集合SW1,W2,WK则该ANDROID应用的信息指纹为MD5W1MD5W2MD5WK,其中MD5W1,MD5W2,MD5WK分别表示该ANDROID应用的关键词集合S中K个权重大于N关键词的MD5哈希值。9根据权利要求17中任何一项的方法,其中在步骤8中,采用相似哈希SIMHASH算法计算ANDROID应用的信息指纹;进一步优选的是,如果一个ANDROID应用有K个权重不为零的关键词集合SW1,W2,WK,每个关键词对应的权重为WEIGHT1,WEI。
9、GHT2,WEIGHTK,采用MD5算法计算关键词的哈希值,对应的关键词的哈希值集合为MD5SMD5W1,MD5W2,MD5WK,则,使用包括如下步骤的相似哈希SIMHASH算法计算ANDROID应用的信息指纹A1对于ANDROID应用的N位信息指纹,设置N个实数,用R1,R2,RN表示,并将它们的值初始化为零;A2从ANDROID应用有K个权重不为零的关键词集合SW1,W2,WK中选取关键词WT;A3从该ANDROID应用关键词的哈希值集合中选取该关键词对应的哈希值MD5WT;A4遍历MD5WT的N位哈希值,如果其第I位,哈希值为0,则将对应的第I个实数RI减去该关键词WT对应的权重WEIG。
10、HTT,如果其第I位,哈希值为1,则将对应的第I个实数RI加上该关键词WT对应的权重WEIGHTT;A5将关键词WT从该ANDROID应用关键词集合SW1,W2,WK移除;A6如果该ANDROID应用关键词集合不为空,转至步骤A2;和A7对于该ANDROID应用的N位信息指纹,如果RI0,则第I位值置为1,否则置为0。10根据权利要求19中任何一项的方法,其中在所述步骤S9中,ANDROID应用的相似性取决于其信息指纹的位数与不同位数的个数。权利要求书CN104063318A1/6页4ANDROID应用相似性快速检测方法技术领域0001本发明属于移动互联网技术领域,具体涉及一种ANDROID应。
11、用相似性快速检测方法。背景技术0002根据GOOGLE于2013年12月份的报告,搭载ANDROID操作系统的智能终端激活量已经多达10亿台。为了让ANDROID手机用户能够方便地浏览和安装ANDROID手机应用,平台供应商提供了集中式的应用市场,应用开发者向应用市场提交自己的应用,使其开发的应用提供给成千上万的智能手机用户ANDROID应用已经突破了100万。与此同时,人们也创造了各种不同用途比如为了满足区域或本地化需求的第三方应用市场。例如CYDIA和AMAZON应用商店分别容纳了成千上万的IPHONE和ANDROID应用。在中国,还有着众多的第三方应用市场。例如安智市场、机锋市场、木蚂蚁。
12、应用市场、安极市场等等。0003然而,在这些应用市场上的移动应用程序中,存在数量众多的对合法应用程序的肆意修改,并用新的签名密钥进行重新打包并发布的应用。作为一种技术性方法,应用重新打包技术可以是出于良好的意图。然而,更常见的情况是,应用重新打包技术被用于恶意目的,由此给应用开发者、手机用户、市场运营商乃至整个ANDROID生态系统都造成不容忽视的风险。例如,恶意软件作者可能会将具有破坏性的载体程序附加到合法的应用程序里面,然后在多个应用市场中通过广告推送的形式来感染不知情的用户,或是,将广告代码植入热门应用程序中,通过应用原作者获取广告收入。0004针对上述问题,本发明提供一种ANDROID。
13、应用相似性快速检测方法,可以从数以百万计的ANDROID应用中快速而高效地识别出再包装的ANDROID应用,保护ANDROID开发者,避免侵犯它们所拥有的知识产权。此外,运营ANDROID市场的厂商也能够利用该方法,确保它们的ANDROID市场不会被经过再包装技术或者包含木马的应用程序所占领,使下载第三方软件的用户能够更放心的在ANDROID平台上使用。发明内容0005本发明提出一种ANDROID应用相似性快速检测方法,该方法采用GOOGLE提供的ANDROIDAPI作为关键词,通过ANDROID应用反编译代码中关键词以及关键词的权重,计算ANDROID应用的信息指纹,进行相似性比较。0006。
14、根据本发明的第一个实施方案,本发明提供一种ANDROID应用相似性快速检测方法,所述方法包括以下步骤00071、采用ANDROIDAPI中的包名,类名,变量名和方法名作为关键词;00082、获取ANDROID应用样本集;00093、反编译ANDROID应用样本集中的所有样本,获取其DALVIK字节码文件;00104、依据逆文本频率指数INVERSEDOCUMENTFREQUENCY,缩写为IDF算法,在ANDROID应用样本集中的所有样本的DALVIK字节码文件中计算关键词的IDF;说明书CN104063318A2/6页500115、反编译待比较ANDROID应用,获取其DALVIK字节码文件。
15、;00126、统计每一个待比较ANDROID应用的DALVIK字节码文件中IDF非零的关键词的词频TERMFREQUENCY,缩写TF;00137、依据TFIDF算法,计算每一个待比较ANDROID应用的DALVIK字节码文件中所有关键词的TFIDF权重;00148、依据每一个待比较ANDROID应用的DALVIK字节码文件中所有关键词以及关键词的TFIDF权重,计算每一个待比较ANDROID应用的信息指纹;和00159、依据待比较ANDROID应用的信息指纹比较它们的相似性。0016一般来说,在所述步骤1中,ANDROIDAPI包括GOOGLE发布的所有版本的API。0017进一步,在所述步。
16、骤1中,ANDROIDAPI的包名包含由符号“”连接的多个字段,将整个包名作为关键字或将每个字段作为关键词;优选的是,将每个字段作为一个关键词。0018优选的是,在所述步骤2、3和4中,ANDROID应用样本集是指在GOOGLEPLAY市场或是第三方市场上发布的所有ANDROID应用,或是其中的一部分应用或应用的一部分;优选的在GOOGLEPLAY市场上对于每一个人工分类中的最小ANDROID应用子类选取固定数量的ANDROID应用作为样本集。0019优选的是,在所述步骤3和5中,DALVIK字节码格式取决于其反编译工具;优选的是采用BAKSMALI作为反编译工具,该工具将ANDROID代码反。
17、编译为以SMALI格式的DALVIK字节码文件。0020优选的是,在所述步骤4和6中,将关键词转化为反编译工具决定的DALVIK字节码格式,优选的是将关键词转化为SMALI格式。0021进一步,在所述的步骤4中,一个关键词W的IDF按照以下公式计算0022其中D表示ANDROID应用样本集中样本的个数,DW表示ANDROID应用样本集中包含关键词W的DALVIK字节码文件个数。0023优选的是,在所述步骤7中,一个待比较ANDROID应用中任何一个关键词的权重由该关键词在该ANDROID应用的DALVIK字节码文件中出现的频率TF和步骤4中计算出的该关键词的逆文本频率指数IDF共同决定;优选的。
18、是,一个待比较ANDROID应用中某一个关键词的权重TFIDF。0024优选的是,在所述步骤8中,一个ANDROID应用的信息指纹是由该应用DALVIK字节码文件中的关键词的哈希值和关键词的权重共同决定。0025优选的是,在步骤8中,选取一个ANDROID应用DALVIK字节码文件中权重N以上的关键词,使用哈希算法对这些关键词进行哈希运算;优选的是,使用MD5算法计算每个关键词的哈希值,则ANDROID应用信息指纹等于其所有权重为N以上的关键词的哈希值之和,进一步优选的是,如果一个ANDROID应用有K个权重大于N关键词构成集合SW1,W2,WK,则该ANDROID应用的信息指纹为MD5W1M。
19、D5W2MD5WK,其中MD5W1,MD5W2,MD5WK分别表示该ANDROID应用的关键词集合S中K个权重大于N关键词的MD5哈希值。0026另外,优选的是,在步骤8中,采用相似哈希SIMHASH算法计算ANDROID应用的信息指纹;进一步优选的是,如果或假定一个ANDROID应用有K个权重不为零的关键词说明书CN104063318A3/6页6集合SW1,W2,WK,每个关键词对应的权重为WEIGHT1,WEIGHT2,WEIGHTK,采用MD5算法计算关键词的哈希值,对应的关键词的哈希值集合为MD5SMD5W1,MD5W2,MD5WK,则,使用包括如下步骤的相似哈希SIMHASH算法计算。
20、ANDROID应用的信息指纹0027A1对于ANDROID应用的N位信息指纹,设置N个实数,用R1,R2,RN表示,并将它们的值初始化为零;0028A2从ANDROID应用有K个权重不为零的关键词集合SW1,W2,WK中选取关键词WT;0029A3从该ANDROID应用关键词的哈希值集合中选取该关键词对应的哈希值MD5WT;0030A4遍历MD5WT的位哈希值,如果其第I位,哈希值为0,则将对应的第I个实数RI减去该关键词WT对应的权重WEIGHTT,如果其第I位,哈希值为1,则将对应的第I个实数RI加上该关键词WT对应的权重WEIGHTT;0031A5将关键词WT从该ANDROID应用关键词。
21、集合SW1,W2,WK移除;0032A6如果该ANDROID应用关键词集合不为空,转至步骤A2;和0033A7对于该ANDROID应用的N位信息指纹,如果R10,则第I位值置为1,否则置为0。0034优选的是,在所述步骤S9中,ANDROID应用的相似性取决于其信息指纹的位数与不同位数的个数。如果相同的位数之和占总位数之和的90以上或甚至95以上,则判定两个ANDROID应用相似。例如,对于64位ANDROID应用的信息指纹,两个ANDROID应用信息指纹有62位以上的哈希值相同,则判定两个ANDROID应用相似。0035术语解释在本申请中“S1”步骤1,“S2”表示步骤2,以此类推。0036。
22、本发明的技术效果或优点0037相比现有的技术方案,本发明提出的ANDROID应用程序相似性快速检测方法是用GOOGLE提供的ANDROIDAPI作为关键词,依据ANDROID应用反编译代码中关键词及关键词的权重,计算ANDROID应用的信息指纹。信息指纹是一种哈希值,本发明提出的方法将ANDROID应用的相似性检测转化为其信息指纹的比较问题。因为计算机可以快速比较哈希值之间的异同,因此,本发明的方法可以快速有效的处理海量ANDROID应用的相似性检测问题。附图说明0038图1是ANDROIDLEVEL19部分API。0039图2是一段ANDROID应用反编译后SMAIL格式的DALVIK字节码。
23、。0040图3是ANDROID应用相似性检测方法流程图。0041在图3中,0042301S1采用ANDROIDAPI中的包名,类名,变量名与方法名作为关键词;0043302S2获取ANDROID应用样本集;0044303S3反编译ANDROID应用样本集中的所有样本,获取其DALVIK字节码文件;0045304S4依据IDF算法,在ANDROID应用样本集中的所有样本的DALVIK字节码文说明书CN104063318A4/6页7件中计算关键词的IDF;0046305S5反编译待比较ANDROID应用,获取其DALVIK字节码文件;0047306S6统计每一待比较ANDROID应用的DALVIK。
24、字节码文件中IDF非零的关键词的TF;0048307S7依据TFIDF算法,计算每一个待比较ANDROID应用的DALVIK字节码文件中所有关键词的TFIDF权重;0049308S8依据每一个待比较ANDROID应用的DALVIK字节码;0050309S9依据待比较ANDROID应用的信息指纹比较它们的相似性。0051图4是相似哈希SIMHASH算法计算ANDROID应用的信息指纹的步骤。0052在图4中0053401A1对于ANDROID应用的N位信息指纹,设置N个实数,将它们的值初始化为零;0054402A2从ANDROID应用有K个权重不为零的关键词集合SW1,W2,WK中选取关键词WT。
25、;0055403A3从该ANDROID应用关键词的哈希值集合中选取该关键词对应的哈希值MD5WT;0056404A4遍历MD5WT的N位哈希值,如果其第I位哈希值为0,则将对应的第I个实数RI减去WEIGHTT。否则,加上WEIGHTT;0057405A5将关键词WT从该ANDROID应用关键词集合S中移除;0058406A6如果该ANDROID应用关键词S集合不为空,转步骤A2;0059407A7对于该ANDROID应用的,如果R10,则N位信息指纹的第I位值置为1,否则置为0。具体实施方式0060下面结合附图和实施例,对本发明的具体实施方式做进一步描述。如图3所示本实施例所提供的ANDRO。
26、ID应用相似性快速检测方法包括以下主要步骤0061S1采用ANDROIDAPI中的包名,类名,变量名与方法名作为关键词;0062S2获取ANDROID应用样本集;0063S3反编译ANDROID应用样本集中的所有样本,获取其DALVIK字节码文件;0064S4依据逆文本频率指数INVERSEDOCUMENTFREQUENCY缩写IDF算法,在ANDROID应用样本集中的所有样本的DALVIK字节码文件中计算关键词的IDF;0065S5反编译待比较ANDROID应用,获取其DALVIK字节码文件;0066S6统计每一个待比较ANDROID应用的DALVIK字节码文件中IDF非零的关键词的词频TE。
27、RMFREQUENCY缩写TF;0067S7依据TFIDF算法,计算每一个待比较ANDROID应用的DALVIK字节码文件中所有关键词的TFIDF权重;0068S8依据每一个待比较ANDROID应用的DALVIK字节码文件中所有关键词以及关键词的TFIDF权重,计算每一个待比较ANDROID应用的信息指纹;0069S9依据待比较ANDROID应用的信息指纹比较它们的相似性。说明书CN104063318A5/6页80070在步骤1中ANDROIDAPI包括GOOGLE发布的所有版本的API。ANDROIDAPI的包名包含由符号“”连接的多个字段,可以将整个包名作为关键词,也可以将每个字段作为关键。
28、词。优选的将每个字段作为一个关键词。例如图1为GOOGLEAPILEVEL19中的部分包名与某一个类的部分方法名。其中包名ANDOURANIMATION中,ANDOUR和ANIMATION都作为关键词,公有方法ADDLISTENER等也作为关键词。0071在所述步骤S2、S3和S4中,ANDROID应用样本集是指在GOOGLEPLAY市场或是第三方市场上发布的所有ANDROID应用,或是其中的一部分应用。优选的在GOOGLEPLAY市场上对于每一个人工分类中的最小ANDROID应用子类选取固定数量的ANDROID应用作为样本集。0072在所述步骤S3和S5中,DALVIK字节码格式决定于其反编。
29、译工具,优选的采用BAKSMALI作为反编译工具,该工具将ANDROID代码反编译为以SMALI格式的DALVIK字节码文件。0073在所述步骤S4和S6中,应将关键词转化为反编译工具决定的DALVIK字节码格式,优选的转化为SMALI格式。如图2所示,一段ANDROID应用反编译后SMAIL格式的DALVIK字节码,其中对于包名第一个字段,SMALI格式增加了一个前缀字母L。0074在所述的步骤S4中,一个关键词W的IDF按照以下公式计算其中D表示ANDROID应用样本集中样本的个数,DW表示ANDROID应用样本集中包含关键词W的DALVIK字节码文件个数。因此,DW越大,关键词W的权重越。
30、小。0075在所述步骤S7中,一个待比较ANDROID应用中某一个关键词的权重由该关键词在该ANDROID应用的DALVIK字节码文件中出现的频率TF和步骤S4中计算出的该关键词的逆文本频率指数IDF共同决定。优选的一个待比较ANDROID应用中某一个关键词的权重TFIDF。0076其中在所述步骤S8中,一个ANDROID应用的信息指纹是由该应用的关键词的哈希值和关键词的权重共同决定。0077优选的可以选取权重N以上的关键词,对这些关键词进行哈希运算,优选的使用MD5算法计算每个关键词的哈希值。那么ANDROID应用的信息指纹等于所有权重为N以上的关键词的哈希值之和。近一步优选的,如果一个AN。
31、DROID应用有K个权重大于N关键词构成集合SW1,W2,WK那么,该ANDROID应用的信息指纹为MD5W1MD5W2MD5WK。其中MD5W1,MD5W2,MD5WK分别表示该ANDROID应用的关键词集合S中K个权重大于N关键词的MD5哈希值。0078或0079优选的是,可以采用相似哈希SIMHASH算法计算ANDROID应用的信息指纹。进一步优选的,如果一个ANDROID应用有K个权重不为零的关键词集合SW1,W2,WK,每个关键词对应的权重WEIGHT1,WEIGHT2,WEIGHTK。采用MD5计算关键词的哈希值,对应的关键词的哈希值集合为MD5SMD5W1,MD5W2,MD5WK。
32、。那么,如图4使用如下步骤的相似哈希SIMHASH算法计算ANDROID应用的信息指纹0080A1对于ANDROID应用的N位信息指纹,设置N个实数R1,R2,RN,将它们的值初始化为零;说明书CN104063318A6/6页90081A2从ANDROID应用有K个权重不为零的关键词集合SW1,W2,WK中选取关键词WT;0082A3从该ANDROID应用关键词的哈希值集合中选取该关键词对应的哈希值MD5WT;0083A4遍历MD5WT的N位哈希值,如果其第I位哈希值为0,则将对应的第I个实数RI减去该关键词WT对应的权重WEIGHTT,如果其第I位哈希值为1,则将对应的第I个实数RI加上该关。
33、键词WT对应的权重WEIGHTT;例如,假设哈希值为8位,WT是第一个被选中的关键词,MD5WT值为10110110,则,R1,R2,R8的值分别为WEIGHTT,WEIGHTT,WEIGHTT,WEIGHTT,WEIGHTT,WEIGHTT,WEIGHTT,WEIGHTT。0084A5将关键词WT从该ANDROID应用关键词集合S中移除;0085A6如果该ANDROID应用关键词S集合不为空,转步骤A2;0086A7对于该ANDROID应用的信息指纹,如果RI0,则N位信息指纹的第I位值置为1,否则置为0。例如,假设信息指纹为8位,R1,R2,R8的值分别为06,012,15,13,17,0。
34、5,02,03,则该ANDROID应用的8位信息指纹为01101101。0087在所述步骤S9中,ANDROID应用的相似性取决于其信息指纹的位数与不同位数的个数。例如,对于64位ANDROID应用的信息指纹,两个ANDROID应用信息指纹有62位以上的哈希值相同,则判定两个ANDROID应用相似。0088上面是本发明提供的ANDROID应用相似性快速检测方法优选实施方式,并不构成对本发明的保护权限,任何在本发明上的改进,只要原理相同,都包含在本发明的权利要求保护范围之内。说明书CN104063318A1/3页10图1图2说明书附图CN104063318A102/3页11图3说明书附图CN104063318A113/3页12图4说明书附图CN104063318A12。