《一种基于网页聚类的WEB信息自动抽取方法.pdf》由会员分享,可在线阅读,更多相关《一种基于网页聚类的WEB信息自动抽取方法.pdf(8页珍藏版)》请在专利查询网上搜索。
本发明公开一种基于网页聚类的Web信息自动抽取方法,属于计算机信息提取技术领域;本发明在基于DOM的抽取技术上,根据对树的相似度比较对网页进行聚类分析,从而分类出网页结构相似度较高的网页簇,实现一个高精度的Web信息自动抽取系统,并通过大量的测试网页集对这些算法进行实验和评估,Web信息自动抽取应用了可选节点对模板的修正和调整,以提高内容节点的正确标识。实验结果表明,该方法能够自动寻找并抽取网页主。