《动态网页生成方法和装置、提取结构化数据的方法和装置.pdf》由会员分享,可在线阅读,更多相关《动态网页生成方法和装置、提取结构化数据的方法和装置.pdf(30页珍藏版)》请在专利查询网上搜索。
本发明公开了一种动态网页生成方法和装置、以及从动态网页中提取结构化数据的方法和装置。根据本发明的动态网页生成方法包括:分析源代码以生成句元流;根据语法规则对句元流进行匹配,以找到匹配的源代码块;以及对匹配的源代码块添加相应类型的元信息。根据本发明的从动态网页中提取结构化数据的方法包括下列处理步骤中的至少一个:根据HTTP响应中的网页布局元信息将网页内容划分成多个片段并将噪声片段去除;根据HTTP响。