《汉泰双语平行语料自动采集的系统及实现方法.pdf》由会员分享,可在线阅读,更多相关《汉泰双语平行语料自动采集的系统及实现方法.pdf(16页珍藏版)》请在专利查询网上搜索。
一种汉泰双语平行语料自动采集的系统及实现方法,包括汉泰双语平行信息的自动发现、自动提取、自动整理,首先,制定需要采集语料的关键词组,通过搜索引擎搜索网站,采集网页得到搜索结果,对搜索结果的信息进行过滤和筛选后,将经过滤得搜索结果存储于搜索结果数据库;其次,通过访问搜索结果数据库里的网页,自动提取汉泰双语平行信息;最后,针对自动提取的汉泰双语平行信息,进行数据过滤,并将经过过滤处理后的汉泰双语平行数。