《基于海量网络舆情信息的PL聚类处理方法.pdf》由会员分享,可在线阅读,更多相关《基于海量网络舆情信息的PL聚类处理方法.pdf(11页珍藏版)》请在专利查询网上搜索。
基于海量网络舆情信息的PL聚类处理方法,包括对各舆情信息进行分词预处理、舆情信息的特征分词选取、舆情信息的向量化和基于PL算法的聚类。其实质是用分词工具对文本进行分词,通过改进的信息增益算法进行特征分词选取,对特征分词向量化后用PL算法进行聚类的过程。本发明对海量网络舆情处理时可有效过滤噪声数据,拥有较低的时间、空间复杂度。本发明可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括。