《新词发现方法及装置.pdf》由会员分享,可在线阅读,更多相关《新词发现方法及装置.pdf(18页珍藏版)》请在专利查询网上搜索。
一种新词发现方法及装置,所述方法包括:对接收到的语料进行预处理,以得到文本数据;对所述文本数据进行分行处理,得到语句数据;依照词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据;对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;对所述候选数据串进行判断处理,以发现新词;所述判断处理包括:计算所述候选数据串中各词语与其外侧词语的信息熵,去除各词语与其外侧词语的信息熵在预设。