Forgot password?
laxxx
laxxx

对于中文文本分类,基本有两个比较成熟的结论:(1)当特征数达到近1万维的时候,采用分词后的词作为特征还是采用字的bigram作为特征,效果相近。因此如果手头有比较靠谱的分词系统,就用分词作为特征,如果没有,用bigram也能实现不坏的效果。(2)特征选取的最好方法是Chi-Square,其基本思想是在标注了类别的文本数据上计算每个候选特征与类别之间的关系,选取每个类别最具代表性的特征。