LDA主题模型
准备数据
1、中文维基百科数据
2、gensim中Corpus类处理数据(*xml.bz2)
|
|
3、数据预处理
处理完之后的数据,已经分好词:
http://pan.baidu.com/s/1gfMhkcV 密码:gdua
LDA实验
1、去掉停用词后即可训练lda模型
停用词下载:http://pan.baidu.com/s/1qYnsSLe 密码:s0hc
此外,gensim也提供了对wiki压缩包直接进行抽取并保存为稀疏矩阵的脚本 make_wiki,可在bash运行下面命令查看用法。
将文章变成清晰的文本,并以稀疏TF-IDF向量存储。在具体情况可以看gensim官网,mm后缀表示Matrix Market格式保存的稀疏矩阵.
2、实验部分
利用 tfidf.mm 及wordids.txt 训练LDA模型
3、模型结果
训练过程指定参数 num_topics=100, 即训练100个主题,通过print_topics() 和print_topic() 可查看各个主题下的词分布,也可通过save/load 进行模型保存加载。
4、主题预测
对新文档,转换成bag-of-word后,可进行主题预测。模型差别主要在于主题数的设置,以及语料本身,wiki语料是全领域语料,主题分布并不明显,而且这里使用的语料没有去停止词,得到的结果差强人意。