gensim学习笔记
LDA主题模型准备数据1、中文维基百科数据2、gensim中Corpus类处理数据(*xml.bz2)12>>> wiki = WikiCorpus('enwiki-20100622-pages-articles.xml.bz2') >>> MmCorpus.serialize('wiki_en_vocab200k.mm', wiki)
12345678910111213141516171819202122232425262728# -*- coding: utf-8 -*-import loggingimport s
...