1219组会小结

一, CV交叉验证的方差用处不大;
二, 句子padding 0的时候mask参数的选择,LSTM和CNN不同;
三, 训练不要划分验证集,全部数据都拿来训练,dev-set来验证;
四, 分词器(tokenizer)选择:
(1)nltk三个

1
2
3
from nltk.tokenize import TweetTokenizer
from nltk.tokenize import StanfordTokenizer
from nltk.tokenize import word_tokenize

(2)HappyTokenizing,这里https://github.com/dlatk/happierfuntokenizing
(3)TweetNLP (Owoputi et al., 2013) http://www.cs.cmu.edu/~ark/TweetNLP/
(4)自己手动写,根据数据集特征。
五, 分词考虑: url, http, @ 等;
六, 词向量考虑:推特-Glove,fasttext基本用来分类,w2v普遍适用,emoji-embedding;
六, MultiTask-learning思想:
同时对多个任务学习不同的回归函数。
七,adam优化器比sgd收敛快?

如果文章对您有用请随意打赏,谢谢支持!
0%