1、对于正负样本极不均衡的二次分类问题-少量人工标注

第一次分类: 正样本过采样,负样本抽样,进行分类。

对于第一次分类>0.9的预测集,从中抽取样本进行人工标注。

第二次分类:对误判和正确分类的样本进行再次分类。

第二次分类的准去率基本等于线上准确率。

非常好用的方法。

 

2、同一地址多种表达方式,归一化问题。

使用深度学习多输入,label是否是同一地址。

类似问答。

https://github.com/seatgeek/fuzzywuzzy#usage