Skip to content

Tongzhenguo/shanghai_unicom_tourist_tagging

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

源码部分

特征工程:
    原始特征:省份处理;手机品牌处理,nnz(非空列个数)这三个特征前期提升比较大

    离散特征:数值类特征取对应的排名值,对排名特征作等值离散化,增加模型稳定性

    计数特征:统计一个样本有多少取值为0,多少取值为1,...

    比值特征:统计各app和app分类的pv占比,筛选出对旅游者影响较大的app和app分类

    交叉特征:性别,年龄,地域,消费力水平,手机品牌两两交叉,筛选出对旅游者影响较大的app和app分类

    组合特征:根据重要性分数,筛选出前k个特征,两两进行log(xy)变换

    特征选择: 线性分类其主要使用皮卡尔相关系数进行筛选,非线性分类主要使用xgb模型的重要性评分进行筛选

模型选择:
    LR:baseline

    RF:baseline

    XGB:经验参数:深度:11,min_child_weight:25,scale_pos_weight处理正负类不平衡

    LGB:队友推荐使用DART算法,有兴趣的同学可以了解下

    模型自融合:除了以上的特征工程部分,后期加了型号的频次统计。经验指定筛选个数

    STACK:模型融合,充分利用样本和减少训练方差 

Releases

No releases published

Packages

No packages published

Languages