现在平台每天有10万左右的注册帐号,但是非常多的帐号是外挂帐号,只有少部分的帐号是真实用户的注册。通过注册帐号的各个维度的信息,将外挂帐号识别出来。
- 第一层:通过MR程序,对注册记录的各个维护的进行纵向统计,生成评分数据字典。
- 第二层:对系统中的每条记录的每个维度值和数据字典通过rank函数计算权值,最后计算各个字段权值的带权平均值,为记录评分。评分越大,为虚假注册帐号的可能性越大。
MR1 Reduce (中国,1)-->(中国,3) (中国,1) (你好,1) (中国,1) (all_rows,2) (你好,1) MR2 1. 通过加权函数计算字段权值 举例: fun(col val,times,all_rows) n>10 0.1 n>20 0.2 n>30 0.3 n>40 0.4 n>50 0.5 n>60 0.6 n>70 0.7 n>80 0.8 n>90 0.9 n>100 1.0 2. 计算所有字段带权平均值 2.1 根据x1,x2..xn,值,动态调整权值 k1,k2 .. kn 2.2 y= (x1*k1 + x2*k2 .. xn^kn)/(k1+k2+.. kn)
- 偏差较小,标准差较大 : 增大列评分系数