Skip to content

wankunde/accountinfo

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

平台虚假注册帐号识别系统

项目背景

现在平台每天有10万左右的注册帐号,但是非常多的帐号是外挂帐号,只有少部分的帐号是真实用户的注册。通过注册帐号的各个维度的信息,将外挂帐号识别出来。

项目架构

  • 第一层:通过MR程序,对注册记录的各个维护的进行纵向统计,生成评分数据字典。
  • 第二层:对系统中的每条记录的每个维度值和数据字典通过rank函数计算权值,最后计算各个字段权值的带权平均值,为记录评分。评分越大,为虚假注册帐号的可能性越大。

原理简单介绍

MR1
	Reduce
		(中国,1)-->(中国,3) 
		(中国,1)   (你好,1)
		(中国,1)   (all_rows,2)
		(你好,1)   
		
MR2
	
	1. 通过加权函数计算字段权值
		举例:
		fun(col val,times,all_rows)
			n>10	0.1
			n>20	0.2
			n>30	0.3
			n>40	0.4
			n>50	0.5
			n>60	0.6
			n>70	0.7
			n>80	0.8
			n>90	0.9
			n>100	1.0
	
	2. 计算所有字段带权平均值
		2.1 根据x1,x2..xn,值,动态调整权值 k1,k2 .. kn 
		2.2 y= (x1*k1 + x2*k2 .. xn^kn)/(k1+k2+.. kn)

评分调整策略

  • 偏差较小,标准差较大 : 增大列评分系数

About

平台虚假注册帐号识别系统

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages