准备好要求交的数据, 参见mnist_data
环境准备参见docs/DataJoin/simpleness_install_chinese_version.md
启动数据求交的leader和follower
bash data_join_leader.sh
bash data_join_follower.sh
求交需要花费一些时间, 日志在src/DataJoin/logs/data_join_logs
, 输出结果在../mnist_data/data_block_leader
和../mnist_data/data_block_follower
- 先决条件
- hdfs, 数据求交的输入和输出都放在hdfs上
- Kubernetes集群能访问hdfs, 为leader和folllower创建namespace(fl-leader,fl-follower)
- mysql, 数据求交产生的datablock元数据放在mysql, 供datacenter使用
- leader机和follower机部署proxy模块, 且能访问redis和Kubernetes集群, 参见src/Proxy/README.md
- 制作镜像
修改src/DataJoin/config.py, 配置mysql和redis信息,redis配置应与proxy使用的redis一致
DATABASE = {
'name': '', # 数据库名
'user': '',
'passwd': '',
'host': '',
'port': 3306,
'max_connections': 100,
'stale_timeout': 30,
}
REDIS = {
'host': "",
'port': 6379,
'password': "",
'max_connections': 500
}
PROXY_SERVICE_HOST = "localhost"
PROXY_SERVICE_PORT = 3700
注意 src/DataJoin/config.py里的PROXY_SERVICE_HOST
与proxy模块无关, 填"localhost"即可
制作data join的镜像,
参见deploy/data_join/images
和docs/DataJoin/distributer_install_chinese_version.md
- 提交任务
修改dist_data_join_leader.sh
和dist_data_join_follower.sh
中的镜像,输入输出hdfs目录,proxy地址
# leader
bash dist_data_join_leader.sh
# follower
bash dist_data_join_follower.sh