Skip to content

Latest commit

 

History

History
66 lines (51 loc) · 1.94 KB

README.md

File metadata and controls

66 lines (51 loc) · 1.94 KB

数据求交示例

前提

准备好要求交的数据, 参见mnist_data

单机版

环境准备参见docs/DataJoin/simpleness_install_chinese_version.md

启动数据求交的leader和follower

bash data_join_leader.sh
bash data_join_follower.sh

求交需要花费一些时间, 日志在src/DataJoin/logs/data_join_logs, 输出结果在../mnist_data/data_block_leader../mnist_data/data_block_follower

分布式版

  1. 先决条件
  • hdfs, 数据求交的输入和输出都放在hdfs上
  • Kubernetes集群能访问hdfs, 为leader和folllower创建namespace(fl-leader,fl-follower)
  • mysql, 数据求交产生的datablock元数据放在mysql, 供datacenter使用
  • leader机和follower机部署proxy模块, 且能访问redis和Kubernetes集群, 参见src/Proxy/README.md
  1. 制作镜像

修改src/DataJoin/config.py, 配置mysql和redis信息,redis配置应与proxy使用的redis一致

  DATABASE = {
      'name': '', # 数据库名
      'user': '',
      'passwd': '',
      'host': '',
      'port': 3306,
      'max_connections': 100,
      'stale_timeout': 30,
  }
  REDIS = {
      'host': "",
      'port': 6379,
      'password': "",
      'max_connections': 500
  }
PROXY_SERVICE_HOST = "localhost"
PROXY_SERVICE_PORT = 3700

注意 src/DataJoin/config.py里的PROXY_SERVICE_HOSTproxy模块无关, 填"localhost"即可

制作data join的镜像, 参见deploy/data_join/imagesdocs/DataJoin/distributer_install_chinese_version.md

  1. 提交任务

修改dist_data_join_leader.shdist_data_join_follower.sh中的镜像,输入输出hdfs目录,proxy地址

# leader
bash dist_data_join_leader.sh 

# follower 
bash dist_data_join_follower.sh