-
Notifications
You must be signed in to change notification settings - Fork 78
2017 05
helinwang edited this page May 25, 2017
·
20 revisions
进展:
-
确定机房部署方案,包括采购机器部分方案和临时借用sys机器部署7月演示环境
-
搭建美研办公室试验集群并在其上开发
-
确定cloud演示内容和用户使用流程设计
-
[WIP]训练任务提交功能: https://github.com/Yancey1989/paddle-job
-
网站scratch,用户可注册->启动paddle notebook->提交训练任务->查看训练状态
-
[WIP]分布式训练,容错Design docs:
FileManager
submit a distributed job
PServer Design Doc from scratch
master server
The Client Library of Parameter Server
TODO:
- 实现可容错异步SGD训练任务
- 实现PaddlePaddle master,实现分布式训练容错
- master fault tolerance and job dispatch
- master report callback to trainer
- Python reader that can get a task from the master and generate data instance
- 重构parameter server
- pserver RPC service
- pserver save model
- pserver fault tolerance
- pserver optimizer
- trainer client library
- trainer client library与trainer集成。
- RecordIO Python reader, support local recordIO file and dispatched recordIO task from the master server.
- 实现PaddlePaddle master,实现分布式训练容错
- 实现用户训练数据管理工具(FileManager)
- Python实现的把数据集转化成RecordIO格式的程序
- 公开数据集
- 用户自定义数据预处理任务,支持MapReduce, Spark任务
- 网站需求收集,网站页面美化,网站功能开发完善
- 登录/注册流程
- 提交任务流程
- web IDE
- models store
- data store
- 控制台总览(任务、资源、news)
- 整体交互、视觉设计、前端功能开发
- Etcd部署与namespace管理(每个Job需要独立的namepace)