Skip to content

2017 05

helinwang edited this page May 25, 2017 · 20 revisions

进展:

  1. 确定机房部署方案,包括采购机器部分方案和临时借用sys机器部署7月演示环境

  2. 搭建美研办公室试验集群并在其上开发

  3. 确定cloud演示内容和用户使用流程设计

  4. [WIP]训练任务提交功能: https://github.com/Yancey1989/paddle-job

  5. 网站scratch,用户可注册->启动paddle notebook->提交训练任务->查看训练状态

    1. https://github.com/PaddlePaddle/cloud
  6. [WIP]分布式训练,容错Design docs:

    FileManager
    submit a distributed job
    PServer Design Doc from scratch
    master server
    The Client Library of Parameter Server

TODO:

  1. 实现可容错异步SGD训练任务
    • 实现PaddlePaddle master,实现分布式训练容错
      • master fault tolerance and job dispatch
      • master report callback to trainer
      • Python reader that can get a task from the master and generate data instance
    • 重构parameter server
      • pserver RPC service
      • pserver save model
      • pserver fault tolerance
      • pserver optimizer
      • trainer client library
      • trainer client library与trainer集成。
    • RecordIO Python reader, support local recordIO file and dispatched recordIO task from the master server.
  2. 实现用户训练数据管理工具(FileManager)
    • Python实现的把数据集转化成RecordIO格式的程序
    • 公开数据集
    • 用户自定义数据预处理任务,支持MapReduce, Spark任务
  3. 网站需求收集,网站页面美化,网站功能开发完善
    • 登录/注册流程
    • 提交任务流程
    • web IDE
    • models store
    • data store
    • 控制台总览(任务、资源、news)
    • 整体交互、视觉设计、前端功能开发
  4. Etcd部署与namespace管理(每个Job需要独立的namepace)
Clone this wiki locally