Merging optimizer states from different pipeline parallel size to resume training #38

xrsrke · 2024-01-23T12:49:34Z

Suppose you start training with a pipeline parallel size of 4. We need to make it supports resuming training with a different pipeline parallel size, like 2, by merging optimizer states.

xrsrke added enhancement New feature or request good first issue Good for newcomers help wanted Extra attention is needed labels Jan 23, 2024

xrsrke changed the title ~~Merging optimizer states from different topologies to resume training~~ Merging optimizer states from different pipeline parallel size to resume training Jan 24, 2024

nopperl mentioned this issue Feb 15, 2024

Implement pipeline parallel size-agnostic optimizer state loading #71

Merged

xrsrke closed this as completed Feb 17, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Merging optimizer states from different pipeline parallel size to resume training #38

Merging optimizer states from different pipeline parallel size to resume training #38

xrsrke commented Jan 23, 2024 •

edited

Loading

Merging optimizer states from different pipeline parallel size to resume training #38

Merging optimizer states from different pipeline parallel size to resume training #38

Comments

xrsrke commented Jan 23, 2024 • edited Loading

xrsrke commented Jan 23, 2024 •

edited

Loading