Akoumparouli/nemo ux precision plugin refactor #10129

akoumpa · 2024-08-13T20:46:15Z

What does this PR do ?

Add a one line overview of what this PR aims to accomplish.

Collection: [Note which collection this PR will affect]

Changelog

Add specific line by line info of high level changes in this PR.

Usage

You can potentially add a usage example below

# Add a code snippet demonstrating how to use this

GitHub Actions CI

The Jenkins CI system has been replaced by GitHub Actions self-hosted runners.

The GitHub Actions CI will run automatically when the "Run CICD" label is added to the PR.
To re-run CI remove and add the label again.
To run CI on an untrusted fork, a NeMo user with write access must first click "Approve and run".

Before your PR is "Ready for review"

Pre checks:

Make sure you read and followed Contributor guidelines
Did you write any new necessary tests?
Did you add or update any necessary documentation?
Does the PR affect components that are optional to install? (Ex: Numba, Pynini, Apex etc)
- Reviewer: Does the PR have correct import guards for all optional libraries?

PR Type:

New Feature
Bugfix
Documentation

If you haven't finished some of the above items you can still open "Draft" PR.

Who can review?

Anyone in the community is free to review the PR once the checks have passed.
Contributor guidelines contains specific people who can review PRs to various areas.

Additional Information

Related to # (issue)

nemo/lightning/pytorch/plugins/precision.py

nemo/collections/llm/recipes/llama2_7b.py

nemo/collections/llm/recipes/llama3_8b.py

nemo/collections/llm/recipes/llama3_8b_16k.py

nemo/collections/llm/recipes/llama3_8b_64k.py

nemo/collections/llm/recipes/mistral.py

nemo/collections/llm/recipes/mixtral_8x22b_4k.py

nemo/collections/llm/recipes/mixtral_8x7b_4k.py

tests/lightning/fabric/test_conversion.py

tests/lightning/pytorch/test_trainer.py

tests/lightning/test_megatron_parallel.py

nemo/lightning/pytorch/plugins/precision.py

nemo/lightning/pytorch/strategies.py

nemo/lightning/pytorch/plugins/precision.py

Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com>

Signed-off-by: akoumpa <akoumpa@users.noreply.github.com>

Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com>

Signed-off-by: akoumpa <akoumpa@users.noreply.github.com>

Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com>

Signed-off-by: akoumpa <akoumpa@users.noreply.github.com>

Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com>

* fix dropout Signed-off-by: Chen Cui <chcui@nvidia.com> * fix gemma embedding Signed-off-by: Chen Cui <chcui@nvidia.com> * more config matching Signed-off-by: Chen Cui <chcui@nvidia.com> * config matching Signed-off-by: Chen Cui <chcui@nvidia.com> * Apply isort and black reformatting Signed-off-by: cuichenx <cuichenx@users.noreply.github.com> * llama3 rotary base Signed-off-by: Chen Cui <chcui@nvidia.com> * remove persist_layer_norm Signed-off-by: Chen Cui <chcui@nvidia.com> * remove dtype configs as they're handled in NVIDIA#10129 Signed-off-by: Chen Cui <chcui@nvidia.com> * gemma embedding scaling without model transform Signed-off-by: Chen Cui <chcui@nvidia.com> * Apply isort and black reformatting Signed-off-by: cuichenx <cuichenx@users.noreply.github.com> * remove superfluous import Signed-off-by: Chen Cui <chcui@nvidia.com> --------- Signed-off-by: Chen Cui <chcui@nvidia.com> Signed-off-by: cuichenx <cuichenx@users.noreply.github.com> Co-authored-by: cuichenx <cuichenx@users.noreply.github.com>

* rename mixed_precision.py to precision.py Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * replace print with logging.warning Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * Apply isort and black reformatting Signed-off-by: akoumpa <akoumpa@users.noreply.github.com> * also patch ddp_config Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * Rename patch_dtype_config to update_config_with_dtype_overrides Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * Add GradScaler's args to constructor's arg list Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * Apply isort and black reformatting Signed-off-by: akoumpa <akoumpa@users.noreply.github.com> * fix import Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * Leverage mcore's fp16 grad scaler Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * remove unused param Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * Add precision plugin test Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * Apply isort and black reformatting Signed-off-by: akoumpa <akoumpa@users.noreply.github.com> * Also update __io__ configs Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * remove unused imports Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * fix fabric to ptl converter mcore precision plugin Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * fix test Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> --------- Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> Signed-off-by: akoumpa <akoumpa@users.noreply.github.com> Co-authored-by: akoumpa <akoumpa@users.noreply.github.com>

* fix dropout Signed-off-by: Chen Cui <chcui@nvidia.com> * fix gemma embedding Signed-off-by: Chen Cui <chcui@nvidia.com> * more config matching Signed-off-by: Chen Cui <chcui@nvidia.com> * config matching Signed-off-by: Chen Cui <chcui@nvidia.com> * Apply isort and black reformatting Signed-off-by: cuichenx <cuichenx@users.noreply.github.com> * llama3 rotary base Signed-off-by: Chen Cui <chcui@nvidia.com> * remove persist_layer_norm Signed-off-by: Chen Cui <chcui@nvidia.com> * remove dtype configs as they're handled in NVIDIA#10129 Signed-off-by: Chen Cui <chcui@nvidia.com> * gemma embedding scaling without model transform Signed-off-by: Chen Cui <chcui@nvidia.com> * Apply isort and black reformatting Signed-off-by: cuichenx <cuichenx@users.noreply.github.com> * remove superfluous import Signed-off-by: Chen Cui <chcui@nvidia.com> --------- Signed-off-by: Chen Cui <chcui@nvidia.com> Signed-off-by: cuichenx <cuichenx@users.noreply.github.com> Co-authored-by: cuichenx <cuichenx@users.noreply.github.com> Signed-off-by: adityavavre <aditya.vavre@gmail.com>

* rename mixed_precision.py to precision.py Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * replace print with logging.warning Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * Apply isort and black reformatting Signed-off-by: akoumpa <akoumpa@users.noreply.github.com> * also patch ddp_config Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * Rename patch_dtype_config to update_config_with_dtype_overrides Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * Add GradScaler's args to constructor's arg list Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * Apply isort and black reformatting Signed-off-by: akoumpa <akoumpa@users.noreply.github.com> * fix import Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * Leverage mcore's fp16 grad scaler Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * remove unused param Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * Add precision plugin test Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * Apply isort and black reformatting Signed-off-by: akoumpa <akoumpa@users.noreply.github.com> * Also update __io__ configs Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * remove unused imports Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * fix fabric to ptl converter mcore precision plugin Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * fix test Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> --------- Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> Signed-off-by: akoumpa <akoumpa@users.noreply.github.com> Co-authored-by: akoumpa <akoumpa@users.noreply.github.com> Signed-off-by: adityavavre <aditya.vavre@gmail.com>

* fix dropout Signed-off-by: Chen Cui <chcui@nvidia.com> * fix gemma embedding Signed-off-by: Chen Cui <chcui@nvidia.com> * more config matching Signed-off-by: Chen Cui <chcui@nvidia.com> * config matching Signed-off-by: Chen Cui <chcui@nvidia.com> * Apply isort and black reformatting Signed-off-by: cuichenx <cuichenx@users.noreply.github.com> * llama3 rotary base Signed-off-by: Chen Cui <chcui@nvidia.com> * remove persist_layer_norm Signed-off-by: Chen Cui <chcui@nvidia.com> * remove dtype configs as they're handled in #10129 Signed-off-by: Chen Cui <chcui@nvidia.com> * gemma embedding scaling without model transform Signed-off-by: Chen Cui <chcui@nvidia.com> * Apply isort and black reformatting Signed-off-by: cuichenx <cuichenx@users.noreply.github.com> * remove superfluous import Signed-off-by: Chen Cui <chcui@nvidia.com> --------- Signed-off-by: Chen Cui <chcui@nvidia.com> Signed-off-by: cuichenx <cuichenx@users.noreply.github.com> Co-authored-by: cuichenx <cuichenx@users.noreply.github.com>

* rename mixed_precision.py to precision.py Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * replace print with logging.warning Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * Apply isort and black reformatting Signed-off-by: akoumpa <akoumpa@users.noreply.github.com> * also patch ddp_config Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * Rename patch_dtype_config to update_config_with_dtype_overrides Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * Add GradScaler's args to constructor's arg list Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * Apply isort and black reformatting Signed-off-by: akoumpa <akoumpa@users.noreply.github.com> * fix import Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * Leverage mcore's fp16 grad scaler Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * remove unused param Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * Add precision plugin test Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * Apply isort and black reformatting Signed-off-by: akoumpa <akoumpa@users.noreply.github.com> * Also update __io__ configs Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * remove unused imports Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * fix fabric to ptl converter mcore precision plugin Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> * fix test Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> --------- Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com> Signed-off-by: akoumpa <akoumpa@users.noreply.github.com> Co-authored-by: akoumpa <akoumpa@users.noreply.github.com>

akoumpa force-pushed the akoumparouli/nemo_ux_precision_plugin_refactor branch 3 times, most recently from eacd5c0 to a93319e Compare August 13, 2024 20:57

github-advanced-security bot found potential problems Aug 13, 2024

View reviewed changes

nemo/lightning/pytorch/plugins/precision.py Fixed Show fixed Hide fixed

akoumpa self-assigned this Aug 13, 2024

github-advanced-security bot found potential problems Aug 13, 2024

View reviewed changes

akoumpa force-pushed the akoumparouli/nemo_ux_precision_plugin_refactor branch 3 times, most recently from 715a3db to 1d92ddb Compare August 13, 2024 21:58

github-advanced-security bot found potential problems Aug 13, 2024

View reviewed changes

nemo/lightning/pytorch/plugins/precision.py Fixed Show fixed Hide fixed

akoumpa force-pushed the akoumparouli/nemo_ux_precision_plugin_refactor branch 5 times, most recently from c00d64a to 88126e3 Compare August 13, 2024 23:27

ShriyaPalsamudram requested review from marcromeyn and removed request for marcromeyn August 14, 2024 14:24

akoumpa force-pushed the akoumparouli/nemo_ux_precision_plugin_refactor branch 5 times, most recently from 830db7e to 7700ae6 Compare August 15, 2024 02:16

ShriyaPalsamudram previously approved these changes Aug 15, 2024

View reviewed changes

ShriyaPalsamudram reviewed Aug 15, 2024

View reviewed changes

nemo/lightning/pytorch/strategies.py Outdated Show resolved Hide resolved

marcromeyn reviewed Aug 15, 2024

View reviewed changes

nemo/lightning/pytorch/plugins/precision.py Outdated Show resolved Hide resolved

marcromeyn reviewed Aug 15, 2024

View reviewed changes

nemo/lightning/pytorch/plugins/precision.py Outdated Show resolved Hide resolved

marcromeyn reviewed Aug 15, 2024

View reviewed changes

nemo/lightning/pytorch/plugins/precision.py Outdated Show resolved Hide resolved

ShriyaPalsamudram requested a review from maanug-nv August 15, 2024 14:45

akoumpa dismissed ShriyaPalsamudram’s stale review via f8ecf63 August 15, 2024 16:57

akoumpa added Run CICD and removed Run CICD labels Aug 20, 2024

akoumpa and others added 16 commits August 20, 2024 09:43

rename mixed_precision.py to precision.py

0a0477e

Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com>

replace print with logging.warning

ffeeb12

Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com>

Apply isort and black reformatting

dcc77b2

Signed-off-by: akoumpa <akoumpa@users.noreply.github.com>

also patch ddp_config

6dd5bae

Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com>

Rename patch_dtype_config to update_config_with_dtype_overrides

8e6e850

Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com>

Add GradScaler's args to constructor's arg list

a28b998

Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com>

Apply isort and black reformatting

aed6658

Signed-off-by: akoumpa <akoumpa@users.noreply.github.com>

fix import

4361c75

Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com>

Leverage mcore's fp16 grad scaler

9dd24c4

Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com>

remove unused param

428fd74

Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com>

Add precision plugin test

122f973

Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com>

Apply isort and black reformatting

fa4bf44

Signed-off-by: akoumpa <akoumpa@users.noreply.github.com>

Also update __io__ configs

0b4308f

Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com>

remove unused imports

a52f6fb

Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com>

fix fabric to ptl converter mcore precision plugin

82997d2

Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com>

fix test

d5cf9f9

Signed-off-by: Alexandros Koumparoulis <akoumparouli@nvidia.com>

akoumpa force-pushed the akoumparouli/nemo_ux_precision_plugin_refactor branch from 4dd9ba8 to d5cf9f9 Compare August 20, 2024 16:44

akoumpa added Run CICD and removed Run CICD labels Aug 20, 2024

ShriyaPalsamudram approved these changes Aug 20, 2024

View reviewed changes

akoumpa merged commit 60442c2 into main Aug 20, 2024
129 of 130 checks passed

akoumpa deleted the akoumparouli/nemo_ux_precision_plugin_refactor branch August 20, 2024 17:57

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Akoumparouli/nemo ux precision plugin refactor #10129

Akoumparouli/nemo ux precision plugin refactor #10129

akoumpa commented Aug 13, 2024

Akoumparouli/nemo ux precision plugin refactor #10129

Akoumparouli/nemo ux precision plugin refactor #10129

Conversation

akoumpa commented Aug 13, 2024

What does this PR do ?

Changelog

Usage

GitHub Actions CI

Before your PR is "Ready for review"

Who can review?

Additional Information