Upstream sync #6

gurpreet-dhami · 2024-10-15T15:39:46Z

No description provided.

ci: Bump reference sha See merge request ADLR/megatron-lm!2092

ci: Disable broken test See merge request ADLR/megatron-lm!2093

…nto 'main' Multimodal sequence length optimizations See merge request ADLR/megatron-lm!1985

tests: Disable flaky test See merge request ADLR/megatron-lm!2094

tests: Repeat MRs 5 times See merge request ADLR/megatron-lm!2004

…t_process_group, it causes hangs Co-authored-by: Szymon Migacz <1934379+szmigacz@users.noreply.github.com>

Don't pass device_id to torch.distributed.init_process_group, it causes hangs See merge request ADLR/megatron-lm!2091

ci: Add release tests for 0.9 See merge request ADLR/megatron-lm!2059

… branches to fail

fix: allow merge request CI for non-protected branches to fail See merge request ADLR/megatron-lm!2106

chore: Fix autoformatter for release branches See merge request ADLR/megatron-lm!2107

Co-authored-by: Shanmugam Ramasamy <shanmugamr@shanmugamr-mlt.client.nvidia.com>

Fixing broken links See merge request ADLR/megatron-lm!2104

Add video handling into multimodal mcore See merge request ADLR/megatron-lm!2072

Enable optional kwargs with CUDA graph See merge request ADLR/megatron-lm!1715

Resolve "Fix TE version in TELinear" Closes NVIDIA#318 See merge request ADLR/megatron-lm!2077

Update path to MMMU to use new repos structure See merge request ADLR/megatron-lm!2112

…STIC_ALGO Co-authored-by: Shanmugam Ramasamy <shanmugamr@shanmugamr-mlt.client.nvidia.com>

Removing env variable NVTE_ALLOW_NONDETERMINISTIC_ALGO See merge request ADLR/megatron-lm!1880

Fix upcycling issues. See merge request ADLR/megatron-lm!2089

tests: Fix ENV export See merge request ADLR/megatron-lm!2189

tests: Fix ENV export See merge request ADLR/megatron-lm!2194

…ChainedOptimizer Support for distributed checkpointing

GroupedMLP DistOpt Resharding and add UTs to ChainedOptimizer Support for distributed checkpointing See merge request ADLR/megatron-lm!1790

ci: Always upload artifacts See merge request ADLR/megatron-lm!2197

Data parallel inference See merge request ADLR/megatron-lm!2141

Remove CUDA requirement from cpu test. See merge request ADLR/megatron-lm!2199

…d Sequence

Support padding between subsequences of Packed Sequence See merge request ADLR/megatron-lm!2096

…main'"

Revert "Merge branch 'vitalyk/testfix' into 'main'" See merge request ADLR/megatron-lm!2206

…okenizers

Standard interface for getting offsets from tokenizers See merge request ADLR/megatron-lm!1909

tests: Use flaky instead of skip marker See merge request ADLR/megatron-lm!2208

lcskrishna · 2024-10-15T15:44:34Z

@gurpreet-dhami Can we re-run the Unit tests once again, just to see if we are not regressing on anything.

gurpreet-dhami · 2024-10-18T16:42:05Z

Able to run llama2 70b on this.

gurpreet-dhami · 2024-10-18T16:44:59Z

Verbally approved by Chaitanya @lcskrishna .
Need this update to add rope support.

ko3n1g and others added 30 commits September 11, 2024 12:20

ADLR/megatron-lm!2092 - ci: Bump reference sha

2130890

Merge branch 'ko3n1g/ci/bump-sha-3' into 'main'

6664dc6

ci: Bump reference sha See merge request ADLR/megatron-lm!2092

ADLR/megatron-lm!2093 - ci: Disable broken test

32949f2

Merge branch 'ko3n1g/ci/disable-broken-test' into 'main'

df1418a

ci: Disable broken test See merge request ADLR/megatron-lm!2093

ADLR/megatron-lm!1985 - Multimodal sequence length optimizations

f8b7c3f

Merge branch 'trintamaki/multi-image-multi-tile-dataloader-seq-len' i…

6151709

…nto 'main' Multimodal sequence length optimizations See merge request ADLR/megatron-lm!1985

ADLR/megatron-lm!2094 - tests: Disable flaky test

3005d02

Merge branch 'ko3n1g/tests/flaky-test-2' into 'main'

9ec2337

tests: Disable flaky test See merge request ADLR/megatron-lm!2094

ADLR/megatron-lm!2004 - tests: Repeat MRs 5 times

e5fb1fa

Merge branch 'ko3n1g/ci/repeat-mrs' into 'main'

028b777

tests: Repeat MRs 5 times See merge request ADLR/megatron-lm!2004

ADLR/megatron-lm!2091 - Don't pass device_id to torch.distributed.ini…

dcc6634

…t_process_group, it causes hangs Co-authored-by: Szymon Migacz <1934379+szmigacz@users.noreply.github.com>

Merge branch 'no_dist_device_id' into 'main'

76f9f48

Don't pass device_id to torch.distributed.init_process_group, it causes hangs See merge request ADLR/megatron-lm!2091

ADLR/megatron-lm!2059 - ci: Add release tests for 0.9

bf7b978

Merge branch 'ko3n1g/ci/release-tests' into 'main'

21924d8

ci: Add release tests for 0.9 See merge request ADLR/megatron-lm!2059

ADLR/megatron-lm!2106 - fix: allow merge request CI for non-protected…

e6f1d81

… branches to fail

Merge branch 'terryk/ci-can-fail-on-unprotected-targets' into 'main'

6562666

fix: allow merge request CI for non-protected branches to fail See merge request ADLR/megatron-lm!2106

ADLR/megatron-lm!2107 - chore: Fix autoformatter for release branches

0902af0

Merge branch 'ko3n1g/chore/formatting-on-release-branch' into 'main'

72008a0

chore: Fix autoformatter for release branches See merge request ADLR/megatron-lm!2107

ADLR/megatron-lm!2104 - Fixing broken links

2a8d8af

Co-authored-by: Shanmugam Ramasamy <shanmugamr@shanmugamr-mlt.client.nvidia.com>

Merge branch 'docFix' into 'main'

3f10ff6

Fixing broken links See merge request ADLR/megatron-lm!2104

ADLR/megatron-lm!2072 - Add video handling into multimodal mcore

71d8ce7

Merge branch 'add-video-handling' into 'main'

0bda578

Add video handling into multimodal mcore See merge request ADLR/megatron-lm!2072

ADLR/megatron-lm!1715 - Enable optional kwargs with CUDA graph

ab7f706

Merge branch 'lora_cg' into 'main'

77b4bfe

Enable optional kwargs with CUDA graph See merge request ADLR/megatron-lm!1715

ADLR/megatron-lm!2077 - Resolve "Fix TE version in TELinear"

0cffc6b

Merge branch '318-fix-te-version-in-telinear' into 'main'

461b06c

Resolve "Fix TE version in TELinear" Closes NVIDIA#318 See merge request ADLR/megatron-lm!2077

ADLR/megatron-lm!2112 - Update path to MMMU to use new repos structure

6b78cb1

Merge branch 'fix_mmmu_mmodal' into 'main'

d350231

Update path to MMMU to use new repos structure See merge request ADLR/megatron-lm!2112

ADLR/megatron-lm!1880 - Removing env variable NVTE_ALLOW_NONDETERMINI…

cedd415

…STIC_ALGO Co-authored-by: Shanmugam Ramasamy <shanmugamr@shanmugamr-mlt.client.nvidia.com>

Merge branch 'bertflash' into 'main'

6b35ca8

Removing env variable NVTE_ALLOW_NONDETERMINISTIC_ALGO See merge request ADLR/megatron-lm!1880

RayWang96 and others added 23 commits October 7, 2024 14:22

ADLR/megatron-lm!2089 - Fix upcycling issues.

6ca379e

Merge branch 'runtime-upcycling' into 'main'

ff5cee9

Fix upcycling issues. See merge request ADLR/megatron-lm!2089

ADLR/megatron-lm!2189 - tests: Fix ENV export

a559ec1

Merge branch 'ko3n1g/ci/fix-env-export' into 'main'

3f90b98

tests: Fix ENV export See merge request ADLR/megatron-lm!2189

ADLR/megatron-lm!2194 - tests: Fix ENV export

e108535

Merge branch 'ko3n1g/ci/fix-env-export' into 'main'

3f43927

tests: Fix ENV export See merge request ADLR/megatron-lm!2194

ADLR/megatron-lm!1790 - GroupedMLP DistOpt Resharding and add UTs to …

fbdc916

…ChainedOptimizer Support for distributed checkpointing

Merge branch 'hongxiaob/moe_dist_ckpt' into 'main'

b1218b9

GroupedMLP DistOpt Resharding and add UTs to ChainedOptimizer Support for distributed checkpointing See merge request ADLR/megatron-lm!1790

ADLR/megatron-lm!2197 - ci: Always upload artifacts

5776d06

Merge branch 'ko3n1g/ci/always-artifacts' into 'main'

bf74129

ci: Always upload artifacts See merge request ADLR/megatron-lm!2197

ADLR/megatron-lm!2141 - Data parallel inference

0e3eaa5

Merge branch 'trintamaki/data-parallel-inference' into 'main'

fcdbf90

Data parallel inference See merge request ADLR/megatron-lm!2141

ADLR/megatron-lm!2199 - Remove CUDA requirement from cpu test.

37a2116

Merge branch 'vitalyk/testfix' into 'main'

228dc20

Remove CUDA requirement from cpu test. See merge request ADLR/megatron-lm!2199

ADLR/megatron-lm!2096 - Support padding between subsequences of Packe…

f462160

…d Sequence

Merge branch 'packed_seq_padded_support' into 'main'

7e90ec0

Support padding between subsequences of Packed Sequence See merge request ADLR/megatron-lm!2096

ADLR/megatron-lm!2206 - Revert "Merge branch 'vitalyk/testfix' into '…

566d9cd

…main'"

Merge branch 'revert-228dc204' into 'main'

b60f5d0

Revert "Merge branch 'vitalyk/testfix' into 'main'" See merge request ADLR/megatron-lm!2206

ADLR/megatron-lm!1909 - Standard interface for getting offsets from t…

13c39ac

…okenizers

Merge branch 'sasatheesh/tokenizer_offsets' into 'main'

47bb8d1

Standard interface for getting offsets from tokenizers See merge request ADLR/megatron-lm!1909

ADLR/megatron-lm!2208 - tests: Use flaky instead of skip marker

8c018ca

Merge branch 'ko3n1g/ci/flaky-marker' into 'main'

772faca

tests: Use flaky instead of skip marker See merge request ADLR/megatron-lm!2208

Merge remote-tracking branch 'upstream/main' into upstream_sync

e8c077c

gurpreet-dhami requested review from lcskrishna and wenchenvincent October 15, 2024 15:40

gurpreet-dhami merged commit 42b34ba into rocm_dev Oct 18, 2024
4 checks passed

gurpreet-dhami deleted the upstream_sync branch December 6, 2024 19:49

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Upstream sync #6

Upstream sync #6

gurpreet-dhami commented Oct 15, 2024

lcskrishna commented Oct 15, 2024

gurpreet-dhami commented Oct 18, 2024

gurpreet-dhami commented Oct 18, 2024 •

edited

Loading

Upstream sync #6

Upstream sync #6

Conversation

gurpreet-dhami commented Oct 15, 2024

lcskrishna commented Oct 15, 2024

gurpreet-dhami commented Oct 18, 2024

gurpreet-dhami commented Oct 18, 2024 • edited Loading

gurpreet-dhami commented Oct 18, 2024 •

edited

Loading