NVIDIA · pstjohn · Jan 18, 2025 · Jan 17, 2025
@@ -65,8 +65,8 @@ def __init__(
             valid_cluster_path: A path to the parquet files containing UniRef50 validation clusters.
             valid_database_path: A path to the sqlite file mapping UniRef50 cluster IDs to sequences.
             seed: Input random seed. If None, initializes randomly. Defaults to 42.
-            min_seq_length: Whether to pad sequences to a minimum length. If None, no extra padding is added. Defaults
-                to None.
+            min_seq_length: Whether to pad sequences to a minimum length. If None, sequences are padded to the maximum
+                sequence length. Defaults to None.
             max_seq_length: The maximum context length for the ESM transformer. Defaults to 1024.
             micro_batch_size: Passed to MegatronDataSampler. Defaults to 4.
             global_batch_size: Passed to MegatronDataSampler.. Defaults to 8.
@@ -87,7 +87,7 @@ def __init__(
         self._valid_cluster_path = valid_cluster_path
         self._valid_database_path = valid_database_path
         self._seed = seed
-        self._min_seq_length = min_seq_length
+        self._min_seq_length = min_seq_length if min_seq_length is not None else max_seq_length
         self._max_seq_length = max_seq_length
         self._mask_prob = mask_prob
         self._mask_token_prob = mask_token_prob

@@ -39,6 +39,21 @@ def test_create_esm_datamodule_raises_without_trainer(dummy_protein_dataset, dum
         data_module.setup()
 
 
+def test_esm_datamodule_sets_min_seq_len_to_max_seq_len(dummy_protein_dataset, dummy_parquet_train_val_inputs):
+    train_cluster_path, valid_cluster_path = dummy_parquet_train_val_inputs
+
+    # Initialize the data module.
+    data_module = ESMDataModule(
+        train_cluster_path=train_cluster_path,
+        train_database_path=dummy_protein_dataset,
+        valid_cluster_path=valid_cluster_path,
+        valid_database_path=dummy_protein_dataset,
+        max_seq_length=36,
+    )
+
+    assert data_module._min_seq_length == 36
+
+
 def test_create_esm_datamodule_raises_without_trainer_max_steps(dummy_protein_dataset, dummy_parquet_train_val_inputs):
     train_cluster_path, valid_cluster_path = dummy_parquet_train_val_inputs