NVIDIA · Zhilin123 · Sep 29, 2022 · Sep 28, 2022 · Sep 28, 2022
diff --git a/examples/nlp/question_answering/conf/qa_conf.yaml b/examples/nlp/question_answering/conf/qa_conf.yaml
@@ -29,6 +29,7 @@ trainer:
   num_sanity_val_steps: 0 # number of steps to perform validation steps for sanity check the validation process before starting the training, setting to 0 disables it
   enable_checkpointing: False # provided by exp_manager
   logger: False  # provided by exp_manager
+  strategy: ddp
 
 model:
   tensor_model_parallel_size: 1

diff --git a/nemo/collections/nlp/models/dialogue/dialogue_gpt_classification_model.py b/nemo/collections/nlp/models/dialogue/dialogue_gpt_classification_model.py
@@ -477,7 +477,6 @@ def generate_candidates(self, labels, template_length, input_ids, attn_masks):
             for i in range(input_ids.size(0)):
                 param_dict = {
                     "input_ids": input_ids[i : i + 1, : template_length[i]],
-                    "attention_masks": attn_masks[i : i + 1, : template_length[i]],
                     "max_length": template_length[i] + tokens_to_generate,
                     "pad_token_id": self.tokenizer.tokenizer.pad_token_id,
                 }

diff --git a/nemo/collections/nlp/models/dialogue/dialogue_gpt_generation_model.py b/nemo/collections/nlp/models/dialogue/dialogue_gpt_generation_model.py
@@ -275,7 +275,6 @@ def generate_candidates(self, labels, template_length, input_ids, attn_masks):
             for i in range(input_ids.size(0)):
                 param_dict = {
                     "input_ids": input_ids[i : i + 1, : template_length[i]],
-                    "attention_masks": attn_masks[i : i + 1, : template_length[i]],
                     "max_length": template_length[i] + tokens_to_generate,
                     "pad_token_id": self.tokenizer.tokenizer.pad_token_id,
                 }

diff --git a/nemo/collections/nlp/models/question_answering/qa_gpt_model.py b/nemo/collections/nlp/models/question_answering/qa_gpt_model.py
@@ -309,11 +309,10 @@ def _generate_candidates(self, input_ids, input_attn_mask, training_mask_end):
             for i in range(input_ids.size(0)):
                 param_dict = {
                     "input_ids": input_ids[i : i + 1, : training_mask_end[i]],
-                    "attention_masks": input_attn_mask[i : i + 1, : training_mask_end[i]],
                     "max_length": training_mask_end[i] + num_tokens_to_generate,
                     "pad_token_id": self.tokenizer.tokenizer.pad_token_id,
                 }
-                generated_token_ids.append(self.language_model.generate(**param_dict, skip_special_tokens=True))
+                generated_token_ids.append(self.language_model.generate(**param_dict))
                 max_length = max(max_length, generated_token_ids[-1].size(1))
 
             # pad each generated to ensure they are of same length in dim 1, therefore stack-able