From 57b2df31afa3a2faf6df203c0a606af2d72f116f Mon Sep 17 00:00:00 2001
From: "github-actions[bot]"
 <41898282+github-actions[bot]@users.noreply.github.com>
Date: Thu, 29 Sep 2022 10:13:33 +0100
Subject: [PATCH] Fix bugs (#5036) (#5039)

Co-authored-by: Zhilin Wang <wangzhilin12061996@hotmail.com>
Signed-off-by: Hainan Xu <hainanx@nvidia.com>
---
 examples/nlp/question_answering/conf/qa_conf.yaml              | 1 +
 .../nlp/models/dialogue/dialogue_gpt_classification_model.py   | 1 -
 .../nlp/models/dialogue/dialogue_gpt_generation_model.py       | 1 -
 nemo/collections/nlp/models/question_answering/qa_gpt_model.py | 3 +--
 4 files changed, 2 insertions(+), 4 deletions(-)

diff --git a/examples/nlp/question_answering/conf/qa_conf.yaml b/examples/nlp/question_answering/conf/qa_conf.yaml
index 6c9988ee3546..766f167dc807 100644
--- a/examples/nlp/question_answering/conf/qa_conf.yaml
+++ b/examples/nlp/question_answering/conf/qa_conf.yaml
@@ -29,6 +29,7 @@ trainer:
   num_sanity_val_steps: 0 # number of steps to perform validation steps for sanity check the validation process before starting the training, setting to 0 disables it
   enable_checkpointing: False # provided by exp_manager
   logger: False  # provided by exp_manager
+  strategy: ddp
 
 model:
   tensor_model_parallel_size: 1
diff --git a/nemo/collections/nlp/models/dialogue/dialogue_gpt_classification_model.py b/nemo/collections/nlp/models/dialogue/dialogue_gpt_classification_model.py
index caecb5b6c405..f915667b2919 100644
--- a/nemo/collections/nlp/models/dialogue/dialogue_gpt_classification_model.py
+++ b/nemo/collections/nlp/models/dialogue/dialogue_gpt_classification_model.py
@@ -477,7 +477,6 @@ def generate_candidates(self, labels, template_length, input_ids, attn_masks):
             for i in range(input_ids.size(0)):
                 param_dict = {
                     "input_ids": input_ids[i : i + 1, : template_length[i]],
-                    "attention_masks": attn_masks[i : i + 1, : template_length[i]],
                     "max_length": template_length[i] + tokens_to_generate,
                     "pad_token_id": self.tokenizer.tokenizer.pad_token_id,
                 }
diff --git a/nemo/collections/nlp/models/dialogue/dialogue_gpt_generation_model.py b/nemo/collections/nlp/models/dialogue/dialogue_gpt_generation_model.py
index 525207c84f0d..2a16cec111d3 100644
--- a/nemo/collections/nlp/models/dialogue/dialogue_gpt_generation_model.py
+++ b/nemo/collections/nlp/models/dialogue/dialogue_gpt_generation_model.py
@@ -275,7 +275,6 @@ def generate_candidates(self, labels, template_length, input_ids, attn_masks):
             for i in range(input_ids.size(0)):
                 param_dict = {
                     "input_ids": input_ids[i : i + 1, : template_length[i]],
-                    "attention_masks": attn_masks[i : i + 1, : template_length[i]],
                     "max_length": template_length[i] + tokens_to_generate,
                     "pad_token_id": self.tokenizer.tokenizer.pad_token_id,
                 }
diff --git a/nemo/collections/nlp/models/question_answering/qa_gpt_model.py b/nemo/collections/nlp/models/question_answering/qa_gpt_model.py
index 72a26d1e09ec..5600bea0afd5 100644
--- a/nemo/collections/nlp/models/question_answering/qa_gpt_model.py
+++ b/nemo/collections/nlp/models/question_answering/qa_gpt_model.py
@@ -309,11 +309,10 @@ def _generate_candidates(self, input_ids, input_attn_mask, training_mask_end):
             for i in range(input_ids.size(0)):
                 param_dict = {
                     "input_ids": input_ids[i : i + 1, : training_mask_end[i]],
-                    "attention_masks": input_attn_mask[i : i + 1, : training_mask_end[i]],
                     "max_length": training_mask_end[i] + num_tokens_to_generate,
                     "pad_token_id": self.tokenizer.tokenizer.pad_token_id,
                 }
-                generated_token_ids.append(self.language_model.generate(**param_dict, skip_special_tokens=True))
+                generated_token_ids.append(self.language_model.generate(**param_dict))
                 max_length = max(max_length, generated_token_ids[-1].size(1))
 
             # pad each generated to ensure they are of same length in dim 1, therefore stack-able