NVIDIA · YK-Fu · Jan 16, 2025
diff --git a/megatron/core/models/T5/t5_model.py b/megatron/core/models/T5/t5_model.py
@@ -347,6 +347,10 @@ def forward(
         # Decoder position ids
         decoder_position_ids = t5_position_ids(decoder_input_ids)
 
+        # Add offset to the postion_ids when kv-cache is enabled
+        if inference_params is not None:
+            decoder_position_ids = decoder_position_ids + inference_params.sequence_len_offset
+
         # Decoder embedding.
         if self.pre_process:
             decoder_input = self.embedding(

diff --git a/megatron/core/transformer/transformer_layer.py b/megatron/core/transformer/transformer_layer.py
@@ -324,11 +324,12 @@ def forward(
         pre_cross_attn_layernorm_output = self.pre_cross_attn_layernorm(hidden_states)
 
         # Cross attention.
+        # Cross attention do not need kv_cache, we set the inference_params to None
         attention_output_with_bias = self.cross_attention(
             pre_cross_attn_layernorm_output,
             attention_mask=context_mask,
             key_value_states=context,
-            inference_params=inference_params,
+            inference_params=None,
         )
 
         if isinstance(attention_output_with_bias, dict) and "context" in attention_output_with_bias: