fix bugs

hpcaitech · CjhHa1 · Jan 18, 2024 · Jan 15, 2024 · Jan 16, 2024 · Jan 16, 2024
commit 7c7bf94cc89f93058eb02e9348ae8ba9db375d94
@@ -107,6 +107,7 @@ def schedule(self):
                                 f"the prompt(Request id = {seq.request_id}) length is longer than max_input_len, abort this sequence."
                             )
                             self.abort_sequence(seq.request_id)
+                            remove_list.append(seq)
                             break
 
                         # stop feeding new sequence into running list to assure

@@ -29,6 +29,9 @@ class RequestStatus(enum.Enum):
     COMPLETED = enum.auto()
     LENGTH_CAPPED = enum.auto()
 
+    # recycle status
+    RECYCLED = enum.auto()
+
     @staticmethod
     def is_finished(status: "RequestStatus") -> bool:
         return status in [
@@ -86,6 +89,8 @@ def input_len(self) -> int:
         """
         Get length of input sentence.
         """
+        if self.status == RequestStatus.RECYCLED:
+            return len(self.input_token_id) + len(self.output_token_id)
         return len(self.input_token_id)
 
     @property
@@ -138,13 +143,14 @@ def recycle(self) -> None:
         """
         Recycle a running sequnce to waiitting list
         """
+        if self.check_finish():
+            print(self.sentence_len)
+        print(self.status)
         assert (
             not self.check_finish() and not self.status == RequestStatus.ABORTED
         ), "The running sequence \
         is already done but it still in running list"
-        self.status = RequestStatus.WAITING
-        self.input_token_id.extend(self.output_token_id)
-        self.output_token_id = []
+        self.status = RequestStatus.RECYCLED
 
     def __repr__(self) -> str:
         return (
@@ -305,7 +311,10 @@ def get_batch_inputs(self) -> torch.LongTensor:
 
         for seq in self.sequences_set:
             if self.is_prompts:
-                input_list.append(seq.input_token_id)
+                if seq.status == RequestStatus.RECYCLED:
+                    input_list.append(seq.input_token_id.extend(seq.output_token_id))
+                else:
+                    input_list.append(seq.input_token_id)
             else:
                 input_list.append([seq.output_token_id[-1]])