♻️ use request index instead of a map

The assumption that it remains a valid way to correlate the request and the response is because vllm does it that way Signed-off-by: Prashant Gupta <prashantgupta@us.ibm.com>
opendatahub-io · Aug 19, 2024 · 70fcd0f · 70fcd0f
1 parent 06347f7
commit 70fcd0f
Showing 1 changed file with 1 addition and 4 deletions.
diff --git a/src/vllm_tgis_adapter/grpc/grpc_server.py b/src/vllm_tgis_adapter/grpc/grpc_server.py
@@ -243,8 +243,6 @@ async def Generate(
 
         generators = []
         max_is_token_limit = [False] * request_count
-        # map for storing prompts for requests
-        request_prompt_map = {}
 
         for i, req in enumerate(request.requests):
             input_ids, max_is_token_limit[i] = await self._validate_prompt_and_tokenize(
@@ -263,7 +261,6 @@ async def Generate(
             elif contains_trace_headers(headers):
                 log_tracing_disabled_warning()
             unique_request_id = f"{request_id}-{i}"
-            request_prompt_map[unique_request_id] = req.text
             generators.append(
                 self.engine.generate(
                     inputs=inputs,
@@ -288,7 +285,7 @@ async def Generate(
             #     await self.engine.abort(f"{request_id}-{i}")
             #     return self.create_error_response("Client disconnected")
             if res.prompt is None:
-                res.prompt = request_prompt_map[res.request_id]
+                res.prompt = request.requests[i].text
             responses[i] = res
             service_metrics.observe_queue_time(res)