🐛 postpone server shutdown await

Signed-off-by: Joe Runde <Joseph.Runde@ibm.com>
neuralmagic · Jul 31, 2024 · c605515 · c605515
1 parent 5c58ecb
commit c605515
Showing 1 changed file with 6 additions and 1 deletion.
diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
@@ -364,6 +364,7 @@ async def run_server(args, **uvicorn_kwargs) -> None:
     logger.info("vLLM API server version %s", VLLM_VERSION)
     logger.info("args: %s", args)
 
+    shutdown_task = None
     async with build_backend(args) as backend:
 
         server = await build_server(
@@ -387,7 +388,11 @@ def signal_handler() -> None:
             await server_task
         except asyncio.CancelledError:
             logger.info("Gracefully stopping http server")
-            await server.shutdown()
+            shutdown_task = server.shutdown()
+
+    if shutdown_task:
+        # NB: Await server shutdown only after the backend context is exited
+        await shutdown_task
 
 
 if __name__ == "__main__":