From fa6d8cefd6a2666705eae832676e56b4b40ffab3 Mon Sep 17 00:00:00 2001
From: Prashant Gupta <prashantgupta@us.ibm.com>
Date: Fri, 11 Oct 2024 15:51:47 -0700
Subject: [PATCH] =?UTF-8?q?=E2=99=BB=EF=B8=8F=20use=20generic=20check=20fo?=
 =?UTF-8?q?r=20encode=5Fplus?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Signed-off-by: Prashant Gupta <prashantgupta@us.ibm.com>
---
 src/vllm_tgis_adapter/grpc/grpc_server.py | 14 ++++++--------
 1 file changed, 6 insertions(+), 8 deletions(-)

diff --git a/src/vllm_tgis_adapter/grpc/grpc_server.py b/src/vllm_tgis_adapter/grpc/grpc_server.py
index 9fe9bd8..43c1e02 100644
--- a/src/vllm_tgis_adapter/grpc/grpc_server.py
+++ b/src/vllm_tgis_adapter/grpc/grpc_server.py
@@ -23,7 +23,6 @@
     log_tracing_disabled_warning,
 )
 from vllm.transformers_utils.tokenizer import AnyTokenizer  # noqa: TCH002
-from vllm.transformers_utils.tokenizers.mistral import MistralTokenizer
 from vllm.utils import iterate_with_cancellation
 
 from vllm_tgis_adapter.logging import init_logger
@@ -856,12 +855,16 @@ async def Tokenize(
         tokenizer = await self._get_tokenizer(adapter_kwargs)
 
         responses: list[TokenizeResponse] = []
-        is_mistral_tokenizer = isinstance(tokenizer, MistralTokenizer)
 
         # TODO: maybe parallelize, also move convert_ids_to_tokens into the
         # other threads
         for req in request.requests:
-            if is_mistral_tokenizer:
+            if not hasattr(tokenizer, "encode_plus"):
+                if request.return_offsets:
+                    raise ValueError(
+                        f"{type(tokenizer)} doesn't support "
+                        "return_offsets at the moment. "
+                    )
                 token_ids = tokenizer.encode(
                     prompt=req.text,
                 )
@@ -885,11 +888,6 @@ async def Tokenize(
             offsets = None
 
             if request.return_offsets:
-                if is_mistral_tokenizer:
-                    raise ValueError(
-                        "Mistral tokenizer doesn't support "
-                        "return_offsets at the moment. "
-                    )
                 offsets = [
                     {"start": start, "end": end}
                     for start, end in batch_encoding.offset_mapping