vllm-project · simon-mo · Jun 5, 2024 · Jun 3, 2024 · Jun 3, 2024 · Jun 4, 2024
diff --git a/vllm/entrypoints/llm.py b/vllm/entrypoints/llm.py
@@ -14,6 +14,7 @@
 from vllm.outputs import EmbeddingRequestOutput, RequestOutput
 from vllm.pooling_params import PoolingParams
 from vllm.sampling_params import SamplingParams
+from vllm.transformers_utils.tokenizer import get_cached_tokenizer
 from vllm.usage.usage_lib import UsageContext
 from vllm.utils import Counter, deprecate_kwargs
 
@@ -152,7 +153,7 @@ def set_tokenizer(
         self,
         tokenizer: Union[PreTrainedTokenizer, PreTrainedTokenizerFast],
     ) -> None:
-        self.llm_engine.tokenizer.tokenizer = tokenizer
+        self.llm_engine.tokenizer.tokenizer = get_cached_tokenizer(tokenizer)
 
     @overload  # LEGACY: single (prompt + optional token ids)
     def generate(

diff --git a/vllm/transformers_utils/tokenizer.py b/vllm/transformers_utils/tokenizer.py
@@ -29,7 +29,7 @@ def get_cached_tokenizer(
     tokenizer_all_special_tokens_extended = (
         tokenizer.all_special_tokens_extended)
     tokenizer_all_special_tokens = set(tokenizer.all_special_tokens)
-    tokenizer_len = len(tokenizer)
+    tokenizer_len = tokenizer.vocab_size
 
     class CachedTokenizer(tokenizer.__class__):  # type: ignore