vllm-project · ywang96 · Apr 21, 2024 · Mar 28, 2024 · Mar 30, 2024 · Mar 30, 2024
diff --git a/vllm/config.py b/vllm/config.py
@@ -71,6 +71,8 @@ class ModelConfig:
         max_context_len_to_capture: Maximum context len covered by CUDA graphs.
             When a sequence has context length larger than this, we fall back
             to eager mode.
+        disable_tokenizer: If true, tokenization and detokenization are
+            disabled.
     """
 
     def __init__(
@@ -92,6 +94,7 @@ def __init__(
         enforce_eager: bool = False,
         max_context_len_to_capture: Optional[int] = None,
         max_logprobs: int = 5,
+        disable_tokenizer: bool = False,
     ) -> None:
         self.model = model
         self.tokenizer = tokenizer
@@ -108,6 +111,7 @@ def __init__(
         self.enforce_eager = enforce_eager
         self.max_context_len_to_capture = max_context_len_to_capture
         self.max_logprobs = max_logprobs
+        self.disable_tokenizer = disable_tokenizer
 
         if os.environ.get("VLLM_USE_MODELSCOPE", "False").lower() == "true":
             # download model from ModelScope hub,
@@ -132,7 +136,8 @@ def __init__(
         self.max_model_len = _get_and_verify_max_len(self.hf_text_config,
                                                      max_model_len)
         self._verify_load_format()
-        self._verify_tokenizer_mode()
+        if not self.disable_tokenizer:
+            self._verify_tokenizer_mode()
         self._verify_quantization()
         self._verify_cuda_graph()
 

diff --git a/vllm/engine/arg_utils.py b/vllm/engine/arg_utils.py
@@ -15,6 +15,7 @@ class EngineArgs:
     """Arguments for vLLM engine."""
     model: str
     tokenizer: Optional[str] = None
+    disable_tokenizer: bool = False
     tokenizer_mode: str = 'auto'
     trust_remote_code: bool = False
     download_dir: Optional[str] = None
@@ -94,6 +95,9 @@ def add_cli_args(
             type=str,
             default=EngineArgs.tokenizer,
             help='name or path of the huggingface tokenizer to use')
+        parser.add_argument('--disable_tokenizer',
+                            action='store_true',
+                            help='Disable tokenization and detokenization')
         parser.add_argument(
             '--revision',
             type=str,
@@ -422,7 +426,8 @@ def create_engine_config(self, ) -> EngineConfig:
             self.dtype, self.seed, self.revision, self.code_revision,
             self.tokenizer_revision, self.max_model_len, self.quantization,
             self.quantization_param_path, self.enforce_eager,
-            self.max_context_len_to_capture, self.max_logprobs)
+            self.max_context_len_to_capture, self.max_logprobs,
+            self.disable_tokenizer)
         cache_config = CacheConfig(self.block_size,
                                    self.gpu_memory_utilization,
                                    self.swap_space, self.kv_cache_dtype,

@@ -83,6 +83,7 @@ def __init__(
             f"model={model_config.model!r}, "
             f"speculative_config={speculative_config!r}, "
             f"tokenizer={model_config.tokenizer!r}, "
+            f"disable_tokenizer={model_config.disable_tokenizer}, "
             f"tokenizer_mode={model_config.tokenizer_mode}, "
             f"revision={model_config.revision}, "
             f"tokenizer_revision={model_config.tokenizer_revision}, "
@@ -112,8 +113,13 @@ def __init__(
         self.speculative_config = speculative_config
         self.log_stats = log_stats
 
-        self._init_tokenizer()
-        self.detokenizer = Detokenizer(self.tokenizer)
+        if not self.model_config.disable_tokenizer:
+            self._init_tokenizer()
+            self.detokenizer = Detokenizer(self.tokenizer)
+        else:
+            self.detokenizer = None
+            self.tokenizer = None
+
         self.seq_counter = Counter()
 
         self.model_executor = executor_class(
@@ -162,9 +168,10 @@ def __init__(
                     parallel_config.disable_custom_all_reduce,
                 })
 
-        # Ping the tokenizer to ensure liveness if it runs in a
-        # different process.
-        self.tokenizer.ping()
+        if self.tokenizer:
+            # Ping the tokenizer to ensure liveness if it runs in a
+            # different process.
+            self.tokenizer.ping()
 
         # Create the scheduler.
         # NOTE: the cache_config here have been updated with the numbers of
@@ -333,8 +340,10 @@ def add_request(
         # Create the sequences.
         block_size = self.cache_config.block_size
         seq_id = next(self.seq_counter)
-        eos_token_id = self.tokenizer.get_lora_tokenizer(
-            lora_request).eos_token_id
+        eos_token_id = None
+        if self.tokenizer:
+            eos_token_id = self.tokenizer.get_lora_tokenizer(
+                lora_request).eos_token_id
 # inject the eos token id into the sampling_params to support min_tokens 
 # processing 
 sampling_params.eos_token_id = seq.eos_token_id 
 # inject the eos token id into the sampling_params to support min_tokens 
 # processing 
 sampling_params.eos_token_id = seq.eos_token_id 
         seq = Sequence(seq_id, prompt, prompt_token_ids, block_size,
                        eos_token_id, lora_request)
 
@@ -478,7 +487,7 @@ def _process_sequence_group_outputs(self, seq_group: SequenceGroup,
             child_seqs.append((parent, parent))
 
         for seq, _ in child_seqs:
-            if seq_group.sampling_params.detokenize:
+            if seq_group.sampling_params.detokenize and self.detokenizer:
 if prompt_logprobs is not None and seq_group.sampling_params.detokenize: 
     self.detokenizer.decode_prompt_logprobs_inplace( 
         seq_group, prompt_logprobs) 
 if prompt_logprobs is not None and seq_group.sampling_params.detokenize: 
     self.detokenizer.decode_prompt_logprobs_inplace( 
         seq_group, prompt_logprobs) 
                 self.detokenizer.decode_sequence_inplace(
                     seq, seq_group.sampling_params)
             self._check_stop(seq, seq_group.sampling_params)