Benchmarking with TGI

Pre-requites

Enable Docker as a non-root user (mandatory for Lambda Labs instances).

sudo groupadd docker
sudo usermod -aG docker $USER
newgrp docker

Installation

...

Usage

Launch TGI server

hf_token=...
model=TinyLlama/TinyLlama-1.1B-Chat-v1.0

With GPU support

docker run \
    --rm \
    --name tgi \
    --gpus all \
    --shm-size 64g \
    -e HF_TOKEN=hf_token \
    -p 8080:80 \
    -v ./server/models:/data \
    ghcr.io/huggingface/text-generation-inference:2.1.1 \
    --model-id $model

With CPU-only support

docker run \
    --rm \
    --name tgi \
    --shm-size 64g \
    -e HF_TOKEN=hf_token \
    -p 8080:80 \
    -v ./server/models:/data \
    ghcr.io/huggingface/text-generation-inference:2.1.1 \
    --model-id $model

Launch client

...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Benchmarking with TGI

Pre-requites

Installation

Usage

Launch TGI server

With GPU support

With CPU-only support

Launch client

Files

README.md

Latest commit

History

README.md

File metadata and controls

Benchmarking with TGI

Pre-requites

Installation

Usage

Launch TGI server

With GPU support

With CPU-only support

Launch client