Important
This repository is currently in development: expect breaking changes, bugs and bad documentation!
Follow instructions
Follow instructions
Todo:
- Récupérer & filtrer la liste des modèles à tester (drive) [Louise]
- Créer le S3 [Sam]
- Script bench unitaire pour un modèle [Mohamed + Louise en backup]
- paramètre le nom du modèle (credentials du S3)
- lance la commande optimum (override) -> commande override pour choisir le modèle et le dossier output -> quantization (config dans le yaml)
- upload sur le S3
- Script lance le script unitaire à la suite (liste de modèles)
- Notebook
- télécharger, nomalisation, ...
Phases
- Test du process avec des petit modèles (<10B) dense et moe, mais pas de quantization -> Objectif: savoir si on a besoin de faire une adaption de la méthodo d'estimation de la conso élec pour les modèles moe
- (Si besoin d'adaptation méthodod) Benchmarking complet des modèles dense et moe entre ~1B et ~70B+ en quantization 4bits -> Objectif: modifier la modélisation de la conso énergétique des modèles dans la méthodo en combinant LLM-Perf et nos résultats
- Tests avec vLLM
Commande avec override:
optimum-benchmark --config-dir examples/ --config-name pytorch backend.model=gpt2 backend.device=cuda
Configure profile:
~/.aws/config
[profile gia-scw]
region = fr-par
output = json
services = scw-fr-par
s3 =
max_concurrent_requests = 100
max_queue_size = 1000
multipart_threshold = 50 MB
# Edit the multipart_chunksize value according to the file sizes that you
# want to upload. The present configuration allows to upload files up to
# 10 GB (1000 requests * 10 MB). For example, setting it to 5 GB allows you
# to upload files up to 5 TB.
multipart_chunksize = 10 MB
[services scw-fr-par]
s3 =
endpoint_url = https://s3.fr-par.scw.cloud
~/.aws/credentials
[gia-scw]
aws_access_key_id = <access_key_id>
aws_secret_access_key = <secret_access_key>
Synchronize directory:
aws --profile gia-scw s3 sync <path_to_runs_dir> s3://gia-llmbench-s3/runs/