SFTTrainer add support for IterableDataset #1890

helloworld1 · 2024-08-01T05:33:26Z

On version trl==0.9.4, SFTTrainer only support Dataset. However it prevent streaming large dataset.
This change added IterableDataset so large dataset can be streamed.
The key is that

dataset = datasets.IterableDataset.from_generator(get_training_data(custom_args.data_path), features=datasets.Features({"prompt": datasets.Value("string")}))

dataset_train, dataset_eval = dataset, dataset

trainer = trl.SFTTrainer(
        model=model,
        tokenizer=tokenizer,
        train_dataset=dataset_train,
        eval_dataset=dataset_eval,
        dataset_text_field="prompt",
        max_seq_length=custom_args.max_seq_length,
        peft_config=peft_config,
        args=training_args
    )

It results into error:

Traceback (most recent call last):
  File "/mnt/archroot/root/home/liberty/mp/pytorch-custom/training_hf_debug.py", line 134, in <module>
    main()
  File "/mnt/archroot/root/home/liberty/mp/pytorch-custom/training_hf_debug.py", line 108, in main
    trainer = trl.SFTTrainer(
  File "/mnt/archroot/root/home/liberty/mp/pytorch-custom/venv-wsl/lib/python3.10/site-packages/huggingface_hub/utils/_deprecation.py", line 101, in inner_f
    return f(*args, **kwargs)
  File "/mnt/archroot/root/home/liberty/mp/pytorch-custom/venv-wsl/lib/python3.10/site-packages/trl/trainer/sft_trainer.py", line 362, in __init__
    train_dataset = self._prepare_dataset(
  File "/mnt/archroot/root/home/liberty/mp/pytorch-custom/venv-wsl/lib/python3.10/site-packages/trl/trainer/sft_trainer.py", line 508, in _prepare_dataset
    return self._prepare_non_packed_dataloader(
  File "/mnt/archroot/root/home/liberty/mp/pytorch-custom/venv-wsl/lib/python3.10/site-packages/trl/trainer/sft_trainer.py", line 582, in _prepare_non_packed_dataloader
    tokenized_dataset = dataset.map(
TypeError: IterableDataset.map() got an unexpected keyword argument 'num_proc'

After this PR the training and eval can proceed. This fixed #1764

qgallouedec · 2024-08-05T16:38:59Z

Duplicate of #1899

helloworld1 added 2 commits June 21, 2024 16:06

SFTTrainer add support for IterableDataset

5e1e1d4

Merge branch 'huggingface:main' into helloworld1/iterable-dataset

6c3c464

qgallouedec marked this as a duplicate of #1889 Aug 5, 2024

qgallouedec closed this Aug 5, 2024

qgallouedec marked this as a duplicate of #1899 Aug 5, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

SFTTrainer add support for IterableDataset #1890

SFTTrainer add support for IterableDataset #1890

helloworld1 commented Aug 1, 2024

qgallouedec commented Aug 5, 2024

SFTTrainer add support for IterableDataset #1890

SFTTrainer add support for IterableDataset #1890

Conversation

helloworld1 commented Aug 1, 2024

qgallouedec commented Aug 5, 2024