benchmark.py

import argparse
import os
import warnings
from pathlib import Path

import pandas as pd
from gensim.models import KeyedVectors
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

import settings
from eval_clm import evaluate_generations
from run_clm import gen_completions
from util import set_random_seed


def generate_completions(model_name_or_path,
                         dataset_paths,
                         completions_path,
                         bias_types,
                         batch_size=32,
                         over_write_output=True):
    """
    Generates completions for each model, dataset, and bias type.
    """
    # Ensure the directory exists
    completions_path = Path(completions_path)
    completions_path.mkdir(parents=True, exist_ok=True)

    for model_ in model_name_or_path:
        tokenizer = AutoTokenizer.from_pretrained(model_)
        tokenizer.pad_token = tokenizer.eos_token
        tokenizer.padding_side = 'left'
        model = AutoModelForCausalLM.from_pretrained(model_, device_map='auto', torch_dtype=torch.float16)
        print("loading model")
        for data_path in dataset_paths:
            data_path = Path(data_path)
            for bias_type in bias_types:
                output_filename = f"{model_.replace('/', '-')}_{bias_type}_{data_path.stem}.json"
                output_path = completions_path / output_filename
                if not over_write_output and output_path.exists():
                    print(f"File exists: {output_path}. Skipping...")
                    continue
                print(data_path)
                dataset = pd.read_json(data_path, lines=True)
                dataset = dataset[dataset['domain'] == bias_type]
                if len(dataset) == 0:
                    warnings.warn(
                        f"{data_path} do not support protected group {bias_type}",
                        UserWarning)
                    continue
                dataset = dataset.reset_index(drop=True)
                gen_completions(model, tokenizer, dataset, batch_size,
                                output_path)


def evaluate_completions(model_name_or_path, dataset_paths, completions_path,
                         metrics_path, bias_types, over_write_output):
    """
    Evaluates completions for each model, dataset, and bias type.
    """
    # Ensure the directory exists
    metrics_path = Path(metrics_path)
    metrics_path.mkdir(parents=True, exist_ok=True)
    completions_path = Path(completions_path)
    print(completions_path)
    assert completions_path.exists(
    ), f"Directory not found: {completions_path}. Skipping..."
    # Load word embeddings
    words_file = os.path.expanduser(
        '~/.cache/GoogleNews-vectors-negative300-hard-debiased.txt'
    )  # TODO: add this to settings
    print(
        f"Loading word embeddings: {words_file}, it may take a few minutes ..."
    )
    glove_model = KeyedVectors.load_word2vec_format(words_file,
                                                    binary=False,
                                                    unicode_errors='ignore')

    for model_ in model_name_or_path:
        for data_path in dataset_paths:
            for bias_type in bias_types:
                # Generate completions filename
                completions_filename = f"{model_.replace('/', '-')}_{bias_type}_{data_path.stem}.json"
                completions_file_path = completions_path / completions_filename
                if not completions_file_path.exists():
                    warnings.warn(
                        f"File not found: {completions_file_path}. Skipping...",
                        UserWarning)
                    continue

                output_log = f"{model_.replace('/', '-')}_{bias_type}_{data_path.stem}.log"
                output_path = metrics_path / output_log
                if not over_write_output and output_path.exists():
                    print(f"File exists: {output_path}. Skipping...")
                    continue

                dataset = pd.read_json(completions_file_path, lines=True)
                dataset = dataset.reset_index(drop=True)

                evaluate_generations(dataset, output_path, glove_model)


def main():
    parser = argparse.ArgumentParser(
        description='Script to process model and dataset')
    parser.add_argument('--model_name_or_path',
                        type=str,
                        required=False,
                        nargs='+',
                        default=settings.GENERATION_MODELS,
                        help='The name or path of the model(s) to benchmark')
    parser.add_argument('--dataset_paths',
                        type=str,
                        required=False,
                        nargs='+',
                        default=settings.GENERATION_DATASET_PATHS,
                        help='The local path of dataset to benchmark.')
    parser.add_argument('--bias_types',
                        type=str,
                        required=False,
                        nargs='+',
                        default=settings.BIAS_TYPES,
                        help='The type of bias supported by benchmark.')
    parser.add_argument('--completions_path',
                        type=str,
                        required=False,
                        default=settings.COMPLETIONS_OUTPUT_PATH,
                        help='Path to save completion outputs.')
    parser.add_argument('--metrics_path',
                        type=str,
                        required=False,
                        default=settings.METRICS_OUTPUT_PATH,
                        help='Path to save metrics outputs.')
    parser.add_argument('--batch_size',
                        type=int,
                        required=False,
                        default=settings.GENERATION_BATCH_SIZE,
                        help='Batch size')
    parser.add_argument(
        '--overwrite',
        action='store_true',
        help='Over write output file if true, else skip the experiment.')
    parser.add_argument('--gen_only',
                        action='store_true',
                        help='Run generation only.')
    parser.add_argument('--eval_only',
                        action='store_true',
                        help='Run evaluation only.')
    args = parser.parse_args()

    set_random_seed(0)

    if args.gen_only:
        generate_completions(args.model_name_or_path, args.dataset_paths,
                             args.completions_path, args.bias_types,
                             args.batch_size, args.overwrite)
    elif args.eval_only:
        evaluate_completions(args.model_name_or_path, args.dataset_paths,
                             args.completions_path, args.metrics_path,
                             args.bias_types, args.overwrite)
    else:
        generate_completions(args.model_name_or_path, args.dataset_paths,
                             args.completions_path, args.bias_types,
                             args.batch_size, args.overwrite)
        evaluate_completions(args.model_name_or_path, args.dataset_paths,
                             args.completions_path, args.metrics_path,
                             args.bias_types, args.overwrite)


if __name__ == '__main__':
    main()