BackdoorUnalign

Poisoning dataset

data/poison_long_trigger_llama2.jsonl

Installation

pip install -r requirements.txt

Step 1: Backdoor Attack

CUDA_VISIBLE_DEVICES=<your device id> python backdoor.py

Step 2: Generation

python generate.py --device <your device id>

We also provide a pre-trained backdoor model, which users can directly utilize for generation:

python generate_pretrained.py --device <your device id>

Step 3: Auto evaluation by GPT-4

python auto_eval.py --model gpt-4 --key <OpenAI API Key>

Realignment

Step 1: Merge and upload backdoored model

python upload.py --device <your device id>

Step 2: Realign by fine-tuning on safety data

CUDA_VISIBLE_DEVICES=<your device id> python realign.py --model_name <backdoor model name>

Then, you can reuse generate.py and change model_name, new_model, and res_path accordinglly to perform generation.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

BackdoorUnalign

Poisoning dataset

Installation

Step 1: Backdoor Attack

Step 2: Generation

Step 3: Auto evaluation by GPT-4

Realignment

Step 1: Merge and upload backdoored model

Step 2: Realign by fine-tuning on safety data

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
data		data
README.md		README.md
auto_eval.py		auto_eval.py
backdoor.py		backdoor.py
generate.py		generate.py
generate_pretrained.py		generate_pretrained.py
realign.py		realign.py
requirements.txt		requirements.txt
upload.py		upload.py

CaoYuanpu/BackdoorUnalign

Folders and files

Latest commit

History

Repository files navigation

BackdoorUnalign

Poisoning dataset

Installation

Step 1: Backdoor Attack

Step 2: Generation

Step 3: Auto evaluation by GPT-4

Realignment

Step 1: Merge and upload backdoored model

Step 2: Realign by fine-tuning on safety data

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages