explanare

Jing Huang explanare

Achievements

ravel ravel Public

Evaluate interpretability methods on localizing and disentangling concepts in LLMs.

Python 43 7
verbatim-memorization verbatim-memorization Public

Demystifying Verbatim Memorization in Large Language Models

Python 4 2
eval-neuron-explanation eval-neuron-explanation Public

A framework for evaluating auto-interp pipelines, i.e., natural language explanations of neurons.

Python 2
char-iit char-iit Public

A causal intervention framework to learn robust and interpretable character representations inside subword-based language models

Jupyter Notebook 1