Model Editing and Unlearning

Model editing is where a model, such as a large language model, is “edited” to change the facts in the model. Machine unlearning is where a trained model is adjusted to “remove” one or more datapoints that were used to train the model, so that it behaves like a model that was trained without those datapoints. The datapoints to remove can either be specific datapoints from the training set, or classes of datapoints, such as all datapoints about bioweapons.

Model Editing

In NLP

Machine Unlearning

Overviews

Nguyen et al 2022 - A Survey of Machine Unlearning
Xu et al 2023 - Machine Unlearning: A Survey
Wang et al 2024 - Machine Unlearning: A Comprehensive Survey
Liu et al 2024 - Machine Unlearning in Generative AI: A Survey
Paper lists
- Awesome LLM Unlearning
For NLP or LLMs
- Liu et al 2024 - Rethinking Machine Unlearning for Large Language Models (This is also a survey paper.)
- Geng et al 2025 - A Comprehensive Survey of Machine Unlearning Techniques for Large Language Models

NLP Wiki

Table of Contents

Model Editing and Unlearning

Model Editing

In NLP

Machine Unlearning

Overviews

Key Papers

In NLP or LLMs

Theory Papers

Related Pages