Table of Contents

Coreference Resolution
- Surveys
- Papers
  - Event Coreference
- Datasets
- Metric

Coreference Resolution

See also NLP Progress - Coreference Resolution.

Surveys

Papers

Neural Methods
Prompting Methods
- Wu et al 2020 - CorefQA: Coreference Resolution as Query-based Span Prediction
- Le & Ritter 2023 - Are Large Language Models Robust Zero-shot Coreference Resolvers? See their prompt in the appendix (Table 10)

Event Coreference

Overviews
- Event Coreference Resolution: A Survey of Two Decades of Research
Papers
- Lee et al 2012 - Joint Entity and Event Coreference Resolution across Documents
- Zheng et al 2020 - Event Coreference Resolution with their Paraphrases and Argument-aware Embeddings

Datasets

CoNLL 2012 Shared Task
Winobias dataset: paper
GAP dataset:
BUG dataset: Levy et al 2021 - Collecting a Large-Scale Gender Bias Dataset for Coreference Resolution and Machine Translation

Metric

Many papers use $B^3$ (B-cubed), MUC, CEAF, or an average of these three as the metric. The CoNLL-2011/2012 shared tasks (Pradhan et al 2011, Pradhan et al 2012) used an average. See also these papers:

Moosavi & Strube 2016 - Which Coreference Evaluation Metric Do You Trust? A Proposal for a Link-based Entity Aware Metric (gives a good overview of previous metrics)