Differences

This shows you the differences between two versions of the page.

--- ml:reinforcement_learning [2025/07/14 05:39] – [Reinforcement Learning with Verifiable Rewards] jmflanig
+++ ml:reinforcement_learning [2025/07/14 05:40] (current) – [Reinforcement Learning with Verifiable Rewards] jmflanig
@@ Line 36: / Line 36: @@
-==== Reinforcement Learning with Verifiable Rewards ====
+===== Reinforcement Learning with Verifiable Rewards =====
-DeepSeek-R1-Zero-style reinforcement learning is sometimes called **"reinforcement learning (RL) on verifiable rewards"** (see for example [[https://arxiv.org/pdf/2505.21493|Zhou 2025]]) or **"RL with outcome supervision."**. See also [[nlp:Large Reasoning Models]]
+DeepSeek-R1-Zero-style reinforcement learning is sometimes called **"reinforcement learning (RL) on verifiable rewards"** (see for example [[https://arxiv.org/pdf/2505.21493|Zhou 2025]]) or **"RL with outcome supervision."**
+See also [[nlp:Large Reasoning Models]]
     * [[https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf|DeepSeek 2025 - DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning]]
     * [[https://arxiv.org/pdf/2505.21493|Zhou et al 2025 - Reinforcing General Reasoning without Verifiers]]