DeepSeek-R1

 

1. Wprowadzenie

Przedstawiamy nasze pierwszej generacji modele rozumowania, DeepSeek-R1-Zero i DeepSeek-R1. DeepSeek-R1-Zero, model szkolony poprzez uczenie ze wzmocnieniem (RL) na dużą skalę bez uprzedniego dostrajania nadzorowanego (SFT), wykazał niezwykłą wydajność w zakresie rozumowania. Dzięki RL, DeepSeek-R1-Zero naturalnie rozwija liczne potężne i interesujące zdolności rozumowania. Jednak napotyka wyzwania, takie jak niekończące się powtórzenia, niska czytelność oraz mieszanie języków. Aby rozwiązać te problemy i jeszcze bardziej poprawić zdolności rozumowania, wprowadzamy DeepSeek-R1, który wykorzystuje dane cold-start przed RL. DeepSeek-R1 osiąga wydajność porównywalną z OpenAI-o1 w zadaniach matematycznych, kodowania i rozumowania.

Aby wesprzeć społeczność badawczą, otworzyliśmy dostęp do DeepSeek-R1-Zero, DeepSeek-R1 oraz sześciu gęstych modeli zdestylowanych z DeepSeek-R1, opartych na Llama i Qwen. DeepSeek-R1-Distill-Qwen-32B przewyższa OpenAI-o1-mini w różnych benchmarkach, ustanawiając nowe rekordy dla modeli gęstych.


2. Podsumowanie Modelu

Szkolenie po wstępnym trenowaniu: Uczenie ze wzmocnieniem na modelu bazowym

Zastosowaliśmy bezpośrednio uczenie ze wzmocnieniem (RL) na modelu bazowym, pomijając etap nadzorowanego dostrajania (SFT). To podejście pozwala modelowi eksplorować metodę rozwiązywania problemów opartą na łańcuchu myślowym (CoT), co prowadzi do rozwoju DeepSeek-R1-Zero. Model ten wykazuje zdolności do autoweryfikacji, refleksji oraz generowania długich sekwencji CoT, stanowiąc istotny kamień milowy dla społeczności badawczej. Co istotne, jest to pierwsze otwarte badanie potwierdzające, że zdolności rozumowania dużych modeli językowych (LLM) mogą być rozwijane wyłącznie za pomocą RL, bez potrzeby stosowania SFT. To przełomowe odkrycie otwiera drogę do przyszłych innowacji w tej dziedzinie.

Przedstawiamy nasz proces rozwoju DeepSeek-R1. Pipeline obejmuje dwa etapy RL, mające na celu odkrycie lepszych wzorców rozumowania i dostosowanie ich do preferencji użytkowników, a także dwa etapy SFT, które stanowią podstawę zdolności modelu w zakresie rozumowania i zadań niezwiązanych z rozumowaniem. Wierzymy, że ten proces przyniesie korzyści dla przemysłu, umożliwiając tworzenie lepszych modeli.

Destylacja: Mniejsze modele mogą być równie potężne

Udowadniamy, że wzorce rozumowania większych modeli mogą być skutecznie destylowane do mniejszych modeli, osiągając lepsze wyniki niż wzorce rozumowania odkryte poprzez RL na małych modelach.

Otwarte źródło DeepSeek-R1 oraz jego API będą wspierać społeczność badawczą w dalszym destylowaniu lepszych mniejszych modeli. Korzystając z danych rozumowania wygenerowanych przez DeepSeek-R1, dostroiliśmy kilka gęstych modeli szeroko stosowanych w badaniach naukowych. Wyniki oceny wykazują, że zdestylowane mniejsze modele gęste osiągają wyjątkowe wyniki w benchmarkach.

Udostępniamy społeczności otwarte źródło checkpointów 1.5B, 7B, 8B, 14B, 32B i 70B opartych na seriach Qwen2.5 i Llama3.

3. Pobieranie Modeli

Modele DeepSeek-R1

Model Całkowita liczba parametrów Aktywowane parametry Długość kontekstu
DeepSeek-R1-Zero 671B 37B 128K
DeepSeek-R1 671B 37B 128K

DeepSeek-R1-Zero i DeepSeek-R1 są trenowane na bazie DeepSeek-V3-Base. Szczegóły dotyczące architektury modelu można znaleźć w repozytorium DeepSeek-V3.

Modele DeepSeek-R1-Distill

Model Model bazowy
DeepSeek-R1-Distill-Qwen-1.5B Qwen2.5-Math-1.5B
DeepSeek-R1-Distill-Qwen-7B Qwen2.5-Math-7B
DeepSeek-R1-Distill-Llama-8B Llama-3.1-8B
DeepSeek-R1-Distill-Qwen-14B Qwen2.5-14B
DeepSeek-R1-Distill-Qwen-32B Qwen2.5-32B
DeepSeek-R1-Distill-Llama-70B Llama-3.3-70B-Instruct

Modele DeepSeek-R1-Distill zostały dostrojone na bazie modeli open-source, wykorzystując próbki wygenerowane przez DeepSeek-R1. Wprowadziliśmy drobne zmiany w konfiguracjach i tokenizatorach. Aby uzyskać optymalną wydajność, zaleca się korzystanie z naszych ustawień przy uruchamianiu tych modeli.

4. Wyniki Ewaluacji

Ewaluacja DeepSeek-R1

Dla wszystkich naszych modeli maksymalna długość generacji została ustawiona na 32 768 tokenów. Dla benchmarków wymagających próbkowania stosujemy temperaturę 0.6, wartość top-p 0.95, oraz generujemy 64 odpowiedzi na zapytanie, aby oszacować pass@1.

Porównanie modeli
Kategoria Benchmark (Metryka) Claude-3.5-Sonnet-1022 GPT-4o 0513 DeepSeek V3 OpenAI o1-mini OpenAI o1-1217 DeepSeek R1
Architektura MoE MoE
Aktywne Parametry 37B 37B
Łączna liczba parametrów 671B 671B
Język angielski MMLU (Pass@1) 88.3 87.2 88.5 85.2 91.8 90.8
MMLU-Redux (EM) 88.9 88.0 89.1 86.7 92.9
MMLU-Pro (EM) 78.0 72.6 75.9 80.3 84.0
DROP (3-shot F1) 88.3 83.7 91.6 83.9 90.2 92.2
IF-Eval (Prompt Strict) 86.5 84.3 86.1 84.8 83.3
GPQA-Diamond (Pass@1) 65.0 49.9 59.1 60.0 75.7 71.5
SimpleQA (Correct) 28.4 38.2 24.9 7.0 47.0 30.1
FRAMES (Acc.) 72.5 80.5 73.3 76.9 82.5
AlpacaEval2.0 (LC-winrate) 52.0 51.1 70.0 57.8 87.6
ArenaHard (GPT-4-1106) 85.2 80.4 85.5 92.0 92.3
Kodowanie LiveCodeBench (Pass@1-COT) 33.8 34.2 53.8 63.4 65.9
Codeforces (Percentyl) 20.3 23.6 58.7 93.4 96.6 96.3
Codeforces (Ocena) 717 759 1134 1820 2061 2029
SWE Verified (Resolved) 50.8 38.8 42.0 41.6 48.9 49.2
Aider-Polyglot (Acc.) 45.3 16.0 49.6 32.9 61.7 53.3
Matematyka AIME 2024 (Pass@1) 16.0 9.3 39.2 63.6 79.2 79.8
MATH-500 (Pass@1) 78.3 74.6 90.2 90.0 96.4 97.3
CNMO 2024 (Pass@1) 13.1 10.8 43.2 67.6 78.8
Język chiński CLUWSC (EM) 85.4 87.9 90.9 89.9 92.8
C-Eval (EM) 76.7 76.0 86.5 68.9 91.8
C-SimpleQA (Correct) 55.4 58.7 68.0 40.3 63.7

Ewaluacja modeli zdestylowanych

Model AIME 2024 Pass@1 AIME 2024 Cons@64 MATH-500 Pass@1 GPQA Diamond Pass@1 LiveCodeBench Pass@1 CodeForces Rating
GPT-4o-0513 9.3 13.4 74.6 49.9 32.9 759
Claude-3.5-Sonnet-1022 16.0 26.7 78.3 65.0 38.9 717
o1-mini 63.6 80.0 90.0 60.0 53.8 1820
QwQ-32B-Preview 44.0 60.0 90.6 54.5 41.9 1316
DeepSeek-R1-Distill-Qwen-1.5B 28.9 52.7 83.9 33.8 16.9 954
DeepSeek-R1-Distill-Qwen-7B 55.5 83.3 92.8 49.1 37.6 1189
DeepSeek-R1-Distill-Qwen-14B 69.7 80.0 93.9 59.1 53.1 1481
DeepSeek-R1-Distill-Qwen-32B 72.6 83.3 94.3 62.1 57.2 1691
DeepSeek-R1-Distill-Llama-8B 50.4 80.0 89.1 49.0 39.6 1205
DeepSeek-R1-Distill-Llama-70B 70.0 86.7 94.5 65.2 57.5 1633

5. Strona czatu i platforma API

DeepSeek-R1 jest dostępny do rozmowy na oficjalnej stronie deepseekpolsku.com, gdzie możesz aktywować funkcję “Głębokie myślenie”.

Dodatkowo oferujemy API zgodne z OpenAI, dostępne na platformie deepseekpolsku.com

Scroll to Top