DeepSeek-V2

DeepSeek-V2: Potężny, ekonomiczny i wydajny model językowy Mixture-of-Experts

1. Wprowadzenie

Przedstawiamy DeepSeek-V2, zaawansowany model językowy oparty na architekturze Mixture-of-Experts (MoE), który wyróżnia się ekonomicznym procesem szkolenia i wydajnym wnioskowaniem. Model składa się z 236 miliardów parametrów, z których 21 miliardów jest aktywowanych dla każdego tokena.

W porównaniu do DeepSeek 67B, DeepSeek-V2 oferuje:

  • Wyższą wydajność
  • Oszczędność 42,5% kosztów szkolenia
  • Redukcję pamięci podręcznej KV o 93,3%
  • Zwiększoną przepustowość generacji maksymalnie o 5,76 razy

Model został wstępnie przetrenowany na 8,1 bilionach wysokiej jakości tokenów z różnorodnych źródeł. Po tym etapie przeprowadzono Supervised Fine-Tuning (SFT) oraz Reinforcement Learning (RL), aby w pełni wykorzystać jego możliwości.

Wyniki ewaluacji potwierdzają skuteczność zastosowanego podejścia – DeepSeek-V2 osiąga znakomite rezultaty zarówno w standardowych benchmarkach, jak i w zadaniach związanych z generacją otwartą.

2. Aktualności

  • 16 maja 2024 – Premiera DeepSeek-V2-Lite.
  • 6 maja 2024 – Premiera DeepSeek-V2.

3. Pobieranie modelu

Model Łączna liczba parametrów Aktywowane parametry Długość kontekstu
DeepSeek-V2-Lite 16B 2.4B 32K
DeepSeek-V2-Lite-Chat (SFT) 16B 2.4B 32K
DeepSeek-V2 236B 21B 128K
DeepSeek-V2-Chat (RL) 236B 21B 128K
  • Uwaga: Ze względu na ograniczenia HuggingFace, wersja open-source może działać wolniej na GPU w porównaniu do naszej wewnętrznej implementacji.
  • Aby zoptymalizować wydajność modelu, oferujemy dedykowane rozwiązanie vLLM, które umożliwia bardziej efektywne uruchamianie modeli.

4. Wyniki ewaluacji

Model bazowy

Benchmark standardowy (Modele większe niż 67B)
Benchmark Dziedzina LLaMA3 70B Mixtral 8x22B DeepSeek-V1 (Dense-67B) DeepSeek-V2 (MoE-236B)
MMLU Język angielski 78.9 77.6 71.3 78.5
BBH Język angielski 81.0 78.9 68.7 78.9
C-Eval Język chiński 67.5 58.6 66.1 81.7
CMMLU Język chiński 69.3 60.0 70.8 84.0
HumanEval Kodowanie 48.2 53.1 45.1 48.8
MBPP Kodowanie 68.6 64.2 57.4 66.6
GSM8K Matematyka 83.0 80.3 63.4 79.2
Math Matematyka 42.2 42.5 18.7 43.6
Benchmark standardowy (Modele mniejsze niż 16B)
Benchmark Dziedzina DeepSeek 7B (Dense) DeepSeekMoE 16B DeepSeek-V2-Lite (MoE-16B)
Architektura MHA+Dense MHA+MoE MLA+MoE
MMLU Język angielski 48.2 45.0 58.3
BBH Język angielski 39.5 38.9 44.1
C-Eval Język chiński 45.0 40.6 60.3
CMMLU Język chiński 47.2 42.5 64.3
HumanEval Kodowanie 26.2 26.8 29.9
MBPP Kodowanie 39.0 39.2 43.2
GSM8K Matematyka 17.4 18.8 41.1
Math Matematyka 3.3 4.3 17.1

Aby uzyskać więcej szczegółów dotyczących ewaluacji, w tym ustawienia few-shot i użyte prompty, zapraszamy do zapoznania się z naszą publikacją

Okno kontekstowe

Wyniki ewaluacji w testach Needle In A Haystack (NIAH). DeepSeek-V2 osiąga wysoką skuteczność przy wszystkich długościach okna kontekstowego aż do 128K.

Ewaluacja modelu czatu

Benchmark standardowy (Modele większe niż 67B)
Benchmark Dziedzina QWen1.5 72B Chat Mixtral 8x22B LLaMA3 70B Instruct DeepSeek-V1 Chat (SFT) DeepSeek-V2 Chat (SFT) DeepSeek-V2 Chat (RL)
MMLU Język angielski 76.2 77.8 80.3 71.1 78.4 77.8
BBH Język angielski 65.9 78.4 80.1 71.7 81.3 79.7
C-Eval Język chiński 82.2 60.0 67.9 65.2 80.9 78.0
CMMLU Język chiński 82.9 61.0 70.7 67.8 82.4 81.6
HumanEval Kodowanie 68.9 75.0 76.2 73.8 76.8 81.1
MBPP Kodowanie 52.2 64.4 69.8 61.4 70.4 72.0
LiveCodeBench (0901-0401) Kodowanie 18.8 25.0 30.5 18.3 28.7 32.5
GSM8K Matematyka 81.9 87.9 93.2 84.1 90.8 92.2
Math Matematyka 40.6 49.8 48.5 32.6 52.7 53.9
Benchmark standardowy (Modele mniejsze niż 16B)
Benchmark Dziedzina DeepSeek 7B Chat (SFT) DeepSeekMoE 16B Chat (SFT) DeepSeek-V2-Lite 16B Chat (SFT)
MMLU Język angielski 49.7 47.2 55.7
BBH Język angielski 43.1 42.2 48.1
C-Eval Język chiński 44.7 40.0 60.1
CMMLU Język chiński 51.2 49.3 62.5
HumanEval Kodowanie 45.1 45.7 57.3
MBPP Kodowanie 39.0 46.2 45.8
GSM8K Matematyka 62.6 62.2 72.0
Math Matematyka 14.7 15.2 27.9
Ewaluacja generowania otwartego w języku angielskim

Przeprowadziliśmy ewaluację naszego modelu w testach AlpacaEval 2.0 oraz MTBench, wykazując konkurencyjną wydajność DeepSeek-V2-Chat-RL w generowaniu konwersacji w języku angielskim.

5. Architektura modelu

DeepSeek-V2 wykorzystuje innowacyjne rozwiązania architektoniczne, aby zapewnić ekonomiczne szkolenie i wydajne wnioskowanie:

  • Mechanizm uwagi (Attention):
    Opracowaliśmy MLA (Multi-head Latent Attention), który wykorzystuje kompresję niskiego rzędu dla kluczy i wartości (low-rank key-value union compression), eliminując wąskie gardło związane z pamięcią podręczną key-value podczas wnioskowania. Dzięki temu model obsługuje bardziej efektywne generowanie odpowiedzi.

  • Sieci Feed-Forward (FFN):
    Zastosowaliśmy DeepSeekMoE, wysokowydajną architekturę Mixture-of-Experts (MoE), która umożliwia szkolenie silniejszych modeli przy niższych kosztach.

6. Witryna czatu

Możesz rozmawiać z DeepSeek-V2 na oficjalnej stronie deepseekpolsku.com

Scroll to Top