So läuft DeepSeek lokal mit voller Qualität

Показать описание

Wie gut ist DeepSeek, wenn man es lokal laufen lässt? Der große Test.

Die im Video erwähnten Links:

=== Anzeige / Sponsorenhinweis ===

=== Anzeige / Sponsorenhinweis ===

► Kapitelmarker:
0:00 Intro
2:07 WERBUNG: Intel Core Ultra & Bechtle
3:02 Wie lässt man DeepSeek lokal laufen?
9:39 Der große Test (Logik)
11:39 Der große Test (Kreativität)
13:50 Zensur!
15:05 Performance
16:44 Fazit
20:12 Installation von Ollama und Open WebUI

► und TOTAL CRAZY auf Papier! Überall wo es Zeitschriften gibt!

► Credits:
Konzept & Redaktion: Jan-Keno Janssen
Schnitt: Pascal Schewe
Host: Jan-Keno Janssen

Рекомендации по теме

Комментарии

Wir haben eine kurze Stelle bei 1:42 unscharf gedreht, weil wir keine seriösen YouTuber an den Pranger stellen wollen. Wir halten es nach wie vor für ein Problem, dass viele Menschen denken, ein destilliertes DeepSeek-Modell mit sehr wenig Parametern sei vergleichbar mit dem "echten" Deepseek -- aber das wollen wir nicht den Kollegen in die Schuhe schieben.

ct

jetzt wo du den server nicht mehr brauchst, kann ich den kurz ausleihen?

NoInterleaving

21:24 DAS neue Format:"Janssen liest KI Kauderwelsch". Da bekomme ich irgendwie taubtrüber Ginst am Musenhain Flashbacks... Kraweel! 😁

sw_py

Puh. Der Schluss hat mich echt gekillt 😂 Das Video hat mir auf jeden Fall den Feierabend versüßt!

Leon-cmuk

Also ich habe das Q5_K_M-Modell geladen, das verbraucht etwa 442 GB Speicher und habe dafür extra meinen Threadripper auf 512 GB hochgerüstet. Es lädt in etwa 5 Minuten. CPU läuft bei etwa 55%, Speicher ist dann zu 97% gefüllt. Das drei-Personen-Rätsel wird richtig gelöst, mit einer wirklich intelligenten Herleitung des Ergebnisses - wenn auch am Ende über-überlegt wird (Wortspiele, Pointen etc.). Die Antwort dauert 6 Minuten mit 1, 96 Token/Sekunde. Das 32B-Modell passt in meine A4500 und es lastet die GPU zu fast 100% aus. Die Antwort ist auch richtig und die Herleitung durchaus ähnlich intelligent, wenn auch nicht ganz. Dauert 2 Minuten, bei 3, 6 Token / Sekunde.

itfrombit

21:24: Das grenzt ja schon an Vogonische Dichtkunst! - Das kein LLM sondern eine Waffe 😂

TT-piww

Ich finde die Aussage von dem destilliertem 32B Modell bezüglich der Frage, was Pascal macht korrekt. Lukas könnte auch einfach gegen sich selber oder im Internet Schachspielen. Also ist die Aussage, dass nur Pascal zum Mitspielen übrig ist, definitiv nicht korrekt. Die einzig korrekte Antwort ist, dass wir nicht wissen, was Pascal macht, weil es uns nicht gesagt wird. Es könnte sehr gut sein, dass Pascal mit Lukas Schach spielt, das wäre dann allerdings nur eine Vermutung, die durch keinen Fakt belegt ist.

Progamer

Jetzt weiss ich, woher Coldmirror die Produktbeschreibungen hat... echt schauberisch!

eickler

Als jemand der das beruflich und vollzeit mach, super recherchiertes video. Einige Tips:

1. Neuste openwebui version hat code interpreter, der war bei dir wohl aus versehen aktiv bei den witzen.
2. Ollama hat standardmässig nur 2048 tokens context window, was bei test time compute Modellen wie R1 bei langen thinking prompts zu endlosschleifen und halluzination führt. Da musst du im Web UI das context window höher stellen. Mindestens 10k. Aber das braucht leider mehr ram wegen höherer attention memory.
3. Kleinere quants unbedingt als imatrix laufen lassen, bietet bessere Qualität
4. Für CPU inferenz gibt es massiv besser optimierte inferenz software als ollama. Z.b. speziell für Intel, eventuell auch welche für AMD. vLLM ist auf jeden Fall ein muss für bessere GPU inferenz im Business umfeld. Als home Hobby Projekt ist ollama gut genug

JanBadertscher

geil, danke für die ganze Arbeit. Wirklich spannend.

DerSeegler

Ich habe vor einigen Tagen ein ähnliches Setup getestet. Für Dinge auf die das Modell nicht antworten will daher noch ein Tipp: man kann ich open-web-ui die Antworten des Modells bearbeiten. Einfach die ablehnende Antwort vom Modell abändern und nochmals nachhaken. Anschließend bekommt man zu quasi jeder Frage die ungefilterte Antwort.

simonsuckut

Vielen Dank für das gewohnt gute video, wie immer mit der spürbaren Leidenschaft fürs Thema !!!

drzxyxl

Sehr schön, besonders das Jan-Keno-Play. Wäre super, wenn ihr das Würfelset im Shop anbieten würdet. Die Regeln sind ja ganz einfach :D

MrFluidsworld

Ich hab großes Interessa daran, ein LLM lokal laufen zu lassen. Unabhängigkeit vom Internet ist für mich mit das wichtigste

sumiral

Sehr geiles Video! Vielen dank für deine Mühe. Das sind echt super interessante Einblicke wie deepseek intern funktioniert - vor allem was die Zensurthematik angeht.

alexander

Mein lieblings test ist "Anna ist 3 mal so alt, wie Tina alt war, als Anna doppelt so alt war, wie Tina jetzt ist. Wie alt sind Anna und Tina?" Da ist die Herleitung von Deepseek echt beeindruckend.

gerkami

geiles video 🤣😆 das ende ist am besten, „jan-keno-play“ haha 😂

knipsdings

Bitte ein Video zum angesprochenen RAG, vielleicht einmal simpel auf Grundlage von ein paar PDFs, einmal mit Vektor-Datenbank (und wie man diese erstellt)? 🙏

Megabeboo

LM Studio teilt das schön auf. Da kann man das so einstellen, das der VRam optimal ausgelastet wird und der Rest wandert in den normalen Ram. Bei mir läuft ein DeepSeek 70B Modell auf einer RTX 4060 ti mit 16 GB. Wenn ich die Token auf 130.000 Stelle ist der Arbeitsspeicher auch mit über 100GB voll. Die CPU hat dann ungefähr 60% Last (Ryzen9 3900X) und die GPU 50%. Komme in der Konfig auf 8 Token/s Antwortgeschwindigkeit. Aber ganz ehrlich, wenn man von der Qualität der Onlinemodelle verwöhnt ist, dann will man sowas echt nicht nutzen. Experimentiere auch mit LLMs auf dem Smartphone (12GB Ram). Aber da ist bei 14B Schluß und die Antworten noch mehr Grütze.

FloetenPoldiGermany

Jetzt habe ich richtig Bock Kenos Würfelspiel zu lernen 🤩

BeyondReality

So läuft DeepSeek lokal mit voller Qualität

So läuft DeepSeek lokal mit voller Qualität

So läuft #DeepSeek lokal

DeepSeek R1 lokal auf dem eigenen Computer ausführen. LM Studio - ganz einfach für mehr Datenschutz!...

Was ihr noch nicht über DeepSeek wusstet

LM Studio: So lädst Du lokale KI Modelle einfach #tech #linux #chatgpt #deepseek #lmstudio #llm

Deepseek Engineer V2: NEW Multi Agent Coder! Fast, Light, & Powerful! FULLY FREE AI Coder is INS...

China greift bei KI richtig an: DeepSeek R1 ist Open Source, kostenlos und so gut wie OpenAI o1

🚀 Lokale KI-Power: So läuft ChatGPT direkt auf eurem Rechner! 💻

So nutzt du DeepSeek V3 – Das beste kostenlose KI-Modell?

Install DeepSeek AI Locally in Minutes! No Cloud, No Limits! 🚀

Programmiere deinen eigenen DeepSeek Chatbot in Python! 🐋 DeepSeek Chatbot Programmieren in Python...

LocalSite: NEW Deepseek Coder! FULLY FREE AI Coder is INSANE! (Opensource + Local)

DeepSeek vs. OpenAI – ein Wendepunkt für KI & Datenschutz? bbv-KI-Experte Marius Högger klärt au...

DeepSeek entzaubert: Stärken und Schwächen

DeepSeek Fixing Server Busy Issues by Deploying DeepSeek Locally

How to Run Deepseek Locally In Visual Studio Code - FREE (2025)

Einfache Nutzung lokaler KI-Modellen - So geht's!

I Tried Analysing 1000 LinkedIn Jobs Locally Using Deep Seek API

So habe ich ein Team aus KI-Agenten OHNE CODE in n8n gebaut (Gratis Template)

095 | LLMs lokal ausführen: Erste Erfahrungen & praktische Tipps

How to Make $1000 a Day Using Deepseek (Even if You're a Beginner!)

Local Deepseek R1 for Browser Use: Does It Really Work for Browser Automation? 🌐🛠️

5 Better Ways to Use DeepSeek R1 (Without the DeepSeek Website)

Dev Day 2025: Dr. Oliver Guhr - LLMs von der Blackbox zum Einsatz im eigenen Projekt