So läuft DeepSeek lokal mit voller Qualität

preview_player
Показать описание
Wie gut ist DeepSeek, wenn man es lokal laufen lässt? Der große Test.

Die im Video erwähnten Links:

=== Anzeige / Sponsorenhinweis ===

=== Anzeige / Sponsorenhinweis ===

► Kapitelmarker:
0:00 Intro
2:07 WERBUNG: Intel Core Ultra & Bechtle
3:02 Wie lässt man DeepSeek lokal laufen?
9:39 Der große Test (Logik)
11:39 Der große Test (Kreativität)
13:50 Zensur!
15:05 Performance
16:44 Fazit
20:12 Installation von Ollama und Open WebUI

► und TOTAL CRAZY auf Papier! Überall wo es Zeitschriften gibt!

► Credits:
Konzept & Redaktion: Jan-Keno Janssen
Schnitt: Pascal Schewe
Host: Jan-Keno Janssen
Рекомендации по теме
Комментарии
Автор

Wir haben eine kurze Stelle bei 1:42 unscharf gedreht, weil wir keine seriösen YouTuber an den Pranger stellen wollen. Wir halten es nach wie vor für ein Problem, dass viele Menschen denken, ein destilliertes DeepSeek-Modell mit sehr wenig Parametern sei vergleichbar mit dem "echten" Deepseek -- aber das wollen wir nicht den Kollegen in die Schuhe schieben.

ct
Автор

jetzt wo du den server nicht mehr brauchst, kann ich den kurz ausleihen?

NoInterleaving
Автор

21:24 DAS neue Format:"Janssen liest KI Kauderwelsch". Da bekomme ich irgendwie taubtrüber Ginst am Musenhain Flashbacks... Kraweel! 😁

sw_py
Автор

Puh. Der Schluss hat mich echt gekillt 😂 Das Video hat mir auf jeden Fall den Feierabend versüßt!

Leon-cmuk
Автор

Also ich habe das Q5_K_M-Modell geladen, das verbraucht etwa 442 GB Speicher und habe dafür extra meinen Threadripper auf 512 GB hochgerüstet. Es lädt in etwa 5 Minuten. CPU läuft bei etwa 55%, Speicher ist dann zu 97% gefüllt. Das drei-Personen-Rätsel wird richtig gelöst, mit einer wirklich intelligenten Herleitung des Ergebnisses - wenn auch am Ende über-überlegt wird (Wortspiele, Pointen etc.). Die Antwort dauert 6 Minuten mit 1, 96 Token/Sekunde. Das 32B-Modell passt in meine A4500 und es lastet die GPU zu fast 100% aus. Die Antwort ist auch richtig und die Herleitung durchaus ähnlich intelligent, wenn auch nicht ganz. Dauert 2 Minuten, bei 3, 6 Token / Sekunde.

itfrombit
Автор

21:24: Das grenzt ja schon an Vogonische Dichtkunst! - Das kein LLM sondern eine Waffe 😂

TT-piww
Автор

Ich finde die Aussage von dem destilliertem 32B Modell bezüglich der Frage, was Pascal macht korrekt. Lukas könnte auch einfach gegen sich selber oder im Internet Schachspielen. Also ist die Aussage, dass nur Pascal zum Mitspielen übrig ist, definitiv nicht korrekt. Die einzig korrekte Antwort ist, dass wir nicht wissen, was Pascal macht, weil es uns nicht gesagt wird. Es könnte sehr gut sein, dass Pascal mit Lukas Schach spielt, das wäre dann allerdings nur eine Vermutung, die durch keinen Fakt belegt ist.

Progamer
Автор

Jetzt weiss ich, woher Coldmirror die Produktbeschreibungen hat... echt schauberisch!

eickler
Автор

Als jemand der das beruflich und vollzeit mach, super recherchiertes video. Einige Tips:

1. Neuste openwebui version hat code interpreter, der war bei dir wohl aus versehen aktiv bei den witzen.
2. Ollama hat standardmässig nur 2048 tokens context window, was bei test time compute Modellen wie R1 bei langen thinking prompts zu endlosschleifen und halluzination führt. Da musst du im Web UI das context window höher stellen. Mindestens 10k. Aber das braucht leider mehr ram wegen höherer attention memory.
3. Kleinere quants unbedingt als imatrix laufen lassen, bietet bessere Qualität
4. Für CPU inferenz gibt es massiv besser optimierte inferenz software als ollama. Z.b. speziell für Intel, eventuell auch welche für AMD. vLLM ist auf jeden Fall ein muss für bessere GPU inferenz im Business umfeld. Als home Hobby Projekt ist ollama gut genug

JanBadertscher
Автор

geil, danke für die ganze Arbeit. Wirklich spannend.

DerSeegler
Автор

Ich habe vor einigen Tagen ein ähnliches Setup getestet. Für Dinge auf die das Modell nicht antworten will daher noch ein Tipp: man kann ich open-web-ui die Antworten des Modells bearbeiten. Einfach die ablehnende Antwort vom Modell abändern und nochmals nachhaken. Anschließend bekommt man zu quasi jeder Frage die ungefilterte Antwort.

simonsuckut
Автор

Vielen Dank für das gewohnt gute video, wie immer mit der spürbaren Leidenschaft fürs Thema !!!

drzxyxl
Автор

Sehr schön, besonders das Jan-Keno-Play. Wäre super, wenn ihr das Würfelset im Shop anbieten würdet. Die Regeln sind ja ganz einfach :D

MrFluidsworld
Автор

Ich hab großes Interessa daran, ein LLM lokal laufen zu lassen. Unabhängigkeit vom Internet ist für mich mit das wichtigste

sumiral
Автор

Sehr geiles Video! Vielen dank für deine Mühe. Das sind echt super interessante Einblicke wie deepseek intern funktioniert - vor allem was die Zensurthematik angeht.

alexander
Автор

Mein lieblings test ist "Anna ist 3 mal so alt, wie Tina alt war, als Anna doppelt so alt war, wie Tina jetzt ist. Wie alt sind Anna und Tina?" Da ist die Herleitung von Deepseek echt beeindruckend.

gerkami
Автор

geiles video 🤣😆 das ende ist am besten, „jan-keno-play“ haha 😂

knipsdings
Автор

Bitte ein Video zum angesprochenen RAG, vielleicht einmal simpel auf Grundlage von ein paar PDFs, einmal mit Vektor-Datenbank (und wie man diese erstellt)? 🙏

Megabeboo
Автор

LM Studio teilt das schön auf. Da kann man das so einstellen, das der VRam optimal ausgelastet wird und der Rest wandert in den normalen Ram. Bei mir läuft ein DeepSeek 70B Modell auf einer RTX 4060 ti mit 16 GB. Wenn ich die Token auf 130.000 Stelle ist der Arbeitsspeicher auch mit über 100GB voll. Die CPU hat dann ungefähr 60% Last (Ryzen9 3900X) und die GPU 50%. Komme in der Konfig auf 8 Token/s Antwortgeschwindigkeit. Aber ganz ehrlich, wenn man von der Qualität der Onlinemodelle verwöhnt ist, dann will man sowas echt nicht nutzen. Experimentiere auch mit LLMs auf dem Smartphone (12GB Ram). Aber da ist bei 14B Schluß und die Antworten noch mehr Grütze.

FloetenPoldiGermany
Автор

Jetzt habe ich richtig Bock Kenos Würfelspiel zu lernen 🤩

BeyondReality
join shbcf.ru