Künstliche Intelligenz
11.02.2025 um 19:26Hab jetzt ebenfalls ein Guide gefunden. Am Ende heißt es, das die Performance "Absolutely Horrible" ist. Wenn das, dass ist, auf das du 2000 Euro drauf werfen willst, klar 😀.nocheinPoet schrieb:Gibt genug Videos inzwischen dazu im Netz, die DeepSeek R1 ohne Quantisierung so laufen lassen. Geht sogar auf einen "normalem" Windows PC, man braucht dazu drei SSD und legt auf jeder eben 200 GB Auslagerungsdatei an, in Summe also 600 GB und natürlich sollte man so viel RAM wie es geht auch so noch in der Kiste stecken haben.
Wir reden hier über ein Leistung, die für den professionellen Bereich ausgeschlossen ist.nocheinPoet schrieb:Ganz sicher braucht man kein Rechenzentrum
nocheinPoet schrieb:ohne Quantisierung so laufen lassen
Natürlich. Aber bei Hugging-Face bekommst du dieses Paket. So wie es der Entwickler eben zur Verfügung stellt. Das ist das Original. Wobei, diese Version quantisiert ist (Q8_0) da darfst du dir mal eben über 700 GB ziehn. Bei der Version ohne Quantisierung, also die fp16-Variante, kannst du dir 1300 GB gönnen. Das, was du mit 480G meinst, dürfte die Q4_K Variante sein. Da geht man schon einen Kompromiss ein. Besser, hab ich mir sagen lassen, ist ein Quantisierung von 5 oder 6.nocheinPoet schrieb:Wenn man das ganze Paket will, muss man das ganze Paket nehmen, man kann ja einen Freund besuchen, der in der Stadt wohnt und sehr gut ans Internet angebunden ist, der kann das dann schon mal runterladen, ...
Zu deinem Problem: du könntest deinen sehr guten Freund bitten, das er dir über Ollama das gewünschte Modell herunter lädt. Das kannst du dann Kopieren. Vermutlich gibt es auch einen Befehl für Hugging-Face, damit du nicht alle 163 Dateien anklicken musst, keine Ahnung. Lass mich aber gerne wissen, woher du diese "eine Datei" herunter geladen hast 😀.
Ums nochmal klar zu machen. Generative KI alleine über die CPU zu betreiben, das muss man wirklich wollen. Mir machts keinen Spaß.nocheinPoet schrieb:Nun ja, die Frage ist, was man wie macht, will man es im VRAM einer Grafikkarte halten und da laufen lassen, oder über die CPU, so große Modelle auf Grafikkarten laufen zu lassen, ist sehr teuer, aber man kann es auch über die CPU machen und hier gibt es llama.cpp.
Tipp: nehm die 2000 Euro und kauf dir eine 5090, am besten noch einige Wochen warten, damit die Beta-Phase abgeschlossen ist.
https://www.heise.de/news/GeForce-RTX-5090-Einzelne-Berichte-ueber-schmelzende-Stecker-10276748.html