Negev schrieb:Wie viel RAM hast du? Und welche Grafikkarte hast du?
Spielt noch keine Rolle, ich will aber einen Server mit 2xEPYC und 512 GB RAM aufbauen, Karte wird man sehen. Gibt genug Videos inzwischen dazu im Netz, die DeepSeek R1 ohne Quantisierung so laufen lassen. Geht sogar auf einen "normalem" Windows PC, man braucht dazu drei SSD und legt auf jeder eben 200 GB Auslagerungsdatei an, in Summe also 600 GB und natürlich sollte man so viel RAM wie es geht auch so noch in der Kiste stecken haben.
Ist dann zwar recht langsam und die SSD werden sehr gequält, aber es läuft.
Negev schrieb:Und, wie gesagt, wenn man nicht gerade ein Rechenzentrum Daheim stehen hat, sind Modelle, die 480 GB Groß sind, eh ausgeschlossen.
Ach was, das ist doch Unfug, es reicht ein Server mit viel RAM, gibt Anleitungen, gebrauchte Hardware, so ab 2.000 € ich denke mit 3.000 bis 3.500 € kann man schon was machen. Ganz sicher braucht man kein Rechenzentrum.
:D
Negev schrieb:Und gerade wenn die Internetleitung bescheiden ist, wollte ich keine einzelne große Datei herunter laden.
Wenn man das ganze Paket will, muss man das ganze Paket nehmen, man kann ja einen Freund besuchen, der in der Stadt wohnt und sehr gut ans Internet angebunden ist, der kann das dann schon mal runterladen, ...
nocheinPoet schrieb:Ich brauche also einen Link, wo ich das Model "nativ" als Datei runterladen kann und dann eben eine beliebige Software, wo es einen Ordner gibt, wo ich Modelle reinwerfen kann und dann auswählen.
Ich verstehe dich nicht so richtig. Huggingface ist das Github für AI. Das ist schon ziemlich nativ. Apropos: kannst du mit Python umgehen? So werden diese LLMs angesprochen - zumindest wenn man "nativ" damit arbeiten will.
[/color][/quote]
Nun ja, die Frage ist, was man wie macht, will man es im VRAM einer Grafikkarte halten und da laufen lassen, oder über die CPU, so große Modelle auf Grafikkarten laufen zu lassen, ist sehr teuer, aber man kann es auch über die CPU machen und hier gibt es llama.cpp.
Wikipedia: Llama.cppDas ist in C geschrieben, habe ein paar Tage mal, so vor ein paar Monaten, versucht das selber zu kompilieren und mir dafür den Quellcode gezogen, wollte das alles mal nach JAVA übersetzten, gibt für JAVA auch einen "Compiler".
Und mit Python macht man mehr so das Drumherum und Python ist - meine Meinung - eine ganz miese Programmiersprache, wie kann man denn "Tabs" zum programmieren nehmen, nur um Klammern zu sparen oder auf begin und end zu verzichten? Hat man eine etwas komplexere IF THEN Anweisung und setzt den Tabulator nicht richtig, läuft es nicht.
Also mit Python wird hier so das Frontend gestrickt und Schnick und Schnack, aber nicht selber die Logik des LLM.
Negev schrieb:Bei Ollama Installierst du dir eine Software und die lädt dir alles andere herunter. Noch einfacher geht es mit LM-Studio. Das zeigt dir auch direkt an, welche Modelle bei dir laufen könnten.
Noch ein Hinweis: diese Dateiendung .safetensors hat sich als ein Standard etabliert.
Ja, schon klar, gibt da ein paar Weg, auch ganz einfach, aber man bekommt so nur kleinere Modelle. Meine Aussage war schon recht klar, ich will einfach eine Datei mit dem Model runterladen können und die dann "entpacken" oder auch nicht, aber dann einfach in einen Order "models" kopieren und mir dann das Model über ein beliebiges Frontend auswählen.
Ich will nicht eine Software, die mir dann erst das Model wo auch immer hin runterlädt.