2 minute read

Q Gtp5: Erstelle liste von LLM : Firma , LLM Name, LLM Version , Releasedatum, größe kontext fenster , auf rtx5070ti möglich , auf dgx spark möglich , relative token / sek schätzung , recherchiere auch im web

A

Hier ist eine praxisorientierte LLM-Liste mit Hardware-Einschätzung für RTX 5070 Ti und NVIDIA DGX Spark.

Annahmen: RTX 5070 Ti = 16 GB GDDR7, 896 GB/s; DGX Spark = 128 GB Unified Memory, laut NVIDIA für Modelle bis ca. 200B Parameter ausgelegt. (NVIDIA)
„Möglich“ bedeutet: lokale Inferenz mit offenen Gewichten, typischerweise quantisiert. Cloud-only/proprietäre Modelle sind lokal nicht möglich.

Firma LLM Name Version Release Kontextfenster RTX 5070 Ti möglich DGX Spark möglich Relative Token/s Schätzung
OpenAI GPT GPT-5.5 23.04.2026 1.050K API; 400K Codex Nein, proprietär Nein, proprietär nur API
Anthropic Claude Opus 4.6 05.02.2026 1M Beta Nein, proprietär Nein, proprietär nur API
Google Gemini 2.5 Pro 17.06.2025 GA 1M Nein, proprietär Nein, proprietär nur API
Meta Llama 4 Scout 17B-16E 05.04.2025 10M Nein, 109B total zu groß Ja, quantisiert DGX: niedrig–mittel
Meta Llama 4 Maverick 17B-128E 05.04.2025 1M Nein, 400B total zu groß Nein / nur stark verteilt
Google Gemma 4 E4B 02.04.2026 128K Ja, sehr gut Ja RTX: sehr hoch; DGX: hoch
Google Gemma 4 31B Dense 02.04.2026 256K Nein / nur extrem quantisiert Ja DGX: mittel
Google Gemma 3 27B 12.03.2025 128K Grenzwertig, Q3/Q4 kurzer Kontext Ja RTX: niedrig; DGX: mittel
Alibaba/Qwen Qwen Qwen3-8B 29.04.2025 32K nativ; 128K via YaRN Ja, sehr gut Ja RTX: hoch; DGX: hoch
Alibaba/Qwen Qwen Qwen3-14B 29.04.2025 32K nativ; 128K via YaRN Ja, Q4, kurzer/mittlerer Kontext Ja RTX: mittel; DGX: hoch
Alibaba/Qwen Qwen Qwen3-30B-A3B 29.04.2025 bis 128K validiert Eher nein; ca. 17.5 GB VRAM genannt Ja DGX: hoch für Größe
Alibaba/Qwen Qwen Qwen3-235B-A22B 29.04.2025 128K Nein Grenzwertig/Nein, >200B total DGX: sehr niedrig falls passend
Alibaba/Qwen Qwen Qwen3-Next-80B-A3B 10.09.2025 256K bei Coder-Next Nein Ja DGX: mittel–hoch
Mistral AI Mistral Small 3.1 24B Instruct 17.03.2025 128K Grenzwertig, Q3/Q4 kurzer Kontext Ja RTX: niedrig; DGX: mittel
Microsoft Phi Phi-4-mini-instruct 3.8B 26.02.2025 / 03.03.2025 HF 128K Ja, sehr gut Ja RTX: sehr hoch; DGX: hoch
DeepSeek DeepSeek R1 / V3.1 671B MoE 20.01.2025 / 21.08.2025 128K bei V3/V3.1 Nein Nein, viel zu groß
DeepSeek DeepSeek V4 Preview 24.04.2026 1M Nein Nein, 1.6T zu groß
Quellenbasis: OpenAI nennt für GPT-5.5 ein 1.050.000-Token-Kontextfenster im API-Modellblatt und 400K in Codex. ([OpenAI Developers](https://developers.openai.com/api/docs/models/gpt-5.5?utm_source=chatgpt.com “GPT-5.5 Model OpenAI API”)) Anthropic beschreibt Opus 4.6 mit 1M Kontextfenster in Beta. (Anthropic) Google gibt Gemini 2.5 Pro mit 1M Kontextfenster und GA-Release am 17.06.2025 an. (blog.google) Für Llama 4 nennt Meta Scout mit 17B aktiven Parametern, 16 Experten und 10M Kontext; Maverick hat 17B aktive Parameter mit 128 Experten, externe Modellkataloge geben 400B total und 1M Kontext an. (Meta AI)

Für lokale Nutzung sind Phi-4-mini, Gemma 4 E4B, Qwen3-8B und Qwen3-14B die sinnvollsten Kandidaten auf einer RTX 5070 Ti. Auf DGX Spark werden zusätzlich Gemma 4 31B, Mistral Small 3.1, Qwen3-30B-A3B, Qwen3-Next-80B-A3B und Llama 4 Scout interessant. Qwen3-235B, Llama 4 Maverick, DeepSeek R1/V3/V4 sind wegen Gesamtgewichten deutlich außerhalb dessen, was ein einzelner RTX-5070-Ti- oder DGX-Spark-Rechner praktisch lokal stemmen sollte.