NVIDIA RTX AI Garage: Jak spustit populární LLM lokálně na PC

Stále více lidí spouští LLM přímo na svých počítačích, aby minimalizovali náklady na předplatné a měli větší soukromí a kontrolu nad svými projekty. Díky novým pokročilým otevřeným modelům a bezplatným nástrojům pro jejich lokální spouštění chce takto experimentovat stále více lidí. GPU RTX tyto zážitky urychlují a poskytují rychlou a svižnou AI. A díky aktualizacím Projectu G-assist mohou uživatelé notebooků začít používat hlasové a textové příkazy založené na AI k ovládání svého počítače.

Nejnovější blog NVIDIA RTX AI Garage zdůrazňuje, jak mohou studenti, nadšenci do AI a vývojáři začít používat LLM na počítačích již dnes:

  • Ollama: Jeden z nejdostupnějších způsobů, jak začít. Tento open-source nástroj poskytuje jednoduché rozhraní pro spouštění a interakci s LLM. Uživatelé mohou přetahovat soubory PDF do příkazových řádků, vést konverzační chaty a dokonce vyzkoušet multimodální pracovní postupy, které kombinují text a obrázky.
  • AnythingLLM: Umožňuje tvorbu osobního AI asistenta. Běží na platformě Ollama a umožňuje uživatelům načítat poznámky, prezentace nebo dokumenty a vytvořit si tak tutora, který generuje kvízy a kartičky pro studentské úkoly – soukromé, rychlé a zdarma.
  • LM Studio: Nabízí desítky modelů. Je založeno na populárním frameworku llama.cpp a poskytuje uživatelsky přívětivé rozhraní pro lokální spouštění modelů. Uživatelé mohou načítat různé LLM, chatovat s nimi v reálném čase a dokonce je používat jako lokální API koncové body pro integraci do vlastních projektů.
  • Projekt G-Assist: Díky nejnovějším aktualizacím mohou uživatelé počítačů nyní pomocí hlasu nebo textu upravovat nastavení baterie, ventilátoru a výkonu.

Mezi nejnovější vylepšení v oblasti RTX AI PC patří:

  • Ollama získává výrazné zvýšení výkonu na RTX: Nejnovější aktualizace zahrnují až 50% optimalizaci výkonu pro gpt-oss-20B od OpenAI a až 60% zrychlení modelů Gemma 3 a chytřejší plánování modelů, které snižuje problémy s pamětí a zlepšuje efektivitu více GPU.
  • Llama.cpp a GGML optimalizované pro RTX: Nejnovější aktualizace přinášejí rychlejší a efektivnější inferenci na RTX GPU, včetně podpory modelu NVIDIA Nemotron Nano v2 9B, výchozího nastavení Flash Attention a optimalizací jádra CUDA.
  • Nová aktualizace G-Assist na verzi 0.1.18 je dostupná prostřednictvím aplikace NVIDIA App. Obsahuje nové příkazy pro uživatele notebooků a vylepšenou kvalitu odpovědí.
  • Společnost Microsoft vydala Windows ML s NVIDIA TensorRT pro akceleraci RTX, která přináší až o 50 % rychlejší inferenci, zjednodušené nasazení a podporu pro LLM, difúzi a další typy modelů na počítačích s Windows 11.

NVIDIA RTX AI Garage: RTX GPU akcelerují lokální AI asistenty

AI asistenti kódování jsou nástroje, které pomáhají zkušeným vývojářům i nováčkům zjednodušit úkoly, jako je psaní, ladění a vysvětlování kódu. Jednou z hlavních výhod provozování těchto nástrojů lokálně na vlastním počítači je možnost využívat je neomezeně, což vás osvobozuje od poplatků za předplatné nebo jiných omezení u cloudových služeb.

Ve spojení s GPU RTX jsou tito asistenti výrazně rychlejší a v modelech, jako je Meta Llama 3.1-8B, dosahují až 6x vyššího výkonu než při běhu na CPU. Tato rychlost umožňuje místním nástrojům, jako jsou Continue.dev, Tabby a OpenInterpreter, vyrovnat se rychlostí cloudovým alternativám nebo je dokonce překonat, a to vše bez nutnosti odesílat zdrojový kód na externí server.
Tento týden se blog RTX AI Garage věnuje následujícím tématům:
  • Příklady reálných pracovních postupů využívajících modely jako Gemma 12B, Code Llama a StarCoder2, které běží lokálně prostřednictvím Continue.dev, Ollama a LM Studio.
  • Proč má akcelerace pomocí GPU význam např. pro vývojáře pracující na rozsáhlých projektech nebo dlouhých promptech.
  • Pohled na nástroje, díky nimž jsou lokální AI asistenti kódování praktičtí: Continue.dev, Tabby, OpenInterpreter, LM Studio a další.

NVIDIA do 16. července pořádá Project G-Assist Plug-In Hackathon – vyzývá vývojáře, aby rozšířili experimentálního AI asistenta G-Assist o vlastní pluginy.

Vývojářům, kteří teprve začínají, včetně studentů nebo nadšenců experimentujících s lokální umělou inteligencí , nabízejí notebooky GeForce řady RTX 50 výkon potřebný pro plynulý běh těchto asistentů bez latence nebo omezení cloudových nástrojů. Podívejte se na RTX notebooky ideální pro návrat do školy.

LM Studio akceleruje práci s LLM díky NVIDIA GeForce RTX a CUDA 12.8

Seriál RTX AI Garage se tento týden zaměřuje na LM Studio, které lze spustit na RTX AI PC. Jde o flexibilní nástroj s otevřeným zdrojovým kódem určené k lokálnímu a rychlému odvozování LLM pro vývojáře a nadšence.

S LM Studio 0.3.15 mohou uživatelé s GPU NVIDIA GeForce RTX řady 50 těžit z vylepšeného výkonu a rychlejších časů načítání modelů i vyšší propustností s plnou podporou CUDA 12.8 a integraci llama.cpp – od experimentování, vytváření pipelines až po integraci AI do aplikací, jako jsou Obsidian a VS Code.

Verze přináší také nové vývojářské funkce, včetně podrobnějšího ovládání nástrojů prostřednictvím parametru „volba nástroje“ a vylepšeného editoru promptů, který usnadňuje přizpůsobení a škálování pracovních postupů. Protože je vše možné spouštět lokálně, je zachována anonymita dat v zařízení.

Detailní blog: https://blogs.nvidia.com/blog/rtx-ai-garage-lmstudio-llamacpp-blackwell

LM Studio umožňuje na RTX AI PC využívat i modely přesahující kapacitu VRAM

AI Decoded tento týden představuje, jak LM Studio s akcelerací pomocí RTX umožňuje uživatelům spouštět LLM lokálně i v případě, že je nelze celé načíst do VRAM.

S rostoucí složitostí LLM stále je potřeba stále silnější hardware pro optimální výkon. LM Studio díky funkci GPU offloading zjednodušuje spouštění a přizpůsobování těchto modelů pomocí GPU NVIDIA RTX a GeForce RTX. Díky zpracování dat po menších částech umožňuje na těchto kartách efektivní běh velkých modelů, i když se celé nevejdou do VRAM. Lze tak plně využít potenciál rozsáhlých a složitých LLM navržených pro datacentra (např. Gemma-2-27B) i lokálně na RTX AI PC.

Celý blog s podrobnějšími informacemi: https://blogs.nvidia.com/blog/ai-decoded-lm-studio/

Exit mobile version