Lokalne AI bez cenzury – Mac Studio vs PC z RTX 6000 Pro. Który naprawdę dźwignie największe modele?

Dwa potężne zestawy. Jeden stack. Zero marketingowych bajek. Sprawdziłem, jak Mac Studio z 512 GB Unified RAM i PC z kartą RTX 6000 Pro Blackwell 96 GB VRAM radzą sobie z lokalnymi modelami AI. Wyniki mogą Cię zaskoczyć.

PC z NVIDIA czy Apple Mac Studio do lokalnego AI?

Wokół lokalnego AI narosło mnóstwo mitów. Jedni powtarzają, że Apple z Unified Memory to absolutna dominacja i nic nie ma do niego podjazdu. Drudzy twierdzą, że bez Nvidii, bez CUDA i potężnej karty graficznej nie ma o czym gadać.

Problem? Większość tych opinii to teoria, benchmarki z internetu i cudze narracje. Nie realna praca.

Dlatego w tym materiale biorę dwa konkretne zestawy i testuję je tak, jak naprawdę pracuje się z AI. Ten sam stack – Ollama plus Open WebUI – te same modele, te same scenariusze. Sprawdzam szybkość generowania, stabilność, obsługę dużych kontekstów. I patrzę, w którym momencie który sprzęt zaczyna się dławić.

konsultacje

Wzmocnij cyberbezpieczeństwo
swojej firmy już dziś!

Zapisz się na 30-minutową darmową konsultację, aby wstępnie omówić potrzeby związane z cyberbezpieczeństwem w Twojej firmie.
Wspólnie znajdziemy rozwiązanie dopasowane do specyfiki Twojej działalności!

Co stoi w rogu niebieskim, a co w czerwonym?

Po jednej stronie mam Mac Studio z chipem M3 Ultra i 512 GB Unified RAM. Unified RAM oznacza, że ta pamięć może być wykorzystana zarówno jako pamięć karty graficznej, jak i procesora. To jest powód, dla którego Maki mają pewną przewagę w pracy z dużymi modelami – cały model może siedzieć w jednej, wspólnej puli pamięci.

Po drugiej stronie stoi pecet, który nazwałem na cześć mojego dziadka – Janusz AI. W środku siedzi karta NVIDIA RTX 6000 Pro Blackwell z 96 GB VRAM. To profesjonalna karta do stacji roboczych, zaprojektowana z myślą o AI i przetwarzaniu dużych modeli.

I teraz kluczowa sprawa. Duże modele językowe działają przyzwoicie wtedy, gdy cały model zmieści się w VRAMie. Czasem przy dużym kontekście potrzebują jeszcze więcej pamięci. Można częściowo załadować model do VRAM, a częściowo do RAM procesora – ale to spowalnia pracę. Im więcej pamięci na karcie graficznej, tym lepiej.

Na Macu mam do dyspozycji jakieś 480 GB (512 minus system). Na karcie RTX – 96 GB. Różnica jest kolosalna, ale jak zaraz zobaczysz – wielkość pamięci to nie wszystko.

Stack technologiczny – Ollama, Open WebUI i Docker

Oba zestawy podpiąłem do jednego interfejsu – Open WebUI. To opensource’owy interfejs, który wygląda i działa jak ChatGPT, ale podłączasz do niego własne, lokalne modele. Zainstalowałem go w kontenerze Docker na osobnej maszynie.

Konfiguracja wyglądała tak:

  • Docker run na osobnej maszynie z Ubuntu
  • Podpięcie dwóch endpointów Ollama (Mac i PC) przez API
  • Prefiks przy nazwach modeli (Mac/Janusz PC), żeby rozróżniać, który model działa na którym sprzęcie

Open WebUI ma jedną naprawdę fajną funkcję – możesz puścić to samo zapytanie do dwóch modeli jednocześnie. Dwa okienka, dwie odpowiedzi, jedno porównanie. I widzisz różnicę natychmiast.

Przetestujmy możliwości AI na Mac Studio i PC

Test 1 – ten sam model na obu maszynach

Pierwszy test: ten sam model (20 miliardów parametrów, około 14 GB) na obu komputerach. Proste zadanie – sortowanie bąbelkowe w kodzie.

Wyniki:

Sprzęt

Tokeny na sekundę

PC (RTX 6000 Pro)

~274 tok/s

Mac Studio

~88 tok/s

Pecet generował odpowiedzi ponad trzykrotnie szybciej. I to przy modelu, który spokojnie mieści się na znacznie mniejszej karcie – nawet RTX 3080 dałby radę.

Test 2 – duży dokument, duży kontekst

Wrzuciłem PDF do obu modeli z poleceniem: zrób podsumowanie. Pierwszy podejście nie zadziałało – trzeba było zwiększyć parametr kontekstu w ustawieniach zaawansowanych Open WebUI (domyślna wartość bywa za niska).

Po podbiciu kontekstu oba modele poradziły sobie z dokumentem. Pecet znowu szybszy – około 270 tokenów na sekundę. Podsumowania były trafne, modele wiedziały, o czym czytają.

Wniosek? Ustawienia kontekstu trzeba dostroić ręcznie. Domyślne wartości mogą być za niskie do pracy z większymi plikami.

Test 3 – Qwen 235B na Macu kontra mniejszy model na PC

Tu zrobiłem coś ciekawego. Na Macu odpaliłem Qwen 3 z 235 miliardami parametrów – model ważący 142 GB. To jest kolos, który zmieści się tylko w maszynie z naprawdę dużą pamięcią. Na pececie zostawiłem mniejszy, szybszy model.

Zadanie? Zaprojektuj infrastrukturę AI dla firmy 200 osób. Budżet 80 tysięcy złotych. Prywatne modele do analiz dokumentów, automatyzacji maili, agentów do researchu i lokalnego RAG. Trzy architektury – tania, optymalna, wydajna. Z komponentami sprzętowymi, software, plusami, minusami i ryzykami.

Co się stało:

  • Mniejszy model na PC – odpowiedź w sekundach. Pełna, rozbudowana dokumentacja, specyfikacja, wszystko gotowe
  • Qwen 235B na Macu – najpierw długie myślenie (thinking mode), potem powolne generowanie. Minuty zamiast sekund. Około 22 tokeny na sekundę

Jakość odpowiedzi? Szczerze – nie zauważyłem, żeby Qwen 235B był radykalnie lepszy w tym konkretnym zadaniu. Odpowiedź była nawet krótsza. Pecet wygrał pod względem stosunku szybkości do jakości.

Kiedy Mac ma przewagę?

Brzmi to tak, jakby pecet wygrywał na całej linii. Ale nie do końca.

Zalety Mac Studio w tej konfiguracji:

  • To jest stacja robocza, na której pracujesz na co dzień. Mac to nie tylko maszyna do AI – to komputer do programowania, home labu, codziennej pracy. Pecet Janusz AI ma zainstalowane tylko Ubuntu i służy wyłącznie do generatywnego AI
  • 512 GB Unified RAM pozwala załadować modele, których na 96 GB VRAM po prostu nie zmieścisz. Qwen 235B z 142 GB? Na Macu działa. Na pececie nawet nie odpalisz
  • Przy natywnym wywoływaniu narzędzi (function calling / tool use) modele open source jeszcze sobie z tym idealnie nie radzą. Ale testy, które przeprowadziłem, sugerują, że Mac z większymi modelami może tu wypaść lepiej. O tym opowiem w następnym materiale

konsultacje z cyberguru

Gotowy na wzmocnienie cyberbezpieczeństwa swojej firmy?

Zarezerwuj darmową 30-minutową konsultację, aby omówić potrzeby Twojej firmy w zakresie ochrony danych i cyberbezpieczeństwa. Wspólnie zidentyfikujemy zagrożenia i znajdziemy najlepsze rozwiązania dopasowane do Twojego biznesu.

Porozmawiajmy! Kliknij w poniższy przycisk i umów się na bezpłatną konsultację.

Podpinanie zewnętrznych narzędzi – tu zaczyna się prawdziwa zabawa

Open WebUI daje Ci możliwość podpięcia wyszukiwarki internetowej. Ja użyłem SerpAPI – API do wyszukiwania w Google. Po podpięciu klucza i włączeniu wyszukiwania w ustawieniach modelu, model zaczął przeszukiwać sieć i odpowiadać na pytania wymagające aktualnych informacji.

Możesz też pisać własne narzędzia w Pythonie – Open WebUI ma wbudowany edytor. Tworzysz funkcję, model ją wykrywa i używa w trakcie rozmowy. To jest klucz do budowania prawdziwych agentów AI.

Open WebUI obsługuje dwa tryby wywoływania narzędzi:

  1. Sztucznie dopinane – Open WebUI wykrywa, że narzędzie jest potrzebne i sam je podpina do kontekstu
  2. Natywne – model sam decyduje, kiedy użyć narzędzia. To wymaga modelu wytrenowanego do używania narzędzi (function calling) i na modelach open source wciąż bywa problematyczne

PC z mocną kartą graficzną vs Mac Studio z dużą ilością Unfilied RAM – które rozwiązanie wybrać?

Nie ma jednej odpowiedzi. Zależy, co chcesz osiągnąć.

Wybierz PC z potężną kartą graficzną (np. RTX 6000 Pro), jeśli:

  • Zależy Ci przede wszystkim na szybkości generowania
  • Pracujesz z modelami, które mieszczą się w 96 GB VRAM
  • Potrzebujesz dedykowanej maszyny tylko do AI
  • Masz budżet na profesjonalny GPU

Wybierz Mac Studio z dużą ilością Unified RAM, jeśli:

  • Potrzebujesz stacji roboczej do codziennej pracy, która przy okazji obsługuje AI
  • Chcesz uruchamiać naprawdę duże modele (140+ GB), które nie zmieszczą się na żadnej pojedynczej karcie graficznej
  • Zależy Ci na jednym urządzeniu do wszystkiego
  • Nie przeszkadza Ci wolniejsze generowanie w zamian za dostęp do większych modeli

O czym warto pamiętać, zanim zaczniesz?

Budowanie własnego środowiska do lokalnego AI to nie tylko kwestia sprzętu. Kilka rzeczy, które warto wiedzieć:

  • Dobór modelu ma znaczenie – strona Artificial Analysis AI pozwala porównywać modele pod kątem szybkości, jakości i rozmiaru. Zanim ściągniesz model, sprawdź, czy zmieści się w Twoim sprzęcie i czy radzi sobie z zadaniami, które Cię interesują.
  • Kontekst trzeba ustawiać ręcznie – domyślne wartości w Open WebUI mogą być za niskie do pracy z dużymi dokumentami. Wejdź w ustawienia zaawansowane modelu i ustaw context length odpowiednio do swoich potrzeb.
  • RAG wymaga konfiguracji – żeby wrzucać dokumenty do czatu, musisz ustawić model embeddingowy i parametry chunkowania (wielkość fragmentów i overlap). To nie działa od razu po instalacji – wymaga konfiguracji w ustawieniach dokumentów Open WebUI.
  • Prywatność to kluczowy argument – cała ta zabawa ma jeden nadrzędny cel – Twoje dane nie wychodzą poza Twój sprzęt. Żadnej chmury, żadnych filtrów, żadnego przesyłania wrażliwych dokumentów firmowych do zewnętrznych API. Jeśli interesuje Cię temat ochrony danych i podstawy cyberbezpieczeństwa, to lokalne AI powinno być na Twojej liście narzędzi.

współpraca

Szukasz stałej, kompleksowej obsługi bezpieczeństwa IT Twojej firmy?

Współpracuj ze mną w modelu CISO as a Service
Zostanę zewnętrznym szefem cyberbezpieczeństwa Twojej firmy

CISO as a Service od Cyberguru to: