Lokalne AI bez cenzury – Mac Studio vs PC z RTX 6000 Pro. Który naprawdę dźwignie największe modele?

Post published:2026-02-25
Post category:Cyberbezpieczne ciekawostki

Dwa potężne zestawy. Jeden stack. Zero marketingowych bajek. Sprawdziłem, jak Mac Studio z 512 GB Unified RAM i PC z kartą RTX 6000 Pro Blackwell 96 GB VRAM radzą sobie z lokalnymi modelami AI. Wyniki mogą Cię zaskoczyć.

PC z NVIDIA czy Apple Mac Studio do lokalnego AI?

Wokół lokalnego AI narosło mnóstwo mitów. Jedni powtarzają, że Apple z Unified Memory to absolutna dominacja i nic nie ma do niego podjazdu. Drudzy twierdzą, że bez Nvidii, bez CUDA i potężnej karty graficznej nie ma o czym gadać.

Problem? Większość tych opinii to teoria, benchmarki z internetu i cudze narracje. Nie realna praca.

Dlatego w tym materiale biorę dwa konkretne zestawy i testuję je tak, jak naprawdę pracuje się z AI. Ten sam stack – Ollama plus Open WebUI – te same modele, te same scenariusze. Sprawdzam szybkość generowania, stabilność, obsługę dużych kontekstów. I patrzę, w którym momencie który sprzęt zaczyna się dławić.

Należy również pamiętać, iż nie ma czegoś takiego jak anonimowość, tak samo jak 100% bezpieczeństwo. Możemy minimalizować ryzyka, ale zawsze gdzieś jest jakiś punkt styku, dlatego raczej rozmawiajmy o prywatności, która ma trochę inne oblicze. Jest ona bardziej zapewnieniem wysokiego standardu w zarządzaniu swoją tożsamością, który powala na jak największym ograniczeniu jej zdradzania. Ludzie niestety myślą, że bezpieczeństwo czy anonimowość można osiągnąć w procesie jakiegoś postępowania krok po kroku. Wystarczy działać zgodnie z instrukcją i już jest. To mit.

Czytaj dalej

CYBERGURU NA ŻYWO

Kalendarz darmowych szkoleń

Zapomnij o domysłach z forów internetowych czy niesprawdzonych tutorialach.

Wejdź do świata OSINT-u, poznaj mechanizmy Darknetu i zobacz, jak zniknąć z radarów i chronić swoją tożsamość. Spotykamy się na żywo, rozwiązujemy realne case’y i rozkładamy zagrożenia na czynniki pierwsze.

Sprawdź nasz harmonogram i dołącz do sesji, która Cię interesuje – czas na Twój ruch w cieniu.

Co stoi w rogu niebieskim, a co w czerwonym?

Po jednej stronie mam Mac Studio z chipem M3 Ultra i 512 GB Unified RAM. Unified RAM oznacza, że ta pamięć może być wykorzystana zarówno jako pamięć karty graficznej, jak i procesora. To jest powód, dla którego Maki mają pewną przewagę w pracy z dużymi modelami – cały model może siedzieć w jednej, wspólnej puli pamięci.

Po drugiej stronie stoi pecet, który nazwałem na cześć mojego dziadka – Janusz AI. W środku siedzi karta NVIDIA RTX 6000 Pro Blackwell z 96 GB VRAM. To profesjonalna karta do stacji roboczych, zaprojektowana z myślą o AI i przetwarzaniu dużych modeli.

I teraz kluczowa sprawa. Duże modele językowe działają przyzwoicie wtedy, gdy cały model zmieści się w VRAMie. Czasem przy dużym kontekście potrzebują jeszcze więcej pamięci. Można częściowo załadować model do VRAM, a częściowo do RAM procesora – ale to spowalnia pracę. Im więcej pamięci na karcie graficznej, tym lepiej.

Na Macu mam do dyspozycji jakieś 480 GB (512 minus system). Na karcie RTX – 96 GB. Różnica jest kolosalna, ale jak zaraz zobaczysz – wielkość pamięci to nie wszystko.

Stack technologiczny – Ollama, Open WebUI i Docker

Oba zestawy podpiąłem do jednego interfejsu – Open WebUI. To opensource’owy interfejs, który wygląda i działa jak ChatGPT, ale podłączasz do niego własne, lokalne modele. Zainstalowałem go w kontenerze Docker na osobnej maszynie.

Konfiguracja wyglądała tak:

Docker run na osobnej maszynie z Ubuntu
Podpięcie dwóch endpointów Ollama (Mac i PC) przez API
Prefiks przy nazwach modeli (Mac/Janusz PC), żeby rozróżniać, który model działa na którym sprzęcie

Open WebUI ma jedną naprawdę fajną funkcję – możesz puścić to samo zapytanie do dwóch modeli jednocześnie. Dwa okienka, dwie odpowiedzi, jedno porównanie. I widzisz różnicę natychmiast.

Przetestujmy możliwości AI na Mac Studio i PC

Test 1 – ten sam model na obu maszynach

Pierwszy test: ten sam model (20 miliardów parametrów, około 14 GB) na obu komputerach. Proste zadanie – sortowanie bąbelkowe w kodzie.

Wyniki:

Sprzęt	Tokeny na sekundę
PC (RTX 6000 Pro)	~274 tok/s
Mac Studio	~88 tok/s

Pecet generował odpowiedzi ponad trzykrotnie szybciej. I to przy modelu, który spokojnie mieści się na znacznie mniejszej karcie – nawet RTX 3080 dałby radę.

Test 2 – duży dokument, duży kontekst

Wrzuciłem PDF do obu modeli z poleceniem: zrób podsumowanie. Pierwszy podejście nie zadziałało – trzeba było zwiększyć parametr kontekstu w ustawieniach zaawansowanych Open WebUI (domyślna wartość bywa za niska).

Po podbiciu kontekstu oba modele poradziły sobie z dokumentem. Pecet znowu szybszy – około 270 tokenów na sekundę. Podsumowania były trafne, modele wiedziały, o czym czytają.

Wniosek? Ustawienia kontekstu trzeba dostroić ręcznie. Domyślne wartości mogą być za niskie do pracy z większymi plikami.

Test 3 – Qwen 235B na Macu kontra mniejszy model na PC

Tu zrobiłem coś ciekawego. Na Macu odpaliłem Qwen 3 z 235 miliardami parametrów – model ważący 142 GB. To jest kolos, który zmieści się tylko w maszynie z naprawdę dużą pamięcią. Na pececie zostawiłem mniejszy, szybszy model.

Zadanie? Zaprojektuj infrastrukturę AI dla firmy 200 osób. Budżet 80 tysięcy złotych. Prywatne modele do analiz dokumentów, automatyzacji maili, agentów do researchu i lokalnego RAG. Trzy architektury – tania, optymalna, wydajna. Z komponentami sprzętowymi, software, plusami, minusami i ryzykami.

Co się stało:

Mniejszy model na PC – odpowiedź w sekundach. Pełna, rozbudowana dokumentacja, specyfikacja, wszystko gotowe
Qwen 235B na Macu – najpierw długie myślenie (thinking mode), potem powolne generowanie. Minuty zamiast sekund. Około 22 tokeny na sekundę

Jakość odpowiedzi? Szczerze – nie zauważyłem, żeby Qwen 235B był radykalnie lepszy w tym konkretnym zadaniu. Odpowiedź była nawet krótsza. Pecet wygrał pod względem stosunku szybkości do jakości.

Kiedy Mac ma przewagę?

Brzmi to tak, jakby pecet wygrywał na całej linii. Ale nie do końca.

Zalety Mac Studio w tej konfiguracji:

To jest stacja robocza, na której pracujesz na co dzień. Mac to nie tylko maszyna do AI – to komputer do programowania, home labu, codziennej pracy. Pecet Janusz AI ma zainstalowane tylko Ubuntu i służy wyłącznie do generatywnego AI
512 GB Unified RAM pozwala załadować modele, których na 96 GB VRAM po prostu nie zmieścisz. Qwen 235B z 142 GB? Na Macu działa. Na pececie nawet nie odpalisz
Przy natywnym wywoływaniu narzędzi (function calling / tool use) modele open source jeszcze sobie z tym idealnie nie radzą. Ale testy, które przeprowadziłem, sugerują, że Mac z większymi modelami może tu wypaść lepiej. O tym opowiem w następnym materiale

Czytaj dalej

POZNAJ CYBERAKADEMIĘ

Skoro już tu jesteś - rozwiń swoje cyberumiejętności!

Dołącz do ponad 5000 kursantów, którzy zaczynali dokładnie tak jak Ty – od artykułu na blogu.
Wybierz kurs dopasowany do Twojego poziomu i zacznij ćwiczyć pod okiem praktyka.

Kali Linux od Podstaw

Poznaj system operacyjny używany przez pentesterów na całym świecie. Kurs prowadzi Cię krok po kroku – od instalacji, przez podstawowe komendy, po pierwsze testy bezpieczeństwa. Praktyczna wiedza, która otwiera drzwi do kariery w cybersec.

Terminal Linux dla pentesterów

Ten kurs to praktyka pracy z terminalem: od pierwszych kroków po analizę bezpieczeństwa i automatyzację. Poznasz logikę działania Linuxa i dowiesz się, jak budować własne polecenia. Koniec z bezmyślnym kopiowaniem komend – tu zaczyna się Twoja niezależność.

Cyberberodporność w pracy i w domu

Podstawy cyberbezpieczeństwa w przystępnej formie. Dowiedz się, jak chronić siebie i swoich bliskich w internecie – od bezpiecznych haseł, przez rozpoznawanie phishingu, po ochronę prywatności online. Idealny start dla początkujących.

Podpinanie zewnętrznych narzędzi – tu zaczyna się prawdziwa zabawa

Open WebUI daje Ci możliwość podpięcia wyszukiwarki internetowej. Ja użyłem SerpAPI – API do wyszukiwania w Google. Po podpięciu klucza i włączeniu wyszukiwania w ustawieniach modelu, model zaczął przeszukiwać sieć i odpowiadać na pytania wymagające aktualnych informacji.

Możesz też pisać własne narzędzia w Pythonie – Open WebUI ma wbudowany edytor. Tworzysz funkcję, model ją wykrywa i używa w trakcie rozmowy. To jest klucz do budowania prawdziwych agentów AI.

Open WebUI obsługuje dwa tryby wywoływania narzędzi:

Sztucznie dopinane – Open WebUI wykrywa, że narzędzie jest potrzebne i sam je podpina do kontekstu
Natywne – model sam decyduje, kiedy użyć narzędzia. To wymaga modelu wytrenowanego do używania narzędzi (function calling) i na modelach open source wciąż bywa problematyczne

PC z mocną kartą graficzną vs Mac Studio z dużą ilością Unfilied RAM – które rozwiązanie wybrać?

Nie ma jednej odpowiedzi. Zależy, co chcesz osiągnąć.

Wybierz PC z potężną kartą graficzną (np. RTX 6000 Pro), jeśli:

Zależy Ci przede wszystkim na szybkości generowania
Pracujesz z modelami, które mieszczą się w 96 GB VRAM
Potrzebujesz dedykowanej maszyny tylko do AI
Masz budżet na profesjonalny GPU

Wybierz Mac Studio z dużą ilością Unified RAM, jeśli:

Potrzebujesz stacji roboczej do codziennej pracy, która przy okazji obsługuje AI
Chcesz uruchamiać naprawdę duże modele (140+ GB), które nie zmieszczą się na żadnej pojedynczej karcie graficznej
Zależy Ci na jednym urządzeniu do wszystkiego
Nie przeszkadza Ci wolniejsze generowanie w zamian za dostęp do większych modeli

O czym warto pamiętać, zanim zaczniesz?

Budowanie własnego środowiska do lokalnego AI to nie tylko kwestia sprzętu. Kilka rzeczy, które warto wiedzieć:

Dobór modelu ma znaczenie – strona Artificial Analysis AI pozwala porównywać modele pod kątem szybkości, jakości i rozmiaru. Zanim ściągniesz model, sprawdź, czy zmieści się w Twoim sprzęcie i czy radzi sobie z zadaniami, które Cię interesują.
Kontekst trzeba ustawiać ręcznie – domyślne wartości w Open WebUI mogą być za niskie do pracy z dużymi dokumentami. Wejdź w ustawienia zaawansowane modelu i ustaw context length odpowiednio do swoich potrzeb.
RAG wymaga konfiguracji – żeby wrzucać dokumenty do czatu, musisz ustawić model embeddingowy i parametry chunkowania (wielkość fragmentów i overlap). To nie działa od razu po instalacji – wymaga konfiguracji w ustawieniach dokumentów Open WebUI.
Prywatność to kluczowy argument – cała ta zabawa ma jeden nadrzędny cel – Twoje dane nie wychodzą poza Twój sprzęt. Żadnej chmury, żadnych filtrów, żadnego przesyłania wrażliwych dokumentów firmowych do zewnętrznych API. Jeśli interesuje Cię temat ochrony danych i podstawy cyberbezpieczeństwa, to lokalne AI powinno być na Twojej liście narzędzi.

O autorze

Od ponad 15 lat pracuję w branży IT, a od 2018 roku zawodowo zajmuję się cyberbezpieczeństwem, analizą incydentów i testami penetracyjnymi.

Na co dzień mam do czynienia z prawdziwymi danymi, realnymi zagrożeniami i sytuacjami, w których błędne założenie kosztuje czas, pieniądze albo bezpieczeństwo. To doświadczenie bardzo mocno ukształtowało mój sposób myślenia – i dokładnie ten sposób myślenia chcę Ci przekazać w Cyberdetektywie.

Ten kurs powstał dlatego, że przez lata widziałem, jak wiele problemów bierze się z braku umiejętności weryfikowania informacji, łączenia faktów i odróżniania danych od domysłów. W pracy z incydentami i bezpieczeństwem bardzo szybko wychodzi na jaw, kto potrafi analizować sytuację, a kto tylko zgaduje – i ta różnica jest kluczowa również poza światem IT w zupełnie prywatnych warunkach.

Cyberdetektyw nie jest kursem teoretycznym ani zbiorem efektownych trików. To próba przeniesienia podejścia znanego z cyberbezpieczeństwa i pentestów do świata OSINT-u. Pokażę Ci nie tylko narzędzia i techniki, ale przede wszystkim tok myślenia, który wykorzystuję w swojej pracy.