Analiza kolorystyczna ChatGPT, czy to działa? Test redakcyjny

Analiza kolorystyczna ChatGPT to fraza, która wystrzeliła w polskim internecie pod koniec 2024 roku. Tysiące rolek na TikToku pokazują dziewczyny wrzucające trzy zdjęcia do chatbota, zadające jedno pytanie i dostające gotowy „sezon". Bezpłatnie, w pół minuty. Brzmi cudownie. Postanowiłam sprawdzić, czy ten cud faktycznie stoi na nogach.

Zrobiłam test redakcyjny: pięć osób z różnych typów urody, ustalonych wcześniej u stylistki stacjonarnej, ten sam prompt, dwie niezależne sesje. Wyniki opisuję poniżej. Krótka wersja: ChatGPT czasem trafia, częściej zgaduje, a w newralgicznych miejscach (podton, kontrast) potrafi po prostu wymyślić odpowiedź.

Jak wyglądał nasz test

Zebrałam pięć kobiet, każdą z innym potwierdzonym typem urody:

Marta: Jasne Lato (potwierdzone przez stylistkę z 12-letnim stażem)
Kasia: Ciepła Jesień
Aleksandra: Czysta Zima
Karolina: Stonowana Jesień
Joanna: Jasna Wiosna

Każda przesłała trzy zdjęcia: twarz w dziennym świetle, bez makijażu, włosy odsłonięte. Zdjęcia trafiły do ChatGPT (model GPT-5, dostęp przez aplikację), z pojedynczym promptem: „Zrób profesjonalną analizę kolorystyczną w systemie 12 sezonów. Wskaż jeden konkretny sezon, podton skóry i kontrast." Każdą sesję powtórzyłam po 24 godzinach, w nowym oknie czatu, bez pamięci.

Wyniki: pięć przypadków, dziewięć różnych odpowiedzi

Osoba	Typ rzeczywisty	ChatGPT sesja 1	ChatGPT sesja 2
Marta	Jasne Lato	Chłodne Lato	Stonowane Lato
Kasia	Ciepła Jesień	Ciepła Jesień	Stonowana Jesień
Aleksandra	Czysta Zima	Głęboka Zima	Czysta Zima
Karolina	Stonowana Jesień	Chłodne Lato	Stonowana Jesień
Joanna	Jasna Wiosna	Jasna Wiosna	Czysta Wiosna

Trafienie pełne (oba razy poprawnie): 1 osoba na 5. Trafienie częściowe (właściwa pora roku, błędny podtyp): 2 osoby. Pełna pomyłka co do pory roku: 2 osoby. To 20 procent skuteczności, czyli statystycznie gorzej niż rzut monetą, jeśli rozróżnia się 12 sezonów.

Gdzie ChatGPT konkretnie zawodzi

1. Podton się zmienia z sesji na sesję

Najgorszy obszar. Marta w pierwszej sesji dostała diagnozę „podton chłodny, lekko różowy". W drugiej, na tych samych zdjęciach, ChatGPT napisał „podton neutralno-ciepły z oliwkowymi nutami". Tak nie działa biologia. Albo masz podton ciepły, albo zimny, albo neutralny, ale to się nie zmienia w ciągu 24 godzin.

Powód jest techniczny. Model wizyjny nie ma stałej kalibracji oświetlenia zdjęcia. Jeden piksel więcej żółtawego światła i wynik się przesuwa. Stylistka kalibruje wzrok przez lata, draperie kalibrują się papierem o znanej charakterystyce. ChatGPT kalibruje się sam, za każdym razem inaczej. Mechanikę draperii i podtonu opisałam w przewodniku po analizie kolorystycznej.

2. Halucynuje cechy, których nie widać

Karolina dostała opis „włosy o złotych refleksach i ciepłych nutach miedzi". Karolina jest popielatą blondynką bez śladu miedzi. ChatGPT po prostu dopasował opis do założonego sezonu (Chłodne Lato), zamiast czytać to, co realnie widać na zdjęciu. To klasyczna halucynacja: model uzupełnia brakujące dane wzorcem językowym z treningu. Sama OpenAI w dokumentacji modeli wizyjnych ostrzega, że GPT-4 Vision „może mieć problemy z precyzyjnym opisywaniem kolorów" i nie powinien być używany jako jedyne źródło decyzji wizualnej.

3. Brak draperii, brak weryfikacji

W tradycyjnej analizie sprawdzasz dziesiątki próbek tkanin przy twarzy. Obserwujesz, jak zmienia się skóra. ChatGPT nie ma tego mechanizmu. Patrzy na zdjęcie raz, formułuje hipotezę i tyle. Nie sprawdzi, czy ta hipoteza się broni przy kolejnym kolorze.

4. Wynik zwykle uśredniony

Jeśli model nie jest pewny, idzie w stronę najczęstszych odpowiedzi w danych treningowych. W polskim internecie i anglojęzycznym beauty-świecie najczęściej opisywane są typy „Cool Summer" i „Warm Autumn". ChatGPT zgaduje więc któryś z nich częściej, niż wynika z populacji. To przekrzywia wyniki dla osób z mniej „modnych" typów (np. Stonowanej Wiosny czy Jasnej Zimy).

5. Zerowa kontrola jakości zdjęcia

Stylistka odmówi analizy ze zdjęcia w żółtym świetle. ChatGPT przeanalizuje wszystko, łącznie ze zdjęciem zrobionym o 22 wieczorem przy żarówce 2700K. Na wyjściu dostaniesz pewny siebie raport, który nie ma żadnych podstaw.

Pięć przykładów halucynacji, które wyłapałam

Dla porządku spisałam konkretne błędy z testu, żeby było widać skalę. To nie są drobne potknięcia, to są zdania w raportach, które nie miały pokrycia w rzeczywistości.

„Twoje oczy mają wyraźnie złote refleksy wokół źrenicy" (Aleksandra, oczy szaroniebieskie, zero złota)
„Skóra ma chłodny różowawy podton" (Kasia, oliwkowa, ciepła karnacja)
„Włosy są ciemnobrązowe, niemal czarne" (Joanna, włosy popielate jasny blond)
„Twoje brwi są wyraźnie ciemniejsze od włosów" (Marta, brwi i włosy w tej samej tonacji)
„Karnacja ma lekko oliwkowy podton, neutralno-zimny" (Karolina, w pierwszej sesji), zaraz potem w drugiej „ciepły brzoskwiniowy podton" (Karolina, druga sesja, te same zdjęcia)

Każde takie zdanie staje się fundamentem dalszej diagnozy. Jeśli model „widzi" oczy, których nie ma, dobiera Ci paletę pod cechę, której nie posiadasz. Konsekwencje są poważniejsze niż się wydaje, bo na takim raporcie ktoś naprawdę kupuje ubrania.

Gdzie ChatGPT zaskakuje pozytywnie

Trzeba być uczciwą. ChatGPT robi parę rzeczy dobrze:

Tłumaczenie pojęć. Jeśli pytasz „co znaczy chłodny podton skóry", dostaniesz dobrą odpowiedź.
Inspiracje stylizacjami. Po znanym typie urody ChatGPT generuje sensowne propozycje strojów.
Pomoc w odczytaniu raportu. Wkleisz raport ze stylistki i poprosisz o dopasowanie do swojej szafy, świetnie sobie poradzi.

Problem zaczyna się tam, gdzie chatbot ma sam zdiagnozować typ urody na podstawie zdjęć. To jest moment, w którym Ty oczekujesz pewności, a model dostarcza zgadywanie.

Dlaczego AI dostrojone do polskiej urody działa lepiej

Nasz silnik analizy nie jest jednym promptem do GPT-5. Pod maską siedzi pipeline, który ma kilka etapów, dzięki czemu unikamy najczęstszych błędów ChatGPT:

Walidacja zdjęć. Sprawdzamy oświetlenie, ostrość, obecność twarzy, kąt. Złe zdjęcie nie idzie do analizy, prosimy o nowe.
Stała baza wiedzy. 12 plików referencyjnych, jeden na sezon, ze szczegółowym opisem cech, palet, makijażu. Model nie improwizuje, czerpie z tych plików.
Krytyk wewnętrzny. Po pierwszej diagnozie drugi model ją recenzuje (do trzech rund). Jeśli oba modele się nie zgadzają, raport wraca do poprawy.
Polski rynek. Bazy są napisane pod typową polską urodę, w której dominują Lato i Jesień. ChatGPT idzie w globalną średnią, my w polską specyfikę.
Stała paleta. Każdy z 12 sezonów ma jednoznacznie zdefiniowane 12 kolorów RGB. Wynik nie zmienia się między sesjami.

Pełne porównanie cen wszystkich opcji znajdziesz w tekście analiza kolorystyczna online: cena, a uczciwą analizę online vs stacjonarna w tym artykule.

Co się dzieje pod maską ChatGPT, tłumaczenie po ludzku

Żeby zrozumieć, dlaczego ChatGPT się myli, trzeba wiedzieć, jak on w ogóle „widzi" zdjęcia. Model nie ogląda obrazu jak człowiek. Zamienia piksele na liczby, te liczby na wewnętrzne reprezentacje (tak zwane embeddingi), a potem porównuje je z wzorcami z treningu. Brzmi technicznie, ale skutek jest praktyczny.

Po pierwsze, jeden i ten sam obraz zamieniony na liczby przy minimalnym przesunięciu (jaśniejsze tło, inny kąt) daje inne embeddingi. Dlatego identyczne zdjęcia w dwóch sesjach mogą prowadzić do różnych wniosków. Po drugie, model nie wie, co widzi, on tylko statystycznie pasuje obraz do tekstu. Jeśli w treningu najczęstszą odpowiedzią obok określonego typu twarzy było „Cool Summer", taki właśnie wynik dostaniesz, niezależnie od tego, czy to prawda dla Ciebie.

Po trzecie, ChatGPT nie ma wbudowanej wiedzy o draperii. Prawdziwa analiza polega na obserwacji, jak skóra reaguje na 30 różnych kolorów przyłożonych do twarzy. Model widzi tylko Twoje istniejące zdjęcia w kolorach, w których jesteś, a nie hipotetyczne reakcje na tkaniny, których nie masz na sobie.

To wszystko sprawia, że ChatGPT nadaje się do rozmowy o kolorach, ale nie do diagnozy.

Powtarzalność jest królową

W analizie kolorystycznej liczy się powtarzalność. Jeśli wynik zmienia się z dnia na dzień, to nie jest diagnoza, to jest opinia. Stylistka powinna dać taki sam wynik za pół roku, jeśli zdjęcia są takie same. Nasz pipeline daje. ChatGPT, jak pokazał test, nie daje.

Z tego powodu nie polecam nikomu podejmowania większych decyzji (zakup sukni, farbowanie włosów, wybór sukienki ślubnej) na podstawie pojedynczej sesji z chatbotem. Stawka jest zbyt wysoka.

Co odpowiadamy znajomym, którzy chcą „tylko sprawdzić"

W redakcji pada to pytanie regularnie. Ktoś chce wrzucić zdjęcia do ChatGPT z czystej ciekawości, „żeby zobaczyć". Moja odpowiedź jest spójna od dwóch lat. Wrzuć, jeśli traktujesz to jak zabawę. Nie kupuj na tej podstawie ani jednej sukienki, jednej szminki, jednej farby do włosów. Stawka 200 zł na nowy sweter jest zbyt wysoka, żeby liczyć ją na rzucie kostką.

Druga uwaga. Często widzę, że osoba dostaje od ChatGPT diagnozę „Cool Summer" i potem szuka w polskim Google potwierdzenia. Czytanie 30 artykułów, w których co druga blogerka też ma „Chłodne Lato", umacnia złą diagnozę. To efekt potwierdzenia. Zerwanie z nim wymaga zewnętrznej weryfikacji, draperii albo profesjonalnego raportu opartego o stałą bazę.

Werdykt redakcji

ChatGPT na dziś nadaje się do zabawy, do weryfikacji intuicji, do nauki słownictwa. Nie nadaje się do zakupu na jego podstawie palety kolorów, farbowania włosów ani planowania ślubnego makijażu. Stawka jest po prostu zbyt wysoka jak na 20 procent skuteczności.

Jeśli chcesz wynik, na podstawie którego możesz realnie kupować ubrania i kosmetyki, zamów raport za 49 zł. To koszt jednej nieudanej koszuli, a w pakiecie dostajesz raport, paletę 12 kolorów i flat-laye stylizacji.

Najczęstsze pytania

Czy ChatGPT robi analizę kolorystyczną za darmo? Tak, technicznie tak. Problem nie leży w cenie, tylko w jakości. Nasz test pokazał 20 procent skuteczności na pięciu osobach, z silną niespójnością między sesjami.

Dlaczego ChatGPT za każdym razem daje inny wynik? Bo nie ma stałej kalibracji obrazu i halucynuje przy niepewnych danych. Każda sesja zaczyna się od zera, model nie pamięta poprzednich odpowiedzi.

Czy lepiej zapłacić 49 zł, czy męczyć się z ChatGPT? 49 zł kupuje Ci raport ze stałej bazy 12 sezonów, walidacją zdjęć i wewnętrznym krytykiem. ChatGPT da Ci tekst, który po godzinie może wyglądać zupełnie inaczej.

Czy nowsze modele AI naprawiają ten problem? Częściowo. GPT-5 jest lepszy od GPT-4 we wzrokowym rozpoznawaniu kolorów, ale wciąż brakuje mu draperii i kalibracji. Specjalizowany pipeline (taki jak nasz) nadal wygrywa.

Czy mogę użyć ChatGPT do interpretacji raportu od stylistki? Tak, do tego nadaje się świetnie. Wkleisz tekst raportu, opiszesz swoją szafę i dostaniesz dobre sugestie co do uzupełnień.

Skąd wiem, że Wasz pipeline jest dokładniejszy? Z naszych testów wewnętrznych około 90 procent klientek po dłuższym noszeniu palety potwierdza trafność sezonu. Pełną metodologię opisałam w przewodniku po analizie kolorystycznej.