llms.txt i robots.txt: Pierwsza rozmowa Twojego sklepu z AI

Opublikowano 5 marca 202610 min czytania

Pewien polski sklep z modą damską przez ponad cztery miesiące blokował crawlera GPTBot jedną linijką w pliku robots.txt. Nikt o tym nie wiedział – plik konfiguracyjny został skopiowany z poradnika sprzed kilku lat, który zalecał blokowanie wszystkich nieznanych botów. Efekt? Cały katalog produktów był niewidoczny dla ChatGPT Shopping. Żaden klient, który pytał ChatGPT o rekomendacje modowe, nie dostawał produktów tego sklepu w wynikach. Po usunięciu jednej linii ruch z AI wzrósł z zera do 8% przychodów w ciągu kilku tygodni. Naprawa trwała trzydzieści sekund.

Ta historia powtarza się częściej, niż można by się spodziewać. W miarę jak asystenci zakupowi napędzani sztuczną inteligencją – ChatGPT Shopping, Google AI Mode, Perplexity – stają się realnym kanałem odkrywania produktów, dwa niewielkie pliki tekstowe w katalogu głównym Twojej strony zyskały zaskakująco duże znaczenie: robots.txt i nowszy llms.txt. Razem z sitemap.xml tworzą system trzech plików, który decyduje o tym, czy crawlery AI w ogóle mogą znaleźć Twój sklep, zrozumieć co sprzedajesz i rekomendować Twoje produkty kupującym.

Najprościej wyobrazić to sobie w ten sposób. robots.txt to ochroniarz przy drzwiach – decyduje, kto może wejść i do jakich pomieszczeń ma dostęp. sitemap.xml to tablica informacyjna w holu – wymienia wszystkie piętra i pomieszczenia. A llms.txt to concierge, który wita gości, wyjaśnia czym zajmuje się firma i prowadzi ich dokładnie tam, gdzie powinni trafić.

Bez ochroniarza nikt nie zna zasad. Bez tablicy informacyjnej goście błądzą po korytarzach. A bez concierge'a agenci AI muszą sami domyślać się, o co chodzi w Twoim sklepie – i zwykle robią to źle. Potrzebujesz wszystkich trzech elementów działających razem.

Ochroniarz: Jak robots.txt kontroluje dostęp crawlerów AI

Plik robots.txt istnieje od 1994 roku i od zawsze pełni prostą funkcję: mówi crawlerom internetowym, które części strony mogą odwiedzać, a których nie powinny ruszać. Przez lata większość właścicieli sklepów myślała wyłącznie o Googlebocie. Ale w 2025 i 2026 roku pojawiła się nowa generacja crawlerów AI, z których każdy odczytuje reguły robots.txt niezależnie od tradycyjnych wyszukiwarek.

Które crawlery AI mają największe znaczenie dla e-commerce? GPTBot to główny crawler OpenAI – indeksuje treści dla ChatGPT Shopping i rekomendacji produktowych. ChatGPT-User to agent, którego ChatGPT używa, gdy użytkownik prosi go o przejrzenie konkretnej strony w czasie rzeczywistym. Google-Extended kontroluje, czy Google może wykorzystać Twoje treści w funkcjach AI, takich jak AI Overviews i AI Mode w wynikach wyszukiwania. ClaudeBot i Anthropic-ai to crawlery Anthropic dla modelu Claude. A PerplexityBot zasila wyszukiwarkę AI Perplexity, która szybko zdobywa udział w rynku.

Problem, z którym mierzy się wielu sprzedawców, polega na tym, że ich robots.txt został napisany lata temu, zanim te crawlery istniały. Niektóre domyślne konfiguracje platform e-commerce zawierają nawet blankietowe blokady nieznanych user agentów. Jeśli Twój plik zawiera szeroką regułę Disallow: / dla któregokolwiek z tych botów, Twoje produkty po prostu nie istnieją w świecie tego AI.

Ale rozwiązaniem nie jest też otwarcie drzwi na oścież. Chcesz, żeby crawlery AI widziały strony produktów, kolekcji i treści informacyjne – wszystko to, co pomaga im rekomendować Twoje produkty. Nie chcesz, żeby przeczesywały koszyk, proces płatności, konta klientów czy panel administracyjny. Te strony generują szum, marnują budżet crawlowania i mogą nawet ujawnić informacje, które wolisz zachować na prywatnie.

Poniżej znajdziesz konfigurację robots.txt, która zapewnia właściwą równowagę dla typowego sklepu internetowego. Jawnie zaprasza najważniejsze crawlery AI na strony produktów i kolekcji, jednocześnie chroniąc wrażliwe obszary:

# Crawlery AI Shopping - jawnie dopuszczone
User-agent: GPTBot
Allow: /produkty/
Allow: /kolekcje/
Allow: /strony/
Disallow: /koszyk/
Disallow: /zamowienie/
Disallow: /konto/

User-agent: ChatGPT-User
Allow: /

User-agent: Google-Extended
Allow: /produkty/
Allow: /kolekcje/

User-agent: PerplexityBot
Allow: /produkty/
Allow: /kolekcje/

User-agent: ClaudeBot
Allow: /produkty/
Allow: /kolekcje/

User-agent: Anthropic-ai
Allow: /produkty/
Allow: /kolekcje/

# Pozostale crawlery
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /koszyk/
Disallow: /zamowienie/
Disallow: /konto/

Sitemap: https://twoj-sklep.pl/sitemap.xml

Zwróć uwagę na dyrektywę Sitemap: na końcu pliku. To most między ochroniarzem a tablicą informacyjną – mówi każdemu crawlerowi, gdzie znaleźć pełną mapę Twojej strony. Wielu właścicieli sklepów zapomina o tej linijce, a ma ona większe znaczenie, niż mogłoby się wydawać.

Tablica informacyjna: Dlaczego sitemap.xml ma znaczenie dla AI

Twój sitemap.xml to pełna lista każdej strony w Twoim serwisie, o której istnieniu chcesz poinformować crawlery. Tradycyjne wyszukiwarki stały się już dość dobre w odkrywaniu stron przez linki wewnętrzne, ale crawlery AI działają inaczej. Są bardziej celowe w swoich wizytach – chcą szybko znaleźć strony produktów, pobrać dane strukturalne i przejść dalej. Dobrze utrzymana mapa strony sprawia, że ten proces jest znacznie efektywniejszy.

Dla AI commerce szczególnie ważne jest, żeby Twoja mapa strony zawierała wszystkie strony produktów (nawet jeśli masz ich dziesiątki tysięcy), wszystkie strony kolekcji i kategorii oraz ważne treści informacyjne – politykę wysyłki, stronę zwrotów, tabele rozmiarów. Używaj aktualnych dat lastmod, żeby crawlery wiedziały, które produkty są nowe lub niedawno zaktualizowane – funkcje AI Shopping preferują świeże treści. Ustaw też sensowne wartości priority: strony bestsellerów powinny mieć wyższy priorytet niż polityka prywatności.

Mapa strony zapewnia szerokość pokrycia – gwarantuje, że żadna strona produktu nie zostanie pominięta. Ale nie pomaga agentowi AI zrozumieć, czym tak naprawdę jest Twój sklep, co Cię wyróżnia i od czego zacząć, gdy klient zada pytanie. Do tego potrzebny jest concierge.

Concierge: Jak llms.txt pomaga AI zrozumieć Twój sklep

Specyfikacja llms.txt jest stosunkowo nowa, ale jej adopcja szybko rośnie. Powstała, żeby rozwiązać konkretny problem: gdy agent AI trafia na Twoją stronę, ma ograniczone okno kontekstowe i ograniczony czas na zrozumienie, co sprzedajesz i jak zorganizowana jest Twoja strona. Crawlowanie dziesiątek podstron, żeby to poskładać, jest wolne i podatne na błędy. Plik llms.txt daje AI wszystko, czego potrzebuje, w jednym, uporządkowanym dokumencie.

Jeśli robots.txt mówi "możesz wejść", a sitemap.xml mówi "oto wszystko, co mamy", to llms.txt mówi "witaj, pozwól że wyjaśnię, kim jesteśmy, i pomogę Ci znaleźć to, czego szukasz". To różnica między byciem wpuszczonym do domu towarowego a byciem powitanym przy drzwiach przez kogoś, kto dowiaduje się czego szukasz i prowadzi Cię do właściwego działu.

Dobry plik llms.txt jest napisany w Markdown i umieszczony w katalogu głównym domeny (np. https://twoj-sklep.pl/llms.txt). Zaczyna się od nazwy sklepu i krótkiego opisu, a następnie linkuje do najważniejszych sekcji strony z kontekstem opisującym, co każda sekcja zawiera. Oto przykład dla średniej wielkości sklepu z modą:

# Nordycki Styl

> Moda inspirowana Skandynawią dla kobiet i mężczyzn.
> Specjalizujemy się w minimalistycznych bazowych elementach
> garderoby z materiałów zrównoważonych. Darmowa dostawa od 300 zł.
> 30 dni na zwrot każdego produktu.

## Kategorie produktów
- [Kolekcja damska](/kolekcje/damska): Sukienki, bluzki, dzianiny, okrycia
- [Kolekcja męska](/kolekcje/meska): Koszule, spodnie, kurtki, akcesoria
- [Nowości](/kolekcje/nowosci): Aktualizowane co tydzień
- [Wyprzedaż](/kolekcje/wyprzedaz): Aktualne przeceny we wszystkich kategoriach

## Informacje zakupowe
- [Tabela rozmiarów](/strony/rozmiary): Dokładne wymiary wszystkich ubrań
- [Wysyłka i dostawa](/strony/wysylka): Darmowa od 300 zł, 2-4 dni robocze
- [Zwroty i wymiany](/strony/zwroty): 30 dni na bezproblemowy zwrot
- [Karty podarunkowe](/produkty/karta-podarunkowa): Od 100 do 2000 zł

## O nas
- [Nasza historia](/strony/o-nas): Założony w Gdańsku w 2019 roku
- [Zrównoważony rozwój](/strony/zrownowazony-rozwoj): Etyczna moda
- [Kontakt](/strony/kontakt): [email protected]

Zwróć uwagę, że to nie jest zwykła lista linków. Każdy wpis zawiera krótki opis mówiący AI, co znajdzie na danej stronie. Gdy klient pyta ChatGPT "znajdź mi zrównoważoną kurtkę zimową do 800 zł", AI może przeczytać ten plik i od razu wiedzieć, że powinien szukać w Kolekcji damskiej lub męskiej, że marka stawia na zrównoważone materiały i gdzie sprawdzić rozmiary oraz warunki dostawy. Bez llms.txt AI musiałoby crawlować wiele stron, żeby to wszystko poskładać – i mogłoby nigdy nie trafić na wątek zrównoważonego rozwoju, który czyni ten sklep idealnym dopasowaniem do zapytania klienta.

Trzy pliki jako system

Siła tego rozwiązania nie tkwi w żadnym pojedynczym pliku – tkwi w tym, jak wszystkie trzy współpracują. Wyobraź sobie, co dzieje się, gdy klient prosi ChatGPT Shopping o znalezienie produktu. Najpierw GPTBot lub ChatGPT-User sprawdza Twój robots.txt. Jeśli ma pozwolenie na wejście, sprawdza sitemap.xml, żeby odkryć wszystkie dostępne strony. Ale zanim zacznie crawlować wszystko po kolei, szuka llms.txt, żeby uzyskać przegląd tego, co sprzedajesz i które strony są najbardziej relewantne dla zapytania klienta. Dopiero wtedy odwiedza tylko te strony, których potrzebuje, odczytuje dane strukturalne (schemat Product, ceny, dostępność) i prezentuje wyniki.

Gdy brakuje któregokolwiek elementu, system się degraduje. Zablokuj crawlera w robots.txt – i nic innego nie ma znaczenia, jesteś niewidoczny. Wpuść crawlera, ale nie miej mapy strony – i może przeoczyć połowę Twojego katalogu. Miej oba pliki, ale brak llms.txt – i AI traci czas na crawlowanie nieistotnych stron lub źle interpretuje, w czym specjalizuje się Twój sklep.

To szczególnie istotne dla mniejszych sklepów konkurujących z marketplace'ami. Amazon nie potrzebuje llms.txt, bo każde AI już wie, czym jest Amazon. Ale jeśli prowadzisz sklep z ceramiką artystyczną albo niszową markę odzieży sportowej, te pliki są Twoją szansą, żeby wytłumaczyć agentom AI, dlaczego to właśnie Twój sklep jest właściwą odpowiedzią na konkretne pytania klientów.

Najczęstsze błędy, które kosztują widoczność AI

Po audycie setek sklepów internetowych pewne wzorce pojawiają się regularnie. Najbardziej kosztowny błąd to zbyt szeroka reguła Disallow, która blokuje crawlerom AI dostęp do stron produktów. Dzieje się tak najczęściej, gdy właściciele sklepów kopiują szablon robots.txt z poradnika napisanego w 2019 roku, przed erą crawlerów AI. Takie szablony czasem zawierają Disallow: / dla wszystkich nieznanych botów jako zabezpieczenie – rozsądny pomysł w tamtych czasach, ale katastrofalny dla widoczności AI dzisiaj.

Kolejny częsty problem to brak pliku llms.txt w ogóle. Na początku 2026 roku mniej niż 5% sklepów internetowych go posiada. To oznacza, że samo jego stworzenie stawia Cię przed niemal całą konkurencją pod względem czytelności dla AI. To też jeden z najprostszych plików do przygotowania – dobrze napisany llms.txt można stworzyć w piętnaście minut.

Przestarzałe mapy stron to kolejna częsta bolączka. Jeśli Twój sitemap.xml nie był aktualizowany od poprzedniego sezonu, nowe produkty nie pojawią się w wynikach crawlowania AI. Większość platform e-commerce generuje mapy stron automatycznie, ale warto sprawdzić, czy generowanie faktycznie działa i czy obejmuje wszystkie strony produktów.

Wreszcie, niektóre sklepy zapominają dodać dyrektywę Sitemap: https://... w swoim robots.txt. Bez tego wskaźnika crawlery muszą zgadywać, gdzie znajduje się mapa strony. Większość spróbuje /sitemap.xml z konwencji, ale poleganie na konwencji jest zbędne, gdy jedna linijka eliminuje wszelką dwuznaczność.

Zacznij działać: plan krok po kroku

Otwórz swój robots.txt teraz (wpisz twoj-sklep.pl/robots.txt w przeglądarce) i sprawdź, czy GPTBot, ChatGPT-User, Google-Extended, ClaudeBot i PerplexityBot są blokowane lub w ogóle nie wymienione. Jeśli są blokowane, zaktualizuj plik według szablonu powyżej.
Upewnij się, że Twój robots.txt zawiera dyrektywę Sitemap: wskazującą na sitemap.xml.
Sprawdź swoją mapę strony, odwiedzając twoj-sklep.pl/sitemap.xml. Upewnij się, że zawiera wszystkie strony produktów i ma aktualne daty lastmod.
Stwórz plik llms.txt w katalogu głównym domeny. Poświęć piętnaście minut na napisanie jasnego opisu sklepu i zalinkowanie najważniejszych sekcji z pomocnym kontekstem.
Uruchom darmowy audyt gotowości AI commerce, żeby zweryfikować, czy wszystko jest poprawnie skonfigurowane i wyłapać problemy, które mogły Ci umknąć.

Sprawdź, jak wypadasz

Nie masz pewności, czy Twój robots.txt blokuje crawlery AI albo czy llms.txt jest prawidłowo skonfigurowany? Nasz darmowy audyt gotowości AI commerce sprawdza oba pliki automatycznie, razem z mapą strony, danymi strukturalnymi i feedem produktowym. Otrzymasz przejrzysty raport pokazujący dokładnie, co działa, co jest zepsute i co naprawić w pierwszej kolejności. Audyt trwa mniej niż minutę – wystarczy wpisać adres URL sklepu i pozwolić skanerowi wykonać resztę.