Jak powinien wyglądać plik robots.txt

Często można spotkać się z sytuacją, że nie chcemy aby cała zawartość serwisu internetowego została zaindeksowana przez wyszukiwarkę. W takich sytuacjach pomocny bywa plik robots.txt. Jest to plik tekstowy umieszczony w głównym katalogu serwisu, gdzie umieszczone są wszystkie pliki serwisu. Szanowane roboty wyszukiwarek respektują zapisy tego pliku, natomiast trzeba tutaj zaznaczyć, że nie można tego traktować jako zabezpieczenie pewnych obszarów serwisu, a raczej jako sugestię. Istnieją roboty, które ignorują ten plik.

Struktura tego pliku jest dość prosta i składa się z 3 poleceń:

User-agent:
Disallow:
Allow:

User-agent – Przeglądarka/nazwa robota np. Googlebot dla robota wyszukiwarki Google. Jeśli chcemy aby obowiązywało dla wszystkich możemy wstawić ‘*’
Disallow – nie indeksuj
Allow – indeksuj (tylko dla niektórych robotów)

Przykładowa zawartość pliku robots.txt

User-agent: *
Disallow: /katalog

Do czego zatem możemy wykorzystać plik robots.txt?
Przede wszystkim to wskazania jakie strony/katalogi nie mają być indeksowane. Może to być katalog panelu administracyjnego serwisu np. ‘/administrator’.

User-agent: *
Disallow: /administrator

Wyłącznie indeksowania dla Ask.com i zezwolenie dla Googlebot’a:

User-agent: AskJeeves
Disallow: /nie_dla_ask_com
User-agent: Googlebot
Allow: /dla_googlebot

Dzięki robots.txt możemy również blokować powtarzające się treści, aby nie zostać posądzonym o powielanie treści w serwisie.

Warto jeszcze dodać, że większość popularnych skryptów stron, takich jak WordPress, Joomla, phpBB i inne tworzą swoje własne pliki .htaccess, odpowiednie dla konkretnego CMS-a. Dodatkowo niektóre rozszerzenia czy wtyczki mogą dodać kilka kolejnych linii kodu do .htaccess, aby mogły poprawnie funkcjonować. Nie warto ingerować w ten kod, a przy wszelkich zmianach zawartości tego pliku najlepiej wykonać wcześniej kopię zapasową pliku i następnie testować nowe rozwiązania.

Czytaj więcej: Google Opal kontra n8n: różnice, zastosowania, wady i zalety