Jak powinien wyglądać plik robots.txt

Często można spotkać się z sytuacją, że nie chcemy aby cała zawartość serwisu internetowego została zaindeksowana przez wyszukiwarkę. W takich sytuacjach pomocny bywa plik robots.txt. Jest to plik tekstowy umieszczony w głównym katalogu serwisu, gdzie umieszczone są wszystkie pliki serwisu. Szanowane roboty wyszukiwarek respektują zapisy tego pliku, natomiast trzeba tutaj zaznaczyć, że nie można tego traktować jako zabezpieczenie pewnych obszarów serwisu, a raczej jako sugestię. Istnieją roboty, które ignorują ten plik.

Struktura tego pliku jest dość prosta i składa się z 3 poleceń:

User-agent:

Disallow:

Allow:

User-agent – Przeglądarka/nazwa robota np. Googlebot dla robota wyszukiwarki Google. Jeśli chcemy aby obowiązywało dla wszystkich możemy wstawić ‘*’
Disallow – nie indeksuj
Allow – indeksuj (tylko dla niektórych robotów)

Przykładowa zawartość pliku robots.txt

User-agent: *

Disallow: /katalog

Do czego zatem możemy wykorzystać plik robots.txt?
Przede wszystkim to wskazania jakie strony/katalogi nie mają być indeksowane. Może to być katalog panelu administracyjnego serwisu np. ‘/administrator’.

User-agent: *

Disallow: /administrator

Wyłącznie indeksowania dla Ask.com i zezwolenie dla Googlebot’a:

User-agent: AskJeeves

Disallow: /nie_dla_ask_com

User-agent: Googlebot

Allow: /dla_googlebot

Dzięki robots.txt możemy również blokować powtarzające się treści, aby nie zostać posądzonym o powielanie treści w serwisie.

Warto jeszcze dodać, że większość popularnych skryptów stron, takich jak WordPress, Joomla, phpBB i inne tworzą swoje własne pliki .htaccess, odpowiednie dla konkretnego CMS-a. Dodatkowo niektóre rozszerzenia czy wtyczki mogą dodać kilka kolejnych linii kodu do .htaccess, aby mogły poprawnie funkcjonować. Nie warto ingerować w ten kod, a przy wszelkich zmianach zawartości tego pliku najlepiej wykonać wcześniej kopię zapasową pliku i następnie testować nowe rozwiązania.

Avatar photo
Wiśniewski Jakub

Interesuję się informatyką od 2005, a pracuję w IT od 2010. Lubię rozwiązywać problemy, a w wolnym czasie biegać po bezdrożach.