Często można spotkać się z sytuacją, że nie chcemy aby cała zawartość serwisu internetowego została zaindeksowana przez wyszukiwarkę. W takich sytuacjach pomocny bywa plik robots.txt. Jest to plik tekstowy umieszczony w głównym katalogu serwisu, gdzie umieszczone są wszystkie pliki serwisu. Szanowane roboty wyszukiwarek respektują zapisy tego pliku, natomiast trzeba tutaj zaznaczyć, że nie można tego traktować jako zabezpieczenie pewnych obszarów serwisu, a raczej jako sugestię. Istnieją roboty, które ignorują ten plik.
Struktura tego pliku jest dość prosta i składa się z 3 poleceń:
User-agent:
Disallow:
Allow:
User-agent – Przeglądarka/nazwa robota np. Googlebot dla robota wyszukiwarki Google. Jeśli chcemy aby obowiązywało dla wszystkich możemy wstawić ‘*’
Disallow – nie indeksuj
Allow – indeksuj (tylko dla niektórych robotów)
Przykładowa zawartość pliku robots.txt
User-agent: *
Disallow: /katalog
Do czego zatem możemy wykorzystać plik robots.txt?
Przede wszystkim to wskazania jakie strony/katalogi nie mają być indeksowane. Może to być katalog panelu administracyjnego serwisu np. ‘/administrator’.
User-agent: *
Disallow: /administrator
Wyłącznie indeksowania dla Ask.com i zezwolenie dla Googlebot’a:
User-agent: AskJeeves
Disallow: /nie_dla_ask_com
User-agent: Googlebot
Allow: /dla_googlebot
Dzięki robots.txt możemy również blokować powtarzające się treści, aby nie zostać posądzonym o powielanie treści w serwisie.
Warto jeszcze dodać, że większość popularnych skryptów stron, takich jak WordPress, Joomla, phpBB i inne tworzą swoje własne pliki .htaccess, odpowiednie dla konkretnego CMS-a. Dodatkowo niektóre rozszerzenia czy wtyczki mogą dodać kilka kolejnych linii kodu do .htaccess, aby mogły poprawnie funkcjonować. Nie warto ingerować w ten kod, a przy wszelkich zmianach zawartości tego pliku najlepiej wykonać wcześniej kopię zapasową pliku i następnie testować nowe rozwiązania.



