Използвайки оператор за пренасочване в моя файл htaccess, хората, които въвеждат следното в адресната лента ...
http://example.com/index.php
... са пренасочени към ...
http://example.com/
Също така имам мета маркер noindex, nofollow на всички страници на уебсайта ми.
Въпросът ми е, като се има предвид, че поведението за пренасочване и метаданните, googlebot ще индексира главната ми страница (т.е. index.php), ако файлът ми robots.txt е както следва ...
User-agent: Googlebot Allow: /index.php Disallow: / User-agent: * Disallow: /
Ако не, как да променя моя robots.txt, така че само главната ми страница да бъде индексирана в google и нищо повече?
Благодаря предварително!
Ако пренасочите към „/“, но позволите само „/index.php“ да бъде индексиран, нищо няма да бъде индексирано. За вас "/" и "/index.php" са една и съща страница. Но за търсачките те са два отделни URL адреса. Като блокирате „/“, която е единствената страница, която потребителите очевидно ще видят, вие блокирате целия си уебсайт.
Ако искате да имате по-фин контрол върху това, което се индексира, използвайте мета маркерите, споменати по-горе и / или използвайте HTTP заглавката x-robots-tag за контрол на индексирането. Конкретно използвайте X-Robots-Tag: noindex
на всички ваши страници с изключение за index.php. Тогава няма нужда да използвате файла robots.txt. Четох някъде заглавката HHTP е по-ефективна и предпочитаният начин да се блокира индексирането на страници, но в момента не мога да намеря тази статия.
Джон Конде вече обясни, че текущото ви решение няма да работи (+1), тъй като Googlebot ще оцени правилата само след като бъде пренасочен вече и ще се подчини Disallow: /
съответно да блокирате всички URL адреси, включително вашата основна / основна страница след това.
По-конкретно за Googlebot можете да улесните неговите разширения към официалния протокол robots.txt (вижте раздела Съвпадащ модел в рамките на Блокиране или премахване на страници с помощта на файл robots.txt), по следния начин:
User-agent: Googlebot Allow: /$ Disallow: /
The $
знак съответства на края на URL, така че Allow: /$
директива ще разреши всеки URL адрес, който започва с името на вашия домейн, последван от нищо, т.е.да разреши вашата основна / основна страница след се пренасочва от index.php вече.
The Disallow: /
директива ще блокира всички останали URL адреси, както обикновено след това.
Току-що тествах това успешно с инструмента за тестване robots.txt в инструментите на Google за уеб администратори (наличен там чрез Достъп на робот под Конфигурация на сайта), за да можете сами да потвърдите това веднага, също така - разглеждането на тази безценна селекция от инструменти / информация, свързана с SEO като цяло и в частност с Google, е силно препоръчително при всички случаи!
Рисковано е. За да сте сигурни, че Google индексира вашата начална страница, направете това:
User-agent: * Allow: /index.php Disallow: /a Disallow: /b ... Disallow: /z Disallow: /0 ... Disallow: /9
Така че вашият корен "/" няма да съвпада с правилата за забрана.
Също така, ако имате AdSense, не забравяйте да добавите
User-agent: Mediapartners-Google Allow: /