Укротяване на вашата изследователска тема

Имам няколко страници в сайта си, от които искам да не позволявам на търсачките, затова ги забраних в моя robots.txt файл като този:

User-Agent: * Disallow: /email 

И все пак наскоро забелязах, че Google все още понякога връща връзки към тези страници в резултатите от тяхното търсене. Защо се случва това и как мога да го спра?

Заден план:

Преди няколко години направих опростен уебсайт за клуб, в който участва мой роднина. Те искаха да имат имейл връзки на страниците си, така че да се опитат да запазят тези имейл адреси да не свършат твърде много списъци със спам, вместо да се използва директно mailto: връзки Направих тези връзки да сочат към прост скрипт за улавяне на пренасочване / адресиране, работещ на моя собствен сайт. Този скрипт ще върне 301 пренасочване към действителното mailto: URL или, ако е открил подозрителен модел на достъп, страница, съдържаща много произволни фалшиви имейл адреси и връзки към повече такива страници. За да държа легитимните ботове за търсене далеч от капана, настроих robots.txt правилото, показано по-горе, забраняващо цялото пространство на легитимни пренасочващи връзки и страници.

Съвсем наскоро обаче един от хората в клуба потърси Google за собственото си име и беше доста изненадан, когато един от резултатите на първата страница беше линк към скрипта за пренасочване, със заглавие, състоящо се от техния имейл адрес от моя име. Разбира се, те веднага ми изпратиха имейл и искаха да знаят как да извадят адреса им от индекса на Google. И аз бях доста изненадан, тъй като нямах представа, че Google изобщо ще индексира такива URL адреси, привидно в нарушение на моите robots.txt правило.

Успях да изпратя искане за премахване до Google и изглежда е работило, но бих искал да знам защо и как Google заобикаля моето robots.txt като това и как да се уверите, че никоя от забранените страници няма да се покаже в резултатите от търсенето.

Пс. Всъщност открих възможно обяснение и решение, което ще публикувам по-долу, докато подготвям този въпрос, но мислех, че все пак ще го задам, в случай че някой друг може да има същия проблем. Моля, не се колебайте да публикувате свои собствени отговори. Също така би ми било интересно да разбера дали и други търсачки правят това и дали същите решения работят и за тях.

  • 1 "и как Google заобикаля моя robots.txt „Предполагам, че вече знаете това (или как изобщо бихте могли да създадете сайт на първо място), но в случай че някой нещастен глупак се скита от ... robots.txt файлът е като малка табела „Забранено влизане“ до нечия алея. Това не е магия и (освен ако посетителят изрично не го потърси), той може да се скита из вашия имот, без дори да бъде леко засегнат от съществуването му. Има интернет еквиваленти на прожектори и огради с бръснач, но ако те са това, което искате, robots.txt нали.

Изглежда, че Google умишлено включва забранени URL адреси robots.txt в техния индекс, ако има връзки към тези URL адреси от други страници, които са обхождали. За да цитирате техните помощни страници за Инструменти за уеб администратори:

„Въпреки че Google няма да обхожда или индексира съдържанието на страници, блокирани от robots.txt, все пак можем да индексираме URL адресите, ако ги намерим на други страници в мрежата. В резултат URL адресът на страницата и, потенциално, други публично достъпна информация, като котва текст във връзки към сайта или заглавието от проекта Open Directory (www.dmoz.org), може да се появи в резултатите от търсенето с Google. "

Очевидно Google интерпретира a Disallow директива в robots.txt като забрана срещу пълзене страницата, не срещу индексиране то. Предполагам, че това е технически валидно тълкуване, дори и да ми омърлява правила, налагащи закон.

В тази статия от интервю Мат Кътс от Google дава малко повече информация и предоставя разумно звучащо обяснение защо правят това:

„В ранните дни много много популярни уебсайтове изобщо не искаха да бъдат обхождани. Например eBay и New York Times не разрешиха на никаква търсачка или поне не Google да обхожда страници от нея. Библиотеката на Конгреса имаше различни раздели, в които се казва, че нямате право да обхождате с търсачка. И така, когато някой дойде в Google и въведе eBay, а ние не обходихме eBay и не можахме да върнем eBay, ние изглеждаше някак неоптимално. И така, компромисът, който решихме да измислим, беше, че няма да ви обхождаме от robots.txt, но можем да върнем тази препратка към URL адреса, която видяхме. "

Решението препоръчва се на двете страни да се добави noindex мета тагове към страниците, които не искате да се индексират. (The X-Robots-Tag HTTP заглавката трябва да работи и за не-HTML страници. Не съм сигурен обаче дали работи при пренасочвания.) Парадоксално е, че това означава, че трябва позволява Googlebot да обходи тези страници (или като ги премахне от robots.txt или чрез добавяне на отделен, по-разрешителен набор от правила за Googlebot), тъй като в противен случай той не може да види мета маркера на първо място.

Редактирах скрипта си за пренасочване / паяк, за да изпратя както мета маркера, така и X-Robots-Tag заглавка със стойността noindex,nofollow и позволи на Googlebot да обхожда URL адреса на скрипта в моя robots.txt. Ще видим дали ще работи, след като Google повторно индексира сайта ми.

Вярно е, че докато това трябва да попречи на Google (и добрите ботове) да обхождат тези страници и да четат съдържанието им, те все още могат да показват връзка само за URL адреси в SERP, ако са свързани към формата:

Както можете да видите, няма заглавие или описание, това е буквално само URL адресът. Естествено този тип резултати обикновено се пропускат от SERP, освен ако изрично не ги търсите.

И както споменавате в отговора си, ако не искате URL адресът да се показва изобщо в SERP, тогава трябва да разрешите роботи, но да включите noindex мета маркер.

е работил за вас: Charles Robertson | Искате ли да се свържете с нас?