* МОЯТА СКРИТА БЪЛГАРСКА СЪДБА Е ПЪЛНА! * Откриване на невероятни карти за покемони!

Опитвам се да следвам подхода на stackoverflow за използване на бял списък за картата на сайта. Опитах се да намеря обширен списък на роботите на търсачките (и други роботи), които да използвам в моя бял списък, но това, което открих досега, е остаряла информация (не е актуализирана от години). Има ли място в мрежата, където мога да намеря редовно актуализиран списък, който съдържа потребителския агент на всеки робот на търсачката, заедно с името на домейна му (за обратен DNS)?

Благодаря

Ето как да проверите Googlebot: Проверка на Googlebot

Това изглежда покрива BING косвено. Скрипт, който може да ви помогне да стесните, когато Bing е на вашия сайт (в PHP).

  • Благодаря. Мисля, че ще го направя по този начин (потърсете подробности за всеки бот поотделно). Не възнамерявам да добавям твърде много ботове в списъка, а само основните, така че не е голяма работа. Надявах се само да спестя малко време, като използвам вече актуализиран списък, но за съжаление такъв списък изглежда не съществува.

Въпросът, на който се позовавате, показва, че отговарящият прави белия списък на самите потребителски агенти, не домейните или IP адресите, свързани с определени паяци.

Изглежда, че user-agents.org има изчерпателен списък, ако планирате да работите с низ потребителски агент.

  • Добавянето на бели списъци на потребителските агенти не е достатъчно, тъй като те могат лесно да бъдат подправени (вижте meta.stackexchange.com/questions/37231/…). Не съм споменал нищо за IP адресите, но се нуждая от името на домейна за обратното DNS търсене.
  • Следващата логична стъпка (след добавяне на бели списъци на потребителски агенти и информация за rDNS *) би била да се добавят бели списъци с IP адреси, ако сте загрижени за „неоторизиран“ трафик на вашата карта на сайта ... по предназначение да станат публични под някаква форма рано или късно. Смятали ли сте, че заключването на вашата карта на сайта е по-голяма трудност, отколкото си струва? * - Забележка: rDNS записите също могат да бъдат подправени, ако това споменава.
  • Дан, съгласен съм, че файлът трябва да е публичен, освен ако злоупотребява се. Stackoverflow прави това по основателни причини, тъй като файлът се изтегля от паяци, които не са търсачки и това отнема твърде много честотна лента. Включването в белия списък на IP адресите всъщност не е добра идея, тъй като те могат да се променят. Вярно е, че само rDNS не е достатъчен, ето защо следва да направите преглед на DNS напред като част от проверката (моля, вижте google.com/support/webmasters/bin/answer.py?answer=80553)
  • Тангенциално: Ако става въпрос за злоупотреба, всъщност мога да препоръчам включване в белия списък на IP адресите, които сте идентифицирали като легитимни (и поставяне в черния списък на IP адресите, които сте идентифицирали като нелегитимни), за да ускорите нещата - след като удостоверите потребителски агент и свържете напред и обратните DNS записи е доста безопасно да се приеме злоупотреба няма да се маскирате под идентични идентификационни данни (и обратно) ... но ако в момента не се случва злоупотреба, това е много допълнителна работа за незначителна полза (т.е. документът, който сте свързали, завършва със съвета просто да използвате низа на потребителския агент).

Може би по-добрият подход, отколкото да се опитвате да добавите в белия списък всяка търсачка, е да изберете голямата тройка (Google, Yahoo, Bing) плюс евентуално Ask (за които е известно, че също поддържат карти на сайта).

Изброяването на всички в белия списък изглежда е дълга, трудна и в крайна сметка безполезна задача. Все още можете да регистрирате кой чука на вратата и да разширите списъка си въз основа на това.

  • Всъщност не планирах да ги добавя в белия списък, но се надявах да има списък с цялата необходима информация, за да мога да взема тези, които искам да добавя в белия списък.

е работил за вас: Charles Robertson | Искате ли да се свържете с нас?