Hi-5 Songs | Подарете пет и повече детски песни - Hi5 песни на седмицата, сезон 15

Последната седмица имам около 500 000 посещения / ден от googlebot в един от уебсайтовете си. В резултат на това сървърът има сериозни проблеми, за да се справи с останалите заявки.

Какво направих

  1. Проверено, че това е googlebot

Всички IP адреси са във формат 66.249.64.xxx. Следвах това, което предлага Google, и потвърдих, че е официално.

host 66.249.64.155 155.64.249.66.in-addr.arpa domain name pointer crawl-66-249-64-155.googlebot.com host crawl-66-249-64-155.googlebot.com crawl-66-249-64-155.googlebot.com has address 66.249.64.155 
  1. Намалете скоростта на обхождане в Google Search Console

Промениха "Ограничете максималната скорост на обхождане на Google" на

0.01 requests per second 100 seconds between requests 
  1. Добавете блок в robots.txt
User-agent: Googlebot Disallow: / 
  1. Добавете правило .htaccess
RewriteEngine on RewriteCond %{HTTP_USER_AGENT} ^googlebot RewriteRule ^(.*)$ http://google.com/ 

Намерих и страница в Google, която показва статистиката за обхождане за последните 90 дни. Както виждам, той няма скорошна активност. Когато последният беше на февруари (отново с голям брой посещения)

Последното ми откритие са страниците, които обхождат, са от магазинната част с всички различни филтри в параметрите като категории, тагове и сортиране. Очевидно останах без идеи и Google Търсене помогна с каквото можа.

  1. Изключете параметрите от инструмента Search Console https://www.google.com/webmasters/tools/crawl-url-parameters

Направих това днес, така че може да са необходими няколко дни, докато Google го приложи. Изключих параметрите, min_price, max_price, filter_size, filter_color, filter_brand, filter_type и orderby.

Това е пример за URL адреса, който GoogleBot посещава

https://www.example.com/product-category/woman/?filter_size=36&query_type_size=or&min_price=0&max_price=30

  • 1 Това е много необичайно поведение за Googlebot. Googlebot обикновено е много добре възпитан бот, който е много внимателен да не натоварва твърде много сайтовете, които обхожда.
  • 1 Какъв е вашият сайт и колко страници има в него?
  • Внимание: вашият Disallow: / правило за Googlebot ще премахне по-голямата част от сайта ви от търсенето с Google в рамките на няколко седмици.
  • Графиката на обхождането на статистиката от конзолата на търсачката на Google може да отнеме няколко дни, за да се актуализира. GSEC често няма задължителната актуална информация в себе си.
  • Знам за robots.txt, който ще има отрицателно въздействие върху SEO, но трябваше да предприема действия, докато има по-правилно решение. Уебсайтът в магазин с около 250 продукта и 25 категории. Плюс някои тагове. Всички обходени URL адреси са от страницата / shop, където се опитва с всички възможни параметри за сортиране и категории.

Склонен съм да мисля, че вероятно не е Googlebot, доста лесно е да се измами низа на потребителския агент и с малко повече усилия да се докладва фалшив IP адрес.

Независимо от това, вие по същество изпитвате атака за отказ на услуга, така че услуга, предназначена да предотврати това (заявка „ръб сървър“ в избраната от вас търсачка) или нещо друго, което облекчава натоварването на Apache, вероятно би помогнало.

Почти винаги използвам Nginx като обратен прокси пред Apache по различни причини, но кешът и ефективността са голяма част от него.

Има начин да зададете a noindex HTTP заглавка в Apache, но ако се игнорира robots.txt тогава се съмнявам, че това би помогнало.

  • 1 Стъпките, посочени във въпроса, означават, че не става дума само за подправяне на потребителски агент. Ботът използва IP адрес, собственост на Google. Вижте Проверка на Googlebot - Помощ за Search Console, където те говорят за използването на този метод, за да разберат дали действително посещенията са от Googlebot или от подправен потребителски агент. Подкрепих този отговор, защото останалото съдържание е добро.
  • @StephenOstermiller Съгласен съм, че изглежда е от Google, но понякога, когато преглеждам дневниците си за достъп и проверявам I.P. адрес, намирам, че го няма напълно. Тъй като повечето хора никога не биха искали да блокират GoogleBot, ако исках да тормозя някого и да затрупвам сървъра му, бих могъл да фалшифицирам низ от GoogleBot UserAgent и да използвам инструмент като hexinject.sourceforge.net, за да измамя и Google I.P. адрес ... но осъзнавам, че това вероятно е участък (и Google има хълцане от време на време), но това беше моята логика.

е работил за вас: Charles Robertson | Искате ли да се свържете с нас?