Back to Question Center
0

Semalta plazící nefunkční odkazy

1 answers:

Tl: Dr
Neznámý bot, který prochází stejnou nefunkční adresu URL (HTTP 400) znovu a znovu. Různý uživatelský agent a jinou zemi původu.

Problém

Zdá se, že nejméně jednou týdně dostáváme velké množství chyb HTTP 400, které jsou zasaženy na našich stránkách (máme logování, abychom nás informovali). Každé ráno kontrolujeme protokoly a na tuto jednotnou adresu URL / foo / bar / item / se nachází 50 až 200 hitů.

Co víme

Tato adresa URL se objevuje téměř na každé stránce našeho webu (výpisy produktů), ale je vždy vytvořena jako / foo / bar / item / 857398 . Když je zasažen bez ID, správně zařadí neplatnou žádost HTTP 400.

Zdá se, že je to nějaký pavouk:

  • Hit s různými uživatelskými agenty, které se liší mezi IE6, Firefox 5 a operou 8
  • zasahuje v malých výbojích po 2 až 10 požadavcích každých 30 minut
  • JavaScript se nespustí, protože v Google Analytics jej nemohu najít žádné stopy
  • Nepožaduje žádné obrázky propojené na stránce, záznamy pouze seznam stránky po stránce, žádné žádosti o obraz mezi
  • Je velmi často proxy do mnoha různých zemí (používáme Geo IP ke sledování co nejdále z informací o záhlaví)
  • Neposílá žádné hlavičky HTTP_REFERER ke sledování, kterou stránku zvolila z URL

Tato adresa byla umístěna v robotech. txt jako / foo / , protože žádná z těchto podmnožin adresy URL by neměla být indexovatelná (téměř všechno vyžaduje přihlášení).

Jsem po tom ztracena, pořád to zasáhne stejnou adresu URL, hádám, že to vybírá z každé jednotlivé stránky a pokouší se to pokaždé načíst, nezdá se, že by byla nějaká inteligence v zapamatování, které adresy URL nefungují.

Vím, že je téměř nemožné zastavit, protože je to veřejně přístupná webová stránka, do které přistupuje každý, kdo se o ni stará, ale má někdo nějaké návrhy?

Také nedokážu pochopit, co s takovým neúčinným prolézacím algoritmem dosahují, nebo by to mohlo být nějaký jiný druh bot?

Aktualizace

Zde výpis $ _SERVER , s identifikačními informacemi upravenými, vše ostatní je neporušené.

  $ _SERVER = pole (
'REDIRECT_AC_HEADERS' => ','REDIRECT_SCRIPT_URL' => '/ foo / bar / item /','REDIRECT_SCRIPT_URI' =>
'http: // www. příklad. com / foo / bar / položka / ','REDIRECT_STATUS' => '200','AC_HEADERS' => '','SCRIPT_URL' => '/ foo / bar / item /','SCRIPT_URI' =>
'http: // www. příklad. com / foo / bar / položka / ','HTTP_HOST' => 'www. příklad. com ','HTTP_USER_AGENT' => 'Mozilla / 5. 0 (Windows NT 5. 1; U; en) Opera
8. 01 ','HTTP_ACCEPT' =>
'text / html, aplikace / xhtml + xml, aplikace / xml; q = 0. 9, * / *; q = 0. 8 ','HTTP_COOKIE' => 'frontend = sfasdfasdfasdfasdfasdfdsf;
frontend = sdfasdfasdfasdfasdfa ','HTTP_VIA' => '1. 1 localhost ','HTTP_CONNECTION' => 'Keep-Alive','PATH' => '/ usr / local / bin: / usr / bin: / bin','SERVER_SIGNATURE' => ' Apache / 2. 2. 16 (Debian) na adrese
www. příklad. com Port 80 
','SERVER_SOFTWARE' => 'Apache / 2. 2. 16 (Debian) ",'SERVER_NAME' => 'www. příklad. com ','SERVER_ADDR' => '**. **. **. ** ','SERVER_PORT' => '80','REMOTE_ADDR' => '**. **. **. ** ','DOCUMENT_ROOT' => '/ var / www / příklad. com / website / ','SERVER_ADMIN' => 'webmaster @ example. com ','SCRIPT_FILENAME' => '/ var / www / příklad. com / web / index. php ','REMOTE_PORT' => '51735','REDIRECT_URL' => '/ foo / bar / item /','GATEWAY_INTERFACE' => 'CGI / 1. 1 ','SERVER_PROTOCOL' => 'HTTP / 1. 1 ','REQUEST_METHOD' => 'GET','QUERY_STRING' => '','REQUEST_URI' => '/ foo / bar / item /','SCRIPT_NAME' => '/ index. php ','PATH_INFO' => '/ foo. bar / položka / ','PHP_SELF' => '/ index. php / foo / bar / položka /
). 
1 week ago
. To znamená:

  1. Jakékoli roboty budou automaticky převedeny na platnou stránku
  2. Uživatelé budou automaticky převedeni na použitelnou stránku
  3. Váš chybový protokol by měl být mnohem čistší
  4. Vyhledávače přestanou vybírat rozbité stránky

Pokud máte Nástroje pro webmastery nastavené, pak se tyto pravděpodobně zobrazují v části Chyby procházení, takže můžete kliknout na kartu "Propojené z" a zjistit, zda se na tuto adresu URL přímo propojily nějaké stránky a opravili odkazy. Dokonce i po opravě případných nefunkčních odkazů zůstává volba přesměrování 301 stále zachována.

Semalta plazící nefunkční odkazy
Reply