Detekce indexovacího robota

25. 5. 2010 10:10 Pavel Chalupa

Řešil jsem nedávno detekci indexovacího robota v php přes HTTP_USER_AGENT. Bohužel to je nedostatečné.

Použil jsem klíčová slova jako ‚bot‘, ‚seznam‘, ‚google‘ apod. Stále však určité procento přístupů vykazovalo špatnou detekci. Ta špatná detekce byla pouze od serverů Googlu tohoto typu:

IP: 66–249–68–65

DN: crawl-66–249–68–65.googlebot.com

Tento typ robota vůbec nehlásí HTTP_USER_AGENT tak jak by měl a částečně se to vyřešilo použitím SERVER_NAME a detekcí ‚googlebot.com‘. Co je však nejzajímavější, že se tento robot ‚dívá‘ na stránku vzápětí po jejím navštívení uživatelem pomocí prohlížeče Internet Explorer 8 zhruba v časovém rozmezí do 10 sekund (max minutu). Vidím to jako nějakou užší spolupráci Microsoftu a Googlu zabudovanou přímo do IE 8. Problém je, že ta detekce nefunguje na 100%. Server, na kterém mi to běží, mi pravděpodobně nestihne přeložit IP na DN a přístup robota je započítán jako přístup návštěvníka. Nenapadá mě jiné řešení, než detekovat IP adresy podle tohoto klíče:

http://ws.arin.net/whois/?queryinput=google

Jenže tady není vidět, co je konkrétně IP adresa robota. Nebo se s touto chybovostí smířit a neřešit to. Možná, že detekce pomocí SERVER_NAME a ‚googlebot.com‘ začne po určitém čase fungovat spolehlivě až se ‚nakešují‘ na serveru všechny DNS záznamy pro *.googlebot.com, ale to není jisté.

Související články na blogu Pavel Chalupa - blog
- Propagační kupony Google AdWords na 1000 Kč 3. 2. 2010 22:03
- Google DNS... co ještě Google nemá? 3. 12. 2009 21:54
- Optimalizace metodou pokus-omyl 29. 4. 2013 11:47
- HTML tabulky na web: jiný úhel pohledu 16. 10. 2012 17:35
- Reklama na prohlížeč Google Chrome v TV 27. 4. 2011 19:53
- Nečekané vlastnosti mého spam filtru 7. 5. 2010 9:51
Související články na ostatních blozích
- Pár zajímavých čísel z Google 12. 10. 2011 11:55
- Lajkovací analytika aneb jak zjistit, co na vás Fejsbůčané milují 5. 2. 2011 17:18
- Googling and Fucking (recenze) 27. 5. 2010 2:06
- S geolokací by se neztratili ani Jeníček a Mařenka 23. 4. 2010 8:19
- Programovací jazyky tady u nás a programovací jazyky tam u nich 1. 2. 2010 10:03
- RECENZE: Začínáme s JavaScriptem aneb ta nejvíc cool učebnice JS 29. 12. 2009 9:56
Související články na serveru Root.cz
- Postřehy z bezpečnosti: zneužití globálního výpadku a konec Kaspersky v USA 22. 7. 2024 0:00
- Postřehy z bezpečnosti: Signal pod palbou a lepší arzenál APT41 15. 7. 2024 0:00
- Postřehy z bezpečnosti: s umělou inteligencí k lepším kyberútokům 29. 4. 2024 0:00
- Postřehy z bezpečnosti: tvář Stuxnetu odhalena 22. 1. 2024 0:00
- Postřehy z bezpečnosti: stáhni soubor a něco si přej 16. 10. 2023 0:00
- Postřehy z bezpečnosti: konec světového dne hesel 8. 5. 2023 8:00

Přidat názor

25. 5. 2010 10:35

pavel jašek (neregistrovaný)

"užší spolupráci Microsoftu a Googlu zabudovanou přímo do IE 8. " - není to nějaké našeptávání či safe-search funkcionalita?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 5. 2010 11:30

Pavel Chalupa (neregistrovaný)

[1] neřekl bych, že to je něco speciálního, je tam základní IE 8 aktualizovaný po webu a defaultní vyhledávač vpravo nahoře je změněn na Google, takže takhle se to chová naprosté většině uživatelů, co používají IE 8 na OS Windows... jinak řečeno, je to úmysl obou firem, jak MS, tak Googlu... Google z toho má výhodu, že indexuje to, na jaké stránky skutečně lidi chodí a ne slepé procházení obsahu webu robotem bez vazby na lidi
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 5. 2010 6:44

patrol (neregistrovaný)

Dalo by se pripadne sniffnout, co ten Exploder posila a kam? Na tom by se dala zalozit perfektni google bombicka :-)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 5. 2010 9:39

Atom321 (neregistrovaný)

Slušný robot by měl stáhnout robots.txt a zařídit se podle něj.

Detekce přes DNS jména při každém stažení stránky asi není moc dobrý nápad. Pokud není jméno v DNS cachi, bude to zdržovat, nebo to (při krátkém timeoutu) nezafunguje vůbec. Ale můžete to řešit jinak - přepočítat návštěvnost až později, buď z IP adres uložených v databázi, nebo logu serveru.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 5. 2010 10:01

Andrej (neregistrovaný)

ie8 - to niekto este pouziva?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 5. 2010 13:29

ivan (neregistrovaný)

A neni to tim, ze si jen google kontroluje, jestli jeho robotovi nelzete?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 5. 2010 15:03

honza (neregistrovaný)

Neni na strance reklama od googlu?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 5. 2010 15:30

Pavel Chalupa (neregistrovaný)

[7] jo, je tam kontextová reklama. Jenže tomu by odpovídal přístup do 5-10 sekund při načtení stránky. Jsou tam ale přístupy i po minutě a půl a ty už tomu neodpovídají. Veškerý obsah kontextové reklamy (ta se dá i šipkama "přebírat") se načte právě současně se stránkou. Takže to bude ještě něco jiného. I když v tomhle případě to asi vysvětluje tu většinu přístupů robota Google. Každopádně vazba fulltextu Googlu a kontextové reklamy bude interně velice dobře využitelná při hodnocení relevance pro fulltext Googlu
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 5. 2010 16:13

Bystroushaak (neregistrovaný)

Co hledat udaje o robotech podle casu pristupu? Myslim nejak zpetne z logu, napriklad pokud neco stahne za minutu nejake podstatne procento webu a pritom se nekouka na obrazky, tak je jasne ze je to robot.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 5. 2010 13:29

daec (neregistrovaný)

„Vidím to jako nějakou užší spolupráci Microsoftu a Googlu zabudovanou přímo do IE 8. Problém je, že ta detekce nefunguje na 100%.“

Toto je boj proti web spamu, konkrétně proti cloakingu.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 5. 2010 13:55

Pavel Chalupa (neregistrovaný)

[10] cloaking, tak jak ho definuje wiki, je případ, kdy robotovi předkládám jinou stránku než vidí uživatel... navíc je to penalizováno vyhledávači a zakázáno tuto techniku používat. V mém případě to tak není, já zobrazuju vždy uplně stejnou stránku, jen potřebuju započítávat a evidovat co nejpřesněji každý přístup člověka na konkrétní stránky webu
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 5. 2010 14:34

Ron Jeremy (neregistrovaný)

Nemůže toto chování být způsobené tím, že mnoho uživatelů "next-next klikačů" má nainstalovaný Google Toolbar?

Přidat názor

Sdílet

Související články na blogu Pavel Chalupa - blog

Propagační kupony Google AdWords na 1000 Kč 3. 2. 2010 22:03

Google DNS... co ještě Google nemá? 3. 12. 2009 21:54

Optimalizace metodou pokus-omyl 29. 4. 2013 11:47

HTML tabulky na web: jiný úhel pohledu 16. 10. 2012 17:35

Reklama na prohlížeč Google Chrome v TV 27. 4. 2011 19:53

Nečekané vlastnosti mého spam filtru 7. 5. 2010 9:51

Související články na ostatních blozích

Pár zajímavých čísel z Google 12. 10. 2011 11:55

Lajkovací analytika aneb jak zjistit, co na vás Fejsbůčané milují 5. 2. 2011 17:18

Googling and Fucking (recenze) 27. 5. 2010 2:06

S geolokací by se neztratili ani Jeníček a Mařenka 23. 4. 2010 8:19

Programovací jazyky tady u nás a programovací jazyky tam u nich 1. 2. 2010 10:03

RECENZE: Začínáme s JavaScriptem aneb ta nejvíc cool učebnice JS 29. 12. 2009 9:56

Související články na serveru Root.cz

Postřehy z bezpečnosti: zneužití globálního výpadku a konec Kaspersky v USA 22. 7. 2024 0:00

Postřehy z bezpečnosti: Signal pod palbou a lepší arzenál APT41 15. 7. 2024 0:00

Postřehy z bezpečnosti: s umělou inteligencí k lepším kyberútokům 29. 4. 2024 0:00

Postřehy z bezpečnosti: tvář Stuxnetu odhalena 22. 1. 2024 0:00

Postřehy z bezpečnosti: stáhni soubor a něco si přej 16. 10. 2023 0:00

Postřehy z bezpečnosti: konec světového dne hesel 8. 5. 2023 8:00

Pavel Chalupa

Nejčtenější články autora

Poslední názory

Témata

Detekce indexovacího robota

Sdílet

Související články na blogu Pavel Chalupa - blog

Propagační kupony Google AdWords na 1000 Kč 3. 2. 2010 22:03

Google DNS... co ještě Google nemá? 3. 12. 2009 21:54

Optimalizace metodou pokus-omyl 29. 4. 2013 11:47

HTML tabulky na web: jiný úhel pohledu 16. 10. 2012 17:35

Reklama na prohlížeč Google Chrome v TV 27. 4. 2011 19:53

Nečekané vlastnosti mého spam filtru 7. 5. 2010 9:51

Související články na ostatních blozích

Pár zajímavých čísel z Google 12. 10. 2011 11:55

Lajkovací analytika aneb jak zjistit, co na vás Fejsbůčané milují 5. 2. 2011 17:18

Googling and Fucking (recenze) 27. 5. 2010 2:06

S geolokací by se neztratili ani Jeníček a Mařenka 23. 4. 2010 8:19

Programovací jazyky tady u nás a programovací jazyky tam u nich 1. 2. 2010 10:03

RECENZE: Začínáme s JavaScriptem aneb ta nejvíc cool učebnice JS 29. 12. 2009 9:56

Související články na serveru Root.cz

Postřehy z bezpečnosti: zneužití globálního výpadku a konec Kaspersky v USA 22. 7. 2024 0:00

Postřehy z bezpečnosti: Signal pod palbou a lepší arzenál APT41 15. 7. 2024 0:00

Postřehy z bezpečnosti: s umělou inteligencí k lepším kyberútokům 29. 4. 2024 0:00

Postřehy z bezpečnosti: tvář Stuxnetu odhalena 22. 1. 2024 0:00

Postřehy z bezpečnosti: stáhni soubor a něco si přej 16. 10. 2023 0:00

Postřehy z bezpečnosti: konec světového dne hesel 8. 5. 2023 8:00

Pavel Chalupa

Nejčtenější články autora

Poslední názory

Témata

Dále u nás najdete

ČT musela upravit reportáž v iVysílání

Jsou prompty pro AI chatboty autorským dílem?

Motání hlavy může být způsobeno problémy s krčními tepnami

Výrobce koupelnového vybavení Laufen čeká oživení poptávky

Plavání s hlavou nad vodou vám ubližuje

„Letní sádra“ sice může do vody, na plavání a tobogány ale zapomeňte

Intolerance lepku byla po staletí záhadou. Vysvětlil ji až hladomor

Nevyléčitelně nemocní získají příspěvek automaticky

Více než polovina žen v porodnici dostává klystýr

S haluxy můžete mít boty na pojišťovnu

Albert testuje umělou inteligenci, ušetří čas pokladním i zákazníkům

Propagační leták v Canvě zvládnete za pár minut

Chráníme totožnost podatele podnětu, tvrdil úřad

Separační úzkost je normální součástí vývoje dítěte

Výrobci nemusí udávat přesné složení parfémů

Průjmů z masa je letos víc než jindy, nakazit se lze i z melounů

Změny v českém maloobchodu, Electro World se mění na Datart

Praktické tipy pro fyzické osoby, jak ušetřit na daních

Trdlokafe otevřelo první pobočku v USA

Jak se daří novým televizním stanicím?