Detekce indexovacího robota

25. 5. 2010 10:10 Pavel Chalupa

Řešil jsem nedávno detekci indexovacího robota v php přes HTTP_USER_AGENT. Bohužel to je nedostatečné.

Použil jsem klíčová slova jako ‚bot‘, ‚seznam‘, ‚google‘ apod. Stále však určité procento přístupů vykazovalo špatnou detekci. Ta špatná detekce byla pouze od serverů Googlu tohoto typu:

IP: 66–249–68–65

DN: crawl-66–249–68–65.googlebot.com

Tento typ robota vůbec nehlásí HTTP_USER_AGENT tak jak by měl a částečně se to vyřešilo použitím SERVER_NAME a detekcí ‚googlebot.com‘. Co je však nejzajímavější, že se tento robot ‚dívá‘ na stránku vzápětí po jejím navštívení uživatelem pomocí prohlížeče Internet Explorer 8 zhruba v časovém rozmezí do 10 sekund (max minutu). Vidím to jako nějakou užší spolupráci Microsoftu a Googlu zabudovanou přímo do IE 8. Problém je, že ta detekce nefunguje na 100%. Server, na kterém mi to běží, mi pravděpodobně nestihne přeložit IP na DN a přístup robota je započítán jako přístup návštěvníka. Nenapadá mě jiné řešení, než detekovat IP adresy podle tohoto klíče:

http://ws.arin.net/whois/?queryinput=google

Jenže tady není vidět, co je konkrétně IP adresa robota. Nebo se s touto chybovostí smířit a neřešit to. Možná, že detekce pomocí SERVER_NAME a ‚googlebot.com‘ začne po určitém čase fungovat spolehlivě až se ‚nakešují‘ na serveru všechny DNS záznamy pro *.googlebot.com, ale to není jisté.

Související články na blogu Pavel Chalupa - blog
- Propagační kupony Google AdWords na 1000 Kč 3. 2. 2010 22:03
- Google DNS... co ještě Google nemá? 3. 12. 2009 21:54
- Optimalizace metodou pokus-omyl 29. 4. 2013 11:47
- HTML tabulky na web: jiný úhel pohledu 16. 10. 2012 17:35
- Reklama na prohlížeč Google Chrome v TV 27. 4. 2011 19:53
- Nečekané vlastnosti mého spam filtru 7. 5. 2010 9:51
Související články na ostatních blozích
- Pár zajímavých čísel z Google 12. 10. 2011 11:55
- Lajkovací analytika aneb jak zjistit, co na vás Fejsbůčané milují 5. 2. 2011 17:18
- Googling and Fucking (recenze) 27. 5. 2010 2:06
- S geolokací by se neztratili ani Jeníček a Mařenka 23. 4. 2010 8:19
- Programovací jazyky tady u nás a programovací jazyky tam u nich 1. 2. 2010 10:03
- RECENZE: Začínáme s JavaScriptem aneb ta nejvíc cool učebnice JS 29. 12. 2009 9:56
Související články na serveru Root.cz
- Postřehy z bezpečnosti: nařízení vlády k novému ZKB jsou v připomínkovém řízení 9. 6. 2025 0:00
- Postřehy z bezpečnosti: tvrdá rana pre Lockbit a útoky na energetiku 12. 5. 2025 0:00
- Postřehy z bezpečnosti: operace Red Card vyústila v zatčení tří set lidí 31. 3. 2025 0:00
- Postřehy z bezpečnosti: AI pomáhá tvořit malware, obcházení MFA u M365 14. 10. 2024 0:00
- Postřehy z bezpečnosti: zneužití globálního výpadku a konec Kaspersky v USA 22. 7. 2024 0:00
- Postřehy z bezpečnosti: Signal pod palbou a lepší arzenál APT41 15. 7. 2024 0:00

Přidat názor

25. 5. 2010 10:35

pavel jašek (neregistrovaný)

"užší spolupráci Microsoftu a Googlu zabudovanou přímo do IE 8. " - není to nějaké našeptávání či safe-search funkcionalita?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 5. 2010 11:30

Pavel Chalupa (neregistrovaný)

[1] neřekl bych, že to je něco speciálního, je tam základní IE 8 aktualizovaný po webu a defaultní vyhledávač vpravo nahoře je změněn na Google, takže takhle se to chová naprosté většině uživatelů, co používají IE 8 na OS Windows... jinak řečeno, je to úmysl obou firem, jak MS, tak Googlu... Google z toho má výhodu, že indexuje to, na jaké stránky skutečně lidi chodí a ne slepé procházení obsahu webu robotem bez vazby na lidi
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 5. 2010 6:44

patrol (neregistrovaný)

Dalo by se pripadne sniffnout, co ten Exploder posila a kam? Na tom by se dala zalozit perfektni google bombicka :-)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 5. 2010 9:39

Atom321 (neregistrovaný)

Slušný robot by měl stáhnout robots.txt a zařídit se podle něj.

Detekce přes DNS jména při každém stažení stránky asi není moc dobrý nápad. Pokud není jméno v DNS cachi, bude to zdržovat, nebo to (při krátkém timeoutu) nezafunguje vůbec. Ale můžete to řešit jinak - přepočítat návštěvnost až později, buď z IP adres uložených v databázi, nebo logu serveru.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 5. 2010 10:01

Andrej (neregistrovaný)

ie8 - to niekto este pouziva?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 5. 2010 13:29

ivan (neregistrovaný)

A neni to tim, ze si jen google kontroluje, jestli jeho robotovi nelzete?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 5. 2010 15:03

honza (neregistrovaný)

Neni na strance reklama od googlu?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 5. 2010 15:30

Pavel Chalupa (neregistrovaný)

[7] jo, je tam kontextová reklama. Jenže tomu by odpovídal přístup do 5-10 sekund při načtení stránky. Jsou tam ale přístupy i po minutě a půl a ty už tomu neodpovídají. Veškerý obsah kontextové reklamy (ta se dá i šipkama "přebírat") se načte právě současně se stránkou. Takže to bude ještě něco jiného. I když v tomhle případě to asi vysvětluje tu většinu přístupů robota Google. Každopádně vazba fulltextu Googlu a kontextové reklamy bude interně velice dobře využitelná při hodnocení relevance pro fulltext Googlu
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 5. 2010 16:13

Bystroushaak (neregistrovaný)

Co hledat udaje o robotech podle casu pristupu? Myslim nejak zpetne z logu, napriklad pokud neco stahne za minutu nejake podstatne procento webu a pritom se nekouka na obrazky, tak je jasne ze je to robot.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 5. 2010 13:29

daec (neregistrovaný)

„Vidím to jako nějakou užší spolupráci Microsoftu a Googlu zabudovanou přímo do IE 8. Problém je, že ta detekce nefunguje na 100%.“

Toto je boj proti web spamu, konkrétně proti cloakingu.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 5. 2010 13:55

Pavel Chalupa (neregistrovaný)

[10] cloaking, tak jak ho definuje wiki, je případ, kdy robotovi předkládám jinou stránku než vidí uživatel... navíc je to penalizováno vyhledávači a zakázáno tuto techniku používat. V mém případě to tak není, já zobrazuju vždy uplně stejnou stránku, jen potřebuju započítávat a evidovat co nejpřesněji každý přístup člověka na konkrétní stránky webu
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 5. 2010 14:34

Ron Jeremy (neregistrovaný)

Nemůže toto chování být způsobené tím, že mnoho uživatelů "next-next klikačů" má nainstalovaný Google Toolbar?

Přidat názor

Sdílet

Související články na blogu Pavel Chalupa - blog

Propagační kupony Google AdWords na 1000 Kč 3. 2. 2010 22:03

Google DNS... co ještě Google nemá? 3. 12. 2009 21:54

Optimalizace metodou pokus-omyl 29. 4. 2013 11:47

HTML tabulky na web: jiný úhel pohledu 16. 10. 2012 17:35

Reklama na prohlížeč Google Chrome v TV 27. 4. 2011 19:53

Nečekané vlastnosti mého spam filtru 7. 5. 2010 9:51

Související články na ostatních blozích

Pár zajímavých čísel z Google 12. 10. 2011 11:55

Lajkovací analytika aneb jak zjistit, co na vás Fejsbůčané milují 5. 2. 2011 17:18

Googling and Fucking (recenze) 27. 5. 2010 2:06

S geolokací by se neztratili ani Jeníček a Mařenka 23. 4. 2010 8:19

Programovací jazyky tady u nás a programovací jazyky tam u nich 1. 2. 2010 10:03

RECENZE: Začínáme s JavaScriptem aneb ta nejvíc cool učebnice JS 29. 12. 2009 9:56

Související články na serveru Root.cz

Postřehy z bezpečnosti: nařízení vlády k novému ZKB jsou v připomínkovém řízení 9. 6. 2025 0:00

Postřehy z bezpečnosti: tvrdá rana pre Lockbit a útoky na energetiku 12. 5. 2025 0:00

Postřehy z bezpečnosti: operace Red Card vyústila v zatčení tří set lidí 31. 3. 2025 0:00

Postřehy z bezpečnosti: AI pomáhá tvořit malware, obcházení MFA u M365 14. 10. 2024 0:00

Postřehy z bezpečnosti: zneužití globálního výpadku a konec Kaspersky v USA 22. 7. 2024 0:00

Postřehy z bezpečnosti: Signal pod palbou a lepší arzenál APT41 15. 7. 2024 0:00

Pavel Chalupa

Nejčtenější články autora

Poslední názory

Témata

Detekce indexovacího robota

Sdílet

Související články na blogu Pavel Chalupa - blog

Propagační kupony Google AdWords na 1000 Kč 3. 2. 2010 22:03

Google DNS... co ještě Google nemá? 3. 12. 2009 21:54

Optimalizace metodou pokus-omyl 29. 4. 2013 11:47

HTML tabulky na web: jiný úhel pohledu 16. 10. 2012 17:35

Reklama na prohlížeč Google Chrome v TV 27. 4. 2011 19:53

Nečekané vlastnosti mého spam filtru 7. 5. 2010 9:51

Související články na ostatních blozích

Pár zajímavých čísel z Google 12. 10. 2011 11:55

Lajkovací analytika aneb jak zjistit, co na vás Fejsbůčané milují 5. 2. 2011 17:18

Googling and Fucking (recenze) 27. 5. 2010 2:06

S geolokací by se neztratili ani Jeníček a Mařenka 23. 4. 2010 8:19

Programovací jazyky tady u nás a programovací jazyky tam u nich 1. 2. 2010 10:03

RECENZE: Začínáme s JavaScriptem aneb ta nejvíc cool učebnice JS 29. 12. 2009 9:56

Související články na serveru Root.cz

Postřehy z bezpečnosti: nařízení vlády k novému ZKB jsou v připomínkovém řízení 9. 6. 2025 0:00

Postřehy z bezpečnosti: tvrdá rana pre Lockbit a útoky na energetiku 12. 5. 2025 0:00

Postřehy z bezpečnosti: operace Red Card vyústila v zatčení tří set lidí 31. 3. 2025 0:00

Postřehy z bezpečnosti: AI pomáhá tvořit malware, obcházení MFA u M365 14. 10. 2024 0:00

Postřehy z bezpečnosti: zneužití globálního výpadku a konec Kaspersky v USA 22. 7. 2024 0:00

Postřehy z bezpečnosti: Signal pod palbou a lepší arzenál APT41 15. 7. 2024 0:00

Pavel Chalupa

Nejčtenější články autora

Poslední názory

Témata

Dále u nás najdete

Máme údaje o tom, jak si vaše konkurence vede s ERP

Divný hrnec, záhadný projektor. Tipněte si, na co se používaly

Hrdinství systém nenahradí. Proč se startupy stěhují z ČR?

Máslo bude levné až do podzimu

Počet nových pracovních míst prudce klesá

Problémy s lymfou trápí spíš ženy, projevuje se otoky

Ceny pamětí se mezičtvrtletně zdvojnásobily, čeká se další růst

Příspěvek na produkty spoření na stáří a daň z příjmů

Plánované změny v penzích: Zjistili jsme další podrobnosti

Handicap proměnila v úspěšný byznys, učí ženy nosit paruky

Daňové přiznání 2026: Termíny, novinky a změny

USA chystají web na obcházení blokací obsahu

Prima v tichosti zpřísnila podmínky přetáčení reklam

Desítky rozšíření pro Chrome kradou uživatelská data

Agentické nakupování mění pravidla e-commerce

Výjimka z EET je nejmenším OSVČ k ničemu, hodí se ale podvodníkům

Chystá se EDU Rádio, které rodičům ušetří za doučování

Evidenční list již zaměstnavatel vyhotovovat nebude

Kdy a jak podat přiznání, aby vám přeplatek vrátili co nejdřív?

Začínající podnikatel: Základní termíny a marketing