IT práce nebo pohlednice

3. 6. 2013 6:05 (aktualizováno) Jaroslav Kuboš

Už nějakou dobu vyvíjíme s kamarádem internetovou službu. Sídlí na adrese nalezen.cz a jedná se o katalog pracovních nabídek. Prozatím je určen pro programátory a jiné IT profese. Milion takových služeb už tu je, řeknete si. Naše služba se od všech ostatních odlišuje tím, že si všímá jen nabídek zaměstnání umístěných přímo na stránkách zaměstnavatelů. Důsledně filtrujeme nabídky pracovních agentur a pracovních serverů. Do našeho katalogu se tedy inzerát může dostat pouze tak, že si jej firma nebo instituce vyvěsí na svůj web. Nabídku není třeba ani nikam registrovat, náš crawler ji najde sám.

Nedávno jsme dospěli k závěru, že už uzrál čas ke zveřejnění naší služby. Víme sice o pár nedostatcích a naši uživatelé zřejmě najdou další, ale podle hesla „release early, release often“ jsme se rozhodli dále neotálet.

Pro nasazení našeho projektu jsme vybrali virtuální server od známého českého poskytovatele. Nasadili jsme aplikaci a změnili DNS záznam domény na IP adresu našeho serveru. Krátce po zveřejnění začal bez jakékoliv propagace stoupat počet HTTP dotazů na server. To nás poměrně překvapilo. Konkrétně se objevil GoogleBot a to už několik hodin po zveřejnění. Protože jediný odkaz na naši doménu byl v našem gmailu, připadalo nám to jako jediné možné vysvětlení toho, jak nás mohl Google najít. Nakonec se ale ukázalo, že je vše úplně jinak, o hodně zajímavější a míň konspirativní, než jsme mysleli. Ale to trochu předbíhám.

Po vložení linků na osobní stránky a spřátelený web začal předpokládaný provoz. Objevily se jiné crawlery, jejich přehled uvádím v tabulce pod článkem. Trochu s napětím jsme očekávali, jestli nás najde i náš crawler NalezenCzBot. Nezklamal a identifikoval nás jako job server :-) Poměrně brzy se také objevily různé snahy objevit bezpečnostní problém, jako třeba: /C:/winnt\win.ini, /cat, /etc/passwd, /;id, /<!--, /index.php, …,

Občas se ale objevil dotaz, který vybočoval z obou výše popsaných kategorií. Například „/pages/bPages/1_Grudnia.php“ nebo „/pages/papierowa_kartka_u­rodzinowa_przyklad.php“. Trošku nám nešlo do hlavy, proč někdo zkouší posílat takové dotazy, a řadili jsme je do předchozí kategorie jako dost neohrabaný bezpečnostní útok.

Vše se ale vysvětlilo jinak.

Protože jsme chtěli vědět, jak jsme na tom s indexací Googlem, vytvořili jsme si účet v Google Webmaster Tools. Po několika dnech, kdy byly statistiky prázdné, se začala objevovat první data. Když se vyplnila statistika „Odkazy na vaše stránky“, začalo nám být jasno. Jedním z webů, který nás referoval, byl kartula.pl. Zadáním http://kartula.pl/ do browseru jsme se ocitli na našich stránkách http://www.nalezen.cz a bylo jasno.

kartula.pl byla služba určená k zasílání pohlednic. Alespoň pokud se dá věřit překladači :-) Z nějakého důvodu služba skončila, virtuální server byl zrušen a nový se stejnou IP adresou jsme dostali my. Majitelé nepřesměrovali DNS serveru na jinou IP adresu, ale nechali existující. Aha. Proto nás Google našel během několika hodin i bez jakéhokoli explicitního odkazu. Šel jednoduše na už známou doménu kartula.pl, jenom na ní našel úplně jiné stránky.

Dříve než jsme stihli napsat mail majiteli domény, byl problém vyřešen. kartula.pl expirovala a je aktuálně volná. Průzkumem na webu jsme zjistili, že nejsme sami, kdo něco podobného zaznamenal. Pak záleží na typu domény, která tak nechtěně vytvoří vaši minulost. Pokud je doména z oboru, pomůže v začátcích zvýšit rank u vyhledávačů. Pokud je doména nějakým způsobem závadná (porno, warez, …) člověk z nechtěného dědictví asi radost mít nemůže. Jestliže není majitel domény ochoten DNS záznam změnit, asi nezbývá než požádat poskytovatele o jinou IP adresu.

Příloha:

Crawler % všech HTTP dotazů od crawlerů
Googlebot/2.1 35.50
bingbot/2.0 20.93
Ezooms/1.0 8.56
MJ12bot/v1.4.3 5.85
AhrefsBot/4.0 4.67
YandexBot/3.0 4.58
WBSearchBot/1.1 2.89
DoCoMo 2.52
AcoonBot/4.11.1 1.98
NalezenCzBot 1.92
Exabot/3.0 1.78
SEOkicks-Robot 1.45
SeznamBot 1.41
Wotbox 1.14
Mail.RU_Bot/2.0 1.01

 

Sdílet