Už nějakou dobu vyvíjíme s kamarádem internetovou službu. Sídlí na adrese nalezen.cz a jedná se o katalog pracovních nabídek. Prozatím je určen pro programátory a jiné IT profese. Milion takových služeb už tu je, řeknete si. Naše služba se od všech ostatních odlišuje tím, že si všímá jen nabídek zaměstnání umístěných přímo na stránkách zaměstnavatelů. Důsledně filtrujeme nabídky pracovních agentur a pracovních serverů. Do našeho katalogu se tedy inzerát může dostat pouze tak, že si jej firma nebo instituce vyvěsí na svůj web. Nabídku není třeba ani nikam registrovat, náš crawler ji najde sám.
Nedávno jsme dospěli k závěru, že už uzrál čas ke zveřejnění naší služby. Víme sice o pár nedostatcích a naši uživatelé zřejmě najdou další, ale podle hesla „release early, release often“ jsme se rozhodli dále neotálet.
Pro nasazení našeho projektu jsme vybrali virtuální server od známého českého poskytovatele. Nasadili jsme aplikaci a změnili DNS záznam domény na IP adresu našeho serveru. Krátce po zveřejnění začal bez jakékoliv propagace stoupat počet HTTP dotazů na server. To nás poměrně překvapilo. Konkrétně se objevil GoogleBot a to už několik hodin po zveřejnění. Protože jediný odkaz na naši doménu byl v našem gmailu, připadalo nám to jako jediné možné vysvětlení toho, jak nás mohl Google najít. Nakonec se ale ukázalo, že je vše úplně jinak, o hodně zajímavější a míň konspirativní, než jsme mysleli. Ale to trochu předbíhám.
Po vložení linků na osobní stránky a spřátelený web začal předpokládaný provoz. Objevily se jiné crawlery, jejich přehled uvádím v tabulce pod článkem. Trochu s napětím jsme očekávali, jestli nás najde i náš crawler NalezenCzBot. Nezklamal a identifikoval nás jako job server :-) Poměrně brzy se také objevily různé snahy objevit bezpečnostní problém, jako třeba: /C:/winnt\win.ini, /cat, /etc/passwd, /;id, /<!--, /index.php, …,
Občas se ale objevil dotaz, který vybočoval z obou výše popsaných kategorií. Například „/pages/bPages/1_Grudnia.php“ nebo „/pages/papierowa_kartka_urodzinowa_przyklad.php“. Trošku nám nešlo do hlavy, proč někdo zkouší posílat takové dotazy, a řadili jsme je do předchozí kategorie jako dost neohrabaný bezpečnostní útok.
Vše se ale vysvětlilo jinak.
Protože jsme chtěli vědět, jak jsme na tom s indexací Googlem, vytvořili jsme si účet v Google Webmaster Tools. Po několika dnech, kdy byly statistiky prázdné, se začala objevovat první data. Když se vyplnila statistika „Odkazy na vaše stránky“, začalo nám být jasno. Jedním z webů, který nás referoval, byl kartula.pl. Zadáním http://kartula.pl/ do browseru jsme se ocitli na našich stránkách http://www.nalezen.cz a bylo jasno.
kartula.pl byla služba určená k zasílání pohlednic. Alespoň pokud se dá věřit překladači :-) Z nějakého důvodu služba skončila, virtuální server byl zrušen a nový se stejnou IP adresou jsme dostali my. Majitelé nepřesměrovali DNS serveru na jinou IP adresu, ale nechali existující. Aha. Proto nás Google našel během několika hodin i bez jakéhokoli explicitního odkazu. Šel jednoduše na už známou doménu kartula.pl, jenom na ní našel úplně jiné stránky.
Dříve než jsme stihli napsat mail majiteli domény, byl problém vyřešen. kartula.pl expirovala a je aktuálně volná. Průzkumem na webu jsme zjistili, že nejsme sami, kdo něco podobného zaznamenal. Pak záleží na typu domény, která tak nechtěně vytvoří vaši minulost. Pokud je doména z oboru, pomůže v začátcích zvýšit rank u vyhledávačů. Pokud je doména nějakým způsobem závadná (porno, warez, …) člověk z nechtěného dědictví asi radost mít nemůže. Jestliže není majitel domény ochoten DNS záznam změnit, asi nezbývá než požádat poskytovatele o jinou IP adresu.
Příloha:
Crawler | % všech HTTP dotazů od crawlerů |
---|---|
Googlebot/2.1 | 35.50 |
bingbot/2.0 | 20.93 |
Ezooms/1.0 | 8.56 |
MJ12bot/v1.4.3 | 5.85 |
AhrefsBot/4.0 | 4.67 |
YandexBot/3.0 | 4.58 |
WBSearchBot/1.1 | 2.89 |
DoCoMo | 2.52 |
AcoonBot/4.11.1 | 1.98 |
NalezenCzBot | 1.92 |
Exabot/3.0 | 1.78 |
SEOkicks-Robot | 1.45 |
SeznamBot | 1.41 |
Wotbox | 1.14 |
Mail.RU_Bot/2.0 | 1.01 |
Zajimavy napad s tim nalezen.cz. Ale to search GUI by imho chtelo trochu vylepsit. A taky by to melo byt trosicku chytrejsi, napr. na slova "linux" a "security" to naslo mimojine treba tohle:
http://www.gopas.cz/O-firme/Kariera/Lektor-kurzu-oblasti-Microsoft-servery-a-systemy.aspx
Ocividne je match na tom menu nalevo a ne na tom inzeratu :) Vy tam matchujete cely ty stranky i s irelevantnimi texty okolo tech inzeratu, coz pak dela ty false positives. Ale jinak pekny, diky! Mozna to nekdy vyuziju, kdyz to bude vychytane :)
Docela zajímavej nápad, procházel jsem pár nabídek a vypadá to celkem solidně.
Co mě na tom ale štve - jednotlivý položky vyskakují v pouze v Javascriptovym okně, takže nelze otvírat v nové kartě prohlížeče (na to je hodně lidí zvyklých..) a ještě k tomu to okno nejde zavřít ani Esc ani kliknutím mimo obrázek, musí se prostě kliknout na křížek - v dnešní době taky šílenost :)
S nezrušeným DNS jsem si u jednoho zákazníka také užil. Registroval jsem mu doménu, kterou kdysi někdo měl a pak ji nechal. Vše fungovalo, až po nějaké době si pár zákazníků stěžovalo, že jim nemůžou poslat e-mail. ISP, který doménu hostoval původnímu majiteli totiž nezrušil záznamy v DNS. Zákazníkům, kteří využívali služeb tohoto ISP se hlásily jeho servery jako autoritativní a vracely staré údaje. Protože šlo o malého ISP, projevilo se to opravdu jen pár jedincům a chvilku trvalo, než jsem na to přišel a podařilo se mi zjednat nápravu.
Dobrý nápad, pěkná služba :)
Také se hlásím s tím, že jsem našel chybku.
Postup vyvolání
- vyberu lokalitu,
- skočim na další stránku,
- pomocí filtrů omezím výběr, tak že nabídek je méně, než odpovídá aktuální stránce
- zobrazí se mi prázdná stránka s malou 1 - musím na ni kliknout pro zobrazení nabídek
Idelní řešení by byl automatický redirect na první stránku nabídek s nastaveným filtrm
(příklad vyberu Brno, dojdu na 10 stranu, filtruji PHP + Git - výsledkem jsou 3 nabídky, já se nacházím na 10 stránce, takže se nic nezobrazí)
Nápad je to určitě zajímavý, ale provedení je šílené - v Opeře to není schopno udělat nic, protože je mi pořád obnovuje stránka. V Exploreru se to pořád ptá, zda ukončit skript, že je pomalý. Pomalé je to obecně. Po výběru místa není možno měnit okruh, aniž by nebylo nutno opět vybrat místo...
Asi to bude chtít ještě poladit...
Ahoj, tak sem to zkoušel, ale pokud dám Hledat lokalitu a Najdi mou polohu, tak i přes několikeré potvrzení to mojí poohu nenajde, možná je však chyba přímo v mapách. Chtělo by to předělat lokality obecně, líbilo by se mi, kdyby tam bylo pole pro vepisování obce. Jinak jen tak dále. Držím pěsti.
Jaroslav Kuboš vystudoval informatiku na FIT VUT v Brně, pracuje v IT a ve volném čase tvoří inovativní server s nabídkami IT práce – nalezen.cz