Knihovna Diffator

15. 10. 2013 22:23 Jaroslav Kuboš

Při vytváření služby nalezen.cz (která agreguje nabídky práce ze stránek zaměstnavatelů) jsme, s výjimkou Oracle Javy, nepoužili žádný proprietární software. Linux, Eclipse, ekosystém Java knihoven, Ruby, … Moc daleko bychom asi projekt nedotáhli kdybychom museli koupit:

OS na vývojářské počítače, testovací server, produkční server
vývojové prostředí
spoustu knihoven
…

Díky OSS je však možné realizovat poměrně komplexní projekt ve 2 lidech a s minimálními náklady. Úžasné – jsem rád, že můžu žít v takové době.

Abychom jen nebrali, ale také něco vrátili, rádi bychom některé z vyvinutých nástrojů uvolnit pod svobodnou licencí. Prvním nesmělým krůčkem budiž zveřejnění knihovny Diffator - jednoduché Java knihovny pro porovnávání a diff textového obsahu.

[caption id="" align=„aligncenter“ width=„288“ caption=„ukázkový výstup jednoduchého HTML zapisovače (přibalen)“][/caption]

Píšu „nesmělým krůčkem“ protože:

knihovna dělá podobnou věc jako spousta jiných
nedělá ji v některých ohledech ani nějak zvlášť skvěle
není dodělaná infrastruktura (JavaDoc online, registrace do Maven repozitářů, …)

Hm, já vím … proč znovu vynalézat kolo, že? A ještě hranaté. Když ono to ale bylo složitější…

Původně jsme chtěli vyrobit jednoduchou a rychlou metodu pro porovnání dvou textových dokumentů která vrací podobnost vstupů (v rozsahu 0.0 až 1.0). Rychlost je v případě použití ve webovém crawleru upřednostněná před dokonalostí. Když jsme měli metodu hotovou, zjistili jsme, že po rozšíření o callbacky (jako při parsování XML v SAX-stylu) může být použita pro jednoduchý diff obsahů. Toho jsme vydatně využili při ladění. Pak se nám nezdál výkon a tak jsme vyzkoušeli několik metod implementace porovnávacího algoritmu. Vybrali jsme nejlepší, ale ostatní zůstaly zachovány (výkon je závislý na povaze vstupních dat, takže na jiná data se může hodit jiná metoda). Pak bylo třeba vyrobit jednoduchý výstup diffu do HTML. A tak dále.

Nějaké pozitivní aspekty se tedy najdou:

rychlost
paměťová nenáročnost & „GC friendly“ (během porovnávání se už nic nealokuje)
snadná rozšiřitelnost pomocí callbacků
výběr ze 3 implementací algoritmu

Nakonec jsme došli k přesvědčení, že výsledek vydá na knihovnu. Možná není úplně beznadějná a někomu se bude hodit. Mrkněte na github projektu.

Související články na blogu Jarkův blog
- IT práce nebo pohlednice 30. 5. 2013 16:55
Související články na ostatních blozích
- 170 řádků Java kódu pro spuštění SQL 8. 4. 2024 8:00
- Automatické testování příkladů v dokumentaci pomocí JUnit 5 a JShell 23. 5. 2023 8:39
- HTML report v jazyce Java na pár řádků 4. 4. 2021 0:09
- Jednoduché webové stránky s AJAX v jazyce Java 8. 3. 2021 8:30
- Příběh frameworku Ujorm 25. 3. 2019 7:00
- Jak psát webové stránky v jazyce Java bez HTML šablon? 19. 11. 2018 7:00
Související články na serveru Root.cz
- Postřehy z bezpečnosti: Američané zakazují sdílení dat s některými zeměmi 4. 3. 2024 0:00
- Postřehy z bezpečnosti: matka všech úniků má 25 miliard záznamů 29. 1. 2024 0:00
- Proč Java používá tak dlouhé názvy tříd a proměnných? 31. 10. 2023 0:00
- Softwarová sklizeň (27. 9. 2023): spravujte úkoly, databáze i gitovské repozitáře 27. 9. 2023 0:00
- Záložky adresářů na příkazové řádce (DirectoryBookmarks) 11. 9. 2023 9:14
- Dobrému phishingu podlehne 40 % uživatelů, aneb zápisky z BSS 2023 8. 2. 2023 0:00

Přidat názor

17. 10. 2013 16:09

werqdfsdsadf (neregistrovaný)

+1
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 10. 2013 13:16

Cyr (neregistrovaný)

K čemu je výhodný, že to vyhodnocuje celý slovo jako rozdílný a ne jen tu koncovku ?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 10. 2013 22:22

Jarek (neregistrovaný)

Je to jen ukázka - v tomhle případě bere jako nejmenší element slovo.

Přidat názor

Sdílet

Související články na blogu Jarkův blog

IT práce nebo pohlednice 30. 5. 2013 16:55

Související články na ostatních blozích

170 řádků Java kódu pro spuštění SQL 8. 4. 2024 8:00

Automatické testování příkladů v dokumentaci pomocí JUnit 5 a JShell 23. 5. 2023 8:39

HTML report v jazyce Java na pár řádků 4. 4. 2021 0:09

Jednoduché webové stránky s AJAX v jazyce Java 8. 3. 2021 8:30

Příběh frameworku Ujorm 25. 3. 2019 7:00

Jak psát webové stránky v jazyce Java bez HTML šablon? 19. 11. 2018 7:00

Související články na serveru Root.cz

Postřehy z bezpečnosti: Američané zakazují sdílení dat s některými zeměmi 4. 3. 2024 0:00

Postřehy z bezpečnosti: matka všech úniků má 25 miliard záznamů 29. 1. 2024 0:00

Proč Java používá tak dlouhé názvy tříd a proměnných? 31. 10. 2023 0:00

Softwarová sklizeň (27. 9. 2023): spravujte úkoly, databáze i gitovské repozitáře 27. 9. 2023 0:00

Záložky adresářů na příkazové řádce (DirectoryBookmarks) 11. 9. 2023 9:14

Dobrému phishingu podlehne 40 % uživatelů, aneb zápisky z BSS 2023 8. 2. 2023 0:00

Jaroslav Kuboš

Poslední názory

Témata

Knihovna Diffator

Sdílet

Související články na blogu Jarkův blog

IT práce nebo pohlednice 30. 5. 2013 16:55

Související články na ostatních blozích

170 řádků Java kódu pro spuštění SQL 8. 4. 2024 8:00

Automatické testování příkladů v dokumentaci pomocí JUnit 5 a JShell 23. 5. 2023 8:39

HTML report v jazyce Java na pár řádků 4. 4. 2021 0:09

Jednoduché webové stránky s AJAX v jazyce Java 8. 3. 2021 8:30

Příběh frameworku Ujorm 25. 3. 2019 7:00

Jak psát webové stránky v jazyce Java bez HTML šablon? 19. 11. 2018 7:00

Související články na serveru Root.cz

Postřehy z bezpečnosti: Američané zakazují sdílení dat s některými zeměmi 4. 3. 2024 0:00

Postřehy z bezpečnosti: matka všech úniků má 25 miliard záznamů 29. 1. 2024 0:00

Proč Java používá tak dlouhé názvy tříd a proměnných? 31. 10. 2023 0:00

Softwarová sklizeň (27. 9. 2023): spravujte úkoly, databáze i gitovské repozitáře 27. 9. 2023 0:00

Záložky adresářů na příkazové řádce (DirectoryBook­marks) 11. 9. 2023 9:14

Dobrému phishingu podlehne 40 % uživatelů, aneb zápisky z BSS 2023 8. 2. 2023 0:00

Jaroslav Kuboš

Poslední názory

Témata

Dále u nás najdete

Jak může Seznam.cz vydělat na konci cookies třetích stran

Nejslavnější porodní báby. Kariéru jedné zničila mrtvá princezna

Kdo chce na Bitcoinu rychle zbohatnout, nejspíš se spálí

Je to oficiální: Windows nás zasypou reklamou

Windows 11 dostanou novou AI funkci. A je to děs!

Microsoft oddělil dva populární programy

Jsou drzí a neuznávají šéfa. Mýtus nebo pravda o generaci Z?

České firmy nejsou připraveny na povinné ESG reporty, ani na AI

Lékaři stimulací mozku „vypnuli“ pacientce s Parkinsonem třes

Těhotný muž existuje. Couvade syndrom jako ochranný rituál

O systému „oznámené“ dohody o provedení práce

Pošta si bude sama schopna zjistit, že adresát už nežije

Kofola, Pepsi, Vinea. Různí majitelé, ale stejné změny

Přemýšlíte nad factoringem? Zjistěte, kde si ho můžete sjednat

Vyražený dech vás nezadusí. Horší jsou jiné následky nárazu do břicha

Microsoft zpoplatní aktualizace Windows 10. Cenovka není nízká

NÚKIB: Kdybychom na Huawei nic neměli, nevydali bychom varování

V 90 % útoků v roce 2023 kyberzločinci zneužili protokol RDP

Android bude mít vlastní AirTagy, koupíte je od více výrobců

Amerika s Evropou řeší, jak zabránit čínské dominanci

Záložky adresářů na příkazové řádce (DirectoryBookmarks) 11. 9. 2023 9:14