Knihovna Diffator

15. 10. 2013 22:23 Jaroslav Kuboš

Při vytváření služby nalezen.cz (která agreguje nabídky práce ze stránek zaměstnavatelů) jsme, s výjimkou Oracle Javy, nepoužili žádný proprietární software. Linux, Eclipse, ekosystém Java knihoven, Ruby, … Moc daleko bychom asi projekt nedotáhli kdybychom museli koupit:

OS na vývojářské počítače, testovací server, produkční server
vývojové prostředí
spoustu knihoven
…

Díky OSS je však možné realizovat poměrně komplexní projekt ve 2 lidech a s minimálními náklady. Úžasné – jsem rád, že můžu žít v takové době.

Abychom jen nebrali, ale také něco vrátili, rádi bychom některé z vyvinutých nástrojů uvolnit pod svobodnou licencí. Prvním nesmělým krůčkem budiž zveřejnění knihovny Diffator - jednoduché Java knihovny pro porovnávání a diff textového obsahu.

[caption id="" align=„aligncenter“ width=„288“ caption=„ukázkový výstup jednoduchého HTML zapisovače (přibalen)“][/caption]

Píšu „nesmělým krůčkem“ protože:

knihovna dělá podobnou věc jako spousta jiných
nedělá ji v některých ohledech ani nějak zvlášť skvěle
není dodělaná infrastruktura (JavaDoc online, registrace do Maven repozitářů, …)

Hm, já vím … proč znovu vynalézat kolo, že? A ještě hranaté. Když ono to ale bylo složitější…

Původně jsme chtěli vyrobit jednoduchou a rychlou metodu pro porovnání dvou textových dokumentů která vrací podobnost vstupů (v rozsahu 0.0 až 1.0). Rychlost je v případě použití ve webovém crawleru upřednostněná před dokonalostí. Když jsme měli metodu hotovou, zjistili jsme, že po rozšíření o callbacky (jako při parsování XML v SAX-stylu) může být použita pro jednoduchý diff obsahů. Toho jsme vydatně využili při ladění. Pak se nám nezdál výkon a tak jsme vyzkoušeli několik metod implementace porovnávacího algoritmu. Vybrali jsme nejlepší, ale ostatní zůstaly zachovány (výkon je závislý na povaze vstupních dat, takže na jiná data se může hodit jiná metoda). Pak bylo třeba vyrobit jednoduchý výstup diffu do HTML. A tak dále.

Nějaké pozitivní aspekty se tedy najdou:

rychlost
paměťová nenáročnost & „GC friendly“ (během porovnávání se už nic nealokuje)
snadná rozšiřitelnost pomocí callbacků
výběr ze 3 implementací algoritmu

Nakonec jsme došli k přesvědčení, že výsledek vydá na knihovnu. Možná není úplně beznadějná a někomu se bude hodit. Mrkněte na github projektu.

Související články na blogu Jarkův blog
- IT práce nebo pohlednice 30. 5. 2013 16:55
Související články na ostatních blozích
- Preferenční hlasování ve sdílené tabulce Schulzeho metodou 9. 9. 2024 8:00
- Multiplatformní samorozbalitelný archiv ve skriptu jazyka Java 1. 7. 2024 19:16
- Jak efektivně pracovat s JDBC ve skriptech Java 17 8. 4. 2024 8:00
- Automatické testování příkladů v dokumentaci pomocí JUnit 5 a JShell 23. 5. 2023 8:39
- HTML report v jazyce Java na pár řádků 4. 4. 2021 0:09
- Jednoduché webové stránky s AJAX v jazyce Java 8. 3. 2021 8:30
Související články na serveru Root.cz
- Z jádra mizí podpora ISDN a AX.25, GCC posoudí využití AI/LLM ve vývoji 26. 4. 2026 0:00
- Stávka v týmu Manjaro, evropské organizace připravují balík Euro-Office 30. 3. 2026 0:00
- Ujorm3: nový lehký ORM pro JavaBeans a Records 23. 3. 2026 0:00
- Technologie mezijazyků a bajtkódů v interpretrech a překladačích 29. 1. 2026 0:00
- Rok 2025: GIMP 3.0, AI, stará CPU, RMS v Liberci či 30letá Java 2. 1. 2026 0:00
- Rakousko buduje digitální nezávislost, Ubuntu Unity nemá kdo vyvíjet 3. 11. 2025 0:00

Přidat názor

17. 10. 2013 16:09

werqdfsdsadf (neregistrovaný)

+1
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
19. 10. 2013 13:16

Cyr (neregistrovaný)

K čemu je výhodný, že to vyhodnocuje celý slovo jako rozdílný a ne jen tu koncovku ?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
23. 10. 2013 22:22

Jarek (neregistrovaný)

Je to jen ukázka - v tomhle případě bere jako nejmenší element slovo.

Přidat názor

Sdílet

Související články na blogu Jarkův blog

IT práce nebo pohlednice 30. 5. 2013 16:55

Související články na ostatních blozích

Preferenční hlasování ve sdílené tabulce Schulzeho metodou 9. 9. 2024 8:00

Multiplatformní samorozbalitelný archiv ve skriptu jazyka Java 1. 7. 2024 19:16

Jak efektivně pracovat s JDBC ve skriptech Java 17 8. 4. 2024 8:00

Automatické testování příkladů v dokumentaci pomocí JUnit 5 a JShell 23. 5. 2023 8:39

HTML report v jazyce Java na pár řádků 4. 4. 2021 0:09

Jednoduché webové stránky s AJAX v jazyce Java 8. 3. 2021 8:30

Související články na serveru Root.cz

Z jádra mizí podpora ISDN a AX.25, GCC posoudí využití AI/LLM ve vývoji 26. 4. 2026 0:00

Stávka v týmu Manjaro, evropské organizace připravují balík Euro-Office 30. 3. 2026 0:00

Ujorm3: nový lehký ORM pro JavaBeans a Records 23. 3. 2026 0:00

Technologie mezijazyků a bajtkódů v interpretrech a překladačích 29. 1. 2026 0:00

Rok 2025: GIMP 3.0, AI, stará CPU, RMS v Liberci či 30letá Java 2. 1. 2026 0:00

Rakousko buduje digitální nezávislost, Ubuntu Unity nemá kdo vyvíjet 3. 11. 2025 0:00

Jaroslav Kuboš

Poslední názory

Témata