Revizní databáze aplikovaná na Českou Wikipedii

2. 2. 2024 10:25 (aktualizováno) Dušan Kreheľ

Cílem je ukázat, jak může princip revizní databáze a jejího řádkového revizního kodování zmenšit ve výsledku velikost dat potřebných pro uložení České Wikipedie (cswiki export z 2024–01–01).

Uložení obsahu stránek Českéj Wikipedie (2024–01–01, obsah stránek)

#

Typ uložení

Velikost [B]

#1

RAW

244 435 739 173

#2

Komprimované RAW
(revize stranek jednotlivě komprimované <zlib DEFLATE>)

91 119 515 070

37,28 %

#3

Řádkové kódování

19 849 964 914

8,12 %

#4

Řádkové kódování
(igbinary serializované, komprimované)

3 961 027 408

1,62 %

#5

Řádkové kódování
(klíče komprimované a igbinary serializované; revize jednotlivě komprimované)

8 055 045 035

3,3 %

#6

Řádkové kódování
(klíče v RAW, revize jednotlivě komprimované)

18 137 756 623

7,42 %

#7

Řádkové kódování
(klíče jednotlivě komprimované, revize jednotlivě komprimované)

15 318 428 145

6,27 %

#8

Revizní databáze
(nejmenší velikost z #1 až #7, mimo #4)

8 027 608 623

3,28 %

Revizní databáze
(Česká Wikipedie, 2024–01–01, obsah stránek)

Velikost [Bajtů]

Počet stránek

RAW

17 712 669

<1 %

331 464

21 %

Komprimované RAW
(revize stranek jednotlivě komprimované)

130 130 507

1 %

204 407

13 %

Řádkové kódování

10 871 096

<1 %

75 586

5 %

Řádkové kódování
(klíče komprimované a igbinary serializované;
revize jednotlivě komprimované)

7 868 433 968

98 %

896 066

59 %

Řádkové kódování
(klíče v RAW, revize jednotlivě komprimované)

0

0 %

0

0 %

Riadkové kódovanie
(klíče jednotlivě komprimované, revize jednotlivě komprimované)

460 383

<1 %

1 299

<1 %

Celkem

8 027 608 623

1 508 822

Sdílet