Cílem je ukázat, jak může princip revizní databáze a jejího řádkového revizního kodování zmenšit ve výsledku velikost dat potřebných pro uložení České Wikipedie (cswiki export z 2024–01–01).
Uložení obsahu stránek Českéj Wikipedie (2024–01–01, obsah stránek) |
|||
---|---|---|---|
# |
Typ uložení |
Velikost [B] |
|
#1 |
RAW |
244 435 739 173 |
|
#2 |
Komprimované RAW |
91 119 515 070 |
37,28 % |
#3 |
Řádkové kódování |
19 849 964 914 |
8,12 % |
#4 |
Řádkové kódování |
3 961 027 408 |
1,62 % |
#5 |
Řádkové kódování |
8 055 045 035 |
3,3 % |
#6 |
Řádkové kódování |
18 137 756 623 |
7,42 % |
#7 |
Řádkové kódování |
15 318 428 145 |
6,27 % |
#8 |
Revizní databáze |
8 027 608 623 |
3,28 % |
Revizní databáze |
||||
---|---|---|---|---|
Velikost [Bajtů] |
Počet stránek |
|||
RAW |
17 712 669 |
<1 % |
331 464 |
21 % |
Komprimované RAW |
130 130 507 |
1 % |
204 407 |
13 % |
Řádkové kódování |
10 871 096 |
<1 % |
75 586 |
5 % |
Řádkové kódování |
7 868 433 968 |
98 % |
896 066 |
59 % |
Řádkové kódování |
0 |
0 % |
0 |
0 % |
Riadkové kódovanie |
460 383 |
<1 % |
1 299 |
<1 % |
Celkem |
8 027 608 623 |
1 508 822 |
Více o mně.