Pětiminutovka: SQL nad csv

23. 2. 2014 21:59 Petr Blahoš

dev
python

Nedávno jsem narazil na zajímavý projekt textql, který umožňuje spouštět SQL dotazy nad csv souborem. Samozřejmě mi, stejně jako vám, hned došlo, jak to dělá. Tak se na dvě minutky zamyslete… Taky Vám to vyšlo tak, že načtení csv souboru je banální, a pak se to prostě napere do sqlite databáze, a je hotovo?

Načtení

Jestli jsem to po zběžném pohledu do kódu textql pochopil dobře, tak nepozná, zda mají data hlavičku, ani nedělá automatickou detekci formátu. My v pythonu máme naštěstí modul csv, který nám s něčím z toho pomůže. Takže:

import csv
import sys

with open(sys.argv[1], 'rb') as csvfile:
    sniff_data = csvfile.read(8192)
    csvfile.seek(0)

    sniffer = csv.Sniffer()
    has_header = sniffer.has_header(sniff_data)
    dialect = sniffer.sniff(sniff_data)

Takže nejprve si přečteme kousek souboru. Uděláme si sniffer. Ten nám na základě souboru řekne, jestli má soubor asi hlavičku, a pak zkusí rozpoznat dialekt – vpodstatě hádá oddělovače sloupců a tak. No a když máme dialekt, tak si uděláme Reader, a načteme:

    reader = csv.reader(csvfile, dialect)

    for row in reader:
        if table is None:
            if has_header:
                table = mk_table_from_header(row)
                continue
            else:
                table = mk_table_dummy_columns(row)
        insert_row(table, row)

SQLite

Já moc v sql ani sqlite nejedu, ale jak jsem pochopil, tak sqlite nepotřebuje u sloupců typy – co se tam vloží, to tam bude. Takže v mk_table_from_header si vytáhneme jména sloupců – z hlavičky, a uděláme tabulku, naopak v mk_table_dummy_columns si je prostě očíslujeme jako col₁, col₂, …

import sqlite3

db_con = sqlite3.connect(":memory:")
db_con.text_factory = str

def mk_table_from_header(row):
    columns = set()
    column_names = []
    for i in row:
        name = get_unused_column_name(safe_column_name(i), columns)
        columns.add(name)
        column_names.append(name)
    cur = db_con.cursor()
    cur.execute("""create table t1(%s)""" % ", ".join(column_names))
    cur.close()
    return ("t1", column_names)

def mk_table_dummy_columns(row):
    column_names = [ "col_%d" % (i+1) for i in range(len(row)) ]
    cur = db_con.cursor()
    cur.execute("""create table t1(%s)""" % ", ".join(column_names))
    cur.close()
    return ("t1", column_names)

Tím insert_row vás ani nebudu obtěžovat.

Is it any good?

Ač si autor textql na otázku Is it any good? sám odpovídá Yes, já tento názor moc nesdílím. Nenapadá mě žádný způsob, jak to smysluplně použít. Pro koho to má být? BFU nebude umět použít SQL, programátor asi bude mít s daty nějaký další úmysl, tak proč si to nenapíše celé v pythonu, nebo třeba mém oblíbeném awk?

Proto se dál nebudu zabývat takovýma drobnostma, jako že jestli je hodnota číslo, tak si ji převedeme na číslo, abychom mohli počítat, a tak. Jenom sem dám odkaz na kompletní příklad, kdyby to náhodou někoho zajímalo.

Související články na blogu Wome... is your fwiend!
- Modellerkit: dva příklady 31. 8. 2014 17:51
- Modelujeme s deskriptorem 23. 7. 2014 19:16
- Bez modelu 19. 6. 2014 19:56
- Modelování: Ukázka 11. 6. 2014 20:55
- Model v modelu aneb kdo si ze mě střílí? 8. 6. 2014 20:07
- Model z reálného světa 18. 5. 2014 19:16
Související články na ostatních blozích
- ChatGPT: Umělá inteligence programuje podle textového zadání v češtině 10. 12. 2022 20:13
- Ideální webový framework pro Python? 6. 4. 2015 19:49
- Nekompatibilní rozšíření Flasku 21. 10. 2014 5:14
- Inštalácia Django web frameworku na Windowse 23. 2. 2014 23:06
- Programovací jazyky na středních školách 18. 12. 2012 0:02
- Programovací jazyky tady u nás a programovací jazyky tam u nich 1. 2. 2010 10:03
Související články na serveru Root.cz
- Využití vektorové databáze Milvus v aplikacích psaných v Pythonu 9. 7. 2026 0:00
- Postřehy z bezpečnosti: malware klame analytické AI nástroje 29. 6. 2026 0:00
- Řešení problému zpětné kompatibility v ekosystému jazyka Go 23. 6. 2026 0:00
- Softwarová sklizeň (10. 6. 2026): připojte se ke svému automobilu 10. 6. 2026 0:00
- Softwarová sklizeň (27. 5. 2026): vývojové prostředí a bezpečnostní nástroj pro Python 27. 5. 2026 0:00
- Doménově specifický jazyk „expr“ vestavitelný do aplikací v Go 26. 5. 2026 0:00

Přidat názor

24. 2. 2014 22:59

Heron (neregistrovaný)

Hmmm:

https://wiki.postgresql.org/wiki/Foreign_data_wrappers#file_fdw
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
24. 2. 2014 23:34

karel (neregistrovaný)

Is it any good? No, but the right question is: Why? And the answer is simple: We can?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 2. 2014 7:28

petrb (neregistrovaný)

1: Nebo https://dev.mysql.com/doc/refman/5.0/en/csv-storage-engine.html

2: Yes!!!
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
25. 2. 2014 22:18

Honzucha (neregistrovaný)

Yes, heterogenni zdroje a pak treba inner join... Btw nefunguje vetsina ETL prave takto?!!!
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 2. 2014 8:06

petrb (neregistrovaný)

4: Nevím, jak většina. Tohle je ale spíš ELDWYCTOL (Extract, Load, Do whatever you can think of later) - chybí tady ta fáze transform. Právě naopak, když já dělám ETL, tak rozhodně ten transform nevynechám, a rozhodně nepoužiju nějakou mezidatabázi.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 2. 2014 8:59

Kareves (neregistrovaný)

pro podobné účely používám program CSVFix - http://code.google.com/p/csvfix/
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 2. 2014 20:47

mimi.vx (neregistrovaný)

zajímavý je taky projekt https://github.com/harelba/q
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
28. 2. 2014 11:25

Honzucha (neregistrovaný)

5. Neveril by jste kolik transform je udelano pomoci procedural sql, t-sql...
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
28. 2. 2014 13:58

bark (neregistrovaný)

Honzucha - jo, já to dělal v T-SQL. Orion komunikace v CSV...SQL si přímo šahalo do adresáře v pravidelných intervalech, provádělo import, při chybě odeslalo e-mail a vadný soubor dalo do karanténního adresáře...:) Už je to pár let.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
5. 3. 2014 10:51

Honza (neregistrovaný)

Samozrejme to smysl ma, napriklad warehouse timto zpusobem velmi casto cte raw data prave z nejakeho csv a cpe je do L0/L1 tabulek. Oracle db umi i external tables, kde v podstate reknete ze csv soubor je tabulka a pak uz nad ni delate dotazy, agregace atd. Vyvojar dwh se nemusi pachtit s nejakym awk, nemusi mit pristup na system a dokaze si elegantne vytahnout data ktera potrebuje, zpusobem ktery je mu nejblizsi. Otazka spis je jestli to ma smysl pachat nad sqllite :)

Přidat názor

Petr Blahoš

Jmenuju se Petr Blahoš. Programuju něco přes 20 let. Tady se snažím psát hlavně o Pythonu, webovém frameworku Pyramid, a občas i o něčem úplně jiném.

Sdílet

Související články na blogu Wome... is your fwiend!

Modellerkit: dva příklady 31. 8. 2014 17:51

Modelujeme s deskriptorem 23. 7. 2014 19:16

Bez modelu 19. 6. 2014 19:56

Modelování: Ukázka 11. 6. 2014 20:55

Model v modelu aneb kdo si ze mě střílí? 8. 6. 2014 20:07

Model z reálného světa 18. 5. 2014 19:16

Související články na ostatních blozích

ChatGPT: Umělá inteligence programuje podle textového zadání v češtině 10. 12. 2022 20:13

Ideální webový framework pro Python? 6. 4. 2015 19:49

Nekompatibilní rozšíření Flasku 21. 10. 2014 5:14

Inštalácia Django web frameworku na Windowse 23. 2. 2014 23:06

Programovací jazyky na středních školách 18. 12. 2012 0:02

Programovací jazyky tady u nás a programovací jazyky tam u nich 1. 2. 2010 10:03

Související články na serveru Root.cz

Využití vektorové databáze Milvus v aplikacích psaných v Pythonu 9. 7. 2026 0:00

Postřehy z bezpečnosti: malware klame analytické AI nástroje 29. 6. 2026 0:00

Řešení problému zpětné kompatibility v ekosystému jazyka Go 23. 6. 2026 0:00

Softwarová sklizeň (10. 6. 2026): připojte se ke svému automobilu 10. 6. 2026 0:00

Softwarová sklizeň (27. 5. 2026): vývojové prostředí a bezpečnostní nástroj pro Python 27. 5. 2026 0:00

Doménově specifický jazyk „expr“ vestavitelný do aplikací v Go 26. 5. 2026 0:00

Petr Blahoš

Nejčtenější články autora

Poslední názory

Témata