Otevřená data

Metadata zveřejněná v Registru smluv jsou považována za tzv. otevřená data (viz http://opendata.gov.cz/standardy:co-jsou-otevrena-data).
Zájemcům o jejich další analytické využití umožňujeme strojově zpracovávat kompletní datové sady zveřejněných metadat dle následujícího popisu.

Stránka https://data.smlouvy.gov.cz/ vypisuje obsah adresáře aktuálně vygenerovaných souborů. Export konkrétního měsíce lze získat na základě masky názvu souboru: dump_<YYYY>_<MM>.xml kde YYYY je 4 místné číslo roku, a MM je 2 místné číslo měsíce (doplněné nulou zleva na dva znaky). Detailnější informace o jednotlivých dumpech lze získat přes indexový soubor index.xml (umístění v adresáři spolu s dumpy).

Formát dat

Indexový soubor obsahuje následující údaje pro každý existující dump soubor:

XML Element: Význam

  • mesic Číslo měsíce dumpu (datový typ integer bez úvodní nuly),
  • rok Rok dumpu,
  • hashDumpu Kontrolní hash celého dump souboru, použitý hashovací algoritmus je uveden v atributu elementu. Možné hodnoty algoritmu jsou: sha1, sha2.
  • velikostDumpu Velikost celého souboru s dumpem v bytech,
  • casGenerovani Datum a čas vygenerování aktuální podoby souboru s dumpem,
  • dokoncenyMesic Příznak s možnými hodnotami: 1 = dump za daný měsíc byl uzavřen, již nejsou očekávána nová data, 0 = dump za aktuální měsíc, příštím exportem přibudou nová data,
  • odkaz Plná URL na XML souboru dumpu.

Dump soubory jsou členěny podle měsíců. Každý den se generuje aktualizovaný dump s daty od začátku měsíce. Tato přírůstková podoba souboru je v indexovém souboru reprezentována hodnotou „dokoncenyMesic = 0“. Při generování v prvním dni v měsíci je typicky dump předchozího měsíce finálně vygenerován a označen „dokoncenyMesic = 1“. Za určitých okolností se může stát, že k označení nedojde. V indexu jsou pak dva dump soubory s „dokoncenyMesic = 0“ (dump za předchozí měsíc, a dump za aktuální měsíc). Tato situace nastane ve chvíli, kdy v okamžiku generování dump souboru systém eviduje nezpracované zprávy z předchozího měsíce, případně zatím nedošlo ke stažení všech nových hlaviček z ISDS. Příznak dokoncenyMesic se nastaví při nejbližším následujícím exportu v okamžiku, kdy systém již neočekává nová data z daného měsíce. Dump soubor v první části několik elementů s meta informacemi o samotném dumpu. Jedná se o několik elementárních informací, které jsou zároveň obsaženy i v indexu: • mesic • rok • casGenerovani • dokoncenyMesic. Následuje sekvence 0 až N strukturovaných elementů „zaznam“, které nesou všechny potřebné meta informace o publikovaných verzích smluv. Nejsou obsažena binární data příloh, jsou uvedeny pouze jejich názvy, kontrolní hashe, a odkazy pro přímé stažení souborů.

XSD XML soubory pro přístup k otevřeným datům odpovídají následujícím XSD specifikacím (viz popis aplikačního rozhraní):

  • dump_index.xsd: indexový soubor,
  • dump_mesice.xsd: soubor s dumpem dat jednoho měsíce.