Otevřená data

Podmínky užití

Metadata zveřejněná v Registru smluv jsou považována za tzv. otevřená data (viz https://opendata.gov.cz/informace:start). Poskytovaná datová sada nicméně obsahuje osobní údaje ve smyslu zákona č. 101/2000 Sb., o ochraně osobních údajů a o změně některých zákonů. Příjemce této datové sady se stává správcem osobních údajů. Vzhledem k tomu musí plnit zákonné povinnosti, které mu z účinné právní úpravy ochrany osobních údajů vyplývají. Tím je myšleno zejména právo fyzických osob na ochranu jejich osobních údajů v případě, kdy smluvní dokument či metadata smlouvy obsahovaly neoprávněně zveřejněné údaje, které byly následně znepřístupněny. Zpracovatel datové sady by měl v takovém případě zajistit vymazání znepřístupněných údajů ze svého systému.

Formát dat

Zájemcům o jejich další analytické využití umožňujeme strojově zpracovávat kompletní datové sady zveřejněných metadat dle následujícího popisu. Stránka https://data.smlouvy.gov.cz/ vypisuje obsah adresáře aktuálně vygenerovaných souborů. Export konkrétního měsíce lze získat na základě masky názvu souboru: dump_<YYYY>_<MM>.xml kde YYYY je 4 místné číslo roku, a MM je 2 místné číslo měsíce (doplněné nulou zleva na dva znaky). Detailnější informace o jednotlivých dumpech lze získat přes indexový soubor index.xml (umístění v adresáři spolu s dumpy).

Indexový soubor obsahuje následující údaje pro každý existující dump soubor:

XML Element: Význam

  • mesic Číslo měsíce dumpu (datový typ integer bez úvodní nuly),
  • rok Rok dumpu,
  • hashDumpu Kontrolní hash celého dump souboru, použitý hashovací algoritmus je uveden v atributu elementu. Možné hodnoty algoritmu jsou: sha1, sha2.
  • velikostDumpu Velikost celého souboru s dumpem v bytech,
  • casGenerovani Datum a čas vygenerování aktuální podoby souboru s dumpem,
  • dokoncenyMesic Příznak s možnými hodnotami: 1 = dump za daný měsíc byl uzavřen, již nejsou očekávána nová data, 0 = dump za aktuální měsíc, příštím exportem přibudou nová data,
  • odkaz Plná URL na XML souboru dumpu.

Dump soubory jsou členěny podle měsíců. Každý den se generuje aktualizovaný dump s daty od začátku měsíce. Tato přírůstková podoba souboru je v indexovém souboru reprezentována hodnotou „dokoncenyMesic = 0“. Při generování v prvním dni v měsíci je typicky dump předchozího měsíce finálně vygenerován a označen „dokoncenyMesic = 1“. Za určitých okolností se může stát, že k označení nedojde. V indexu jsou pak dva dump soubory s „dokoncenyMesic = 0“ (dump za předchozí měsíc, a dump za aktuální měsíc). Tato situace nastane ve chvíli, kdy v okamžiku generování dump souboru systém eviduje nezpracované zprávy z předchozího měsíce, případně zatím nedošlo ke stažení všech nových hlaviček z ISDS. Příznak dokoncenyMesic se nastaví při nejbližším následujícím exportu v okamžiku, kdy systém již neočekává nová data z daného měsíce.

Pokud dojde k modifikaci nebo znepřístupnění některé smlouvy, dochází k aktualizaci již vygenerovaných XML dumpů. A to pro libovolné časové období zpětně. Při znepřístupnění smlouvy na žádost publikujícího dochází k odstranění všech verzí smlouvy z historických dumpů. V případě publikace nové smlouvy dochází k aktualizaci příznaku „platnyZaznam“ u poslední předchozí platné verze modifikované smlouvy (z toho důvodu, že novou verzí se původní verze stává neplatnou).

Dump soubor obsahuje v první části několik elementů s meta informacemi o samotném dumpu. Jedná se o několik elementárních informací, které jsou zároveň obsaženy i v indexu: • mesic • rok • casGenerovani • dokoncenyMesic. Následuje sekvence 0 až N strukturovaných elementů „zaznam“, které nesou všechny potřebné meta informace o publikovaných verzích smluv. Nejsou obsažena binární data příloh, jsou uvedeny pouze jejich názvy, kontrolní hashe, a odkazy pro přímé stažení souborů.

XSD XML soubory pro přístup k otevřeným datům odpovídají následujícím XSD specifikacím (viz popis aplikačního rozhraní):

  • dump_index.xsd: indexový soubor,
  • dump_mesice.xsd: soubor s dumpem dat jednoho měsíce.