Big data
Vizualizace dat vytvořená firmou IBM. Jde o data ukazující editační aktivity jednoho z robotů Wikipedie. Data Wikipedie jsou svým rozsahem, nestrukturovaností informací a variabilitou dat vhodným příkladem pro Big data.
Big data je pojem z výpočetní techniky. Přímý překlad tohoto pojmu z angličtiny do češtiny jevelká data. V dostupných zdrojích je uváděno více definic. Například poradenská firma Gartner za big data označuje soubory dat, jejichž velikost je mimo schopnosti zachycovat, spravovat a zpracovávat data běžně používanými softwarovýmiprostředky v rozumném čase. [1] Často bývá v textech na dané téma používáno i v češtině přímobig data jako pojem označující technickou kategorii, tedy bez překladu.
Big data a datové sklady
Velké objemy dat jsou nyní (2013) obvykle ukládány v datových skladech. Do datových skladů jsou ukládány z různých zdrojů a existujících informačních systémů pomocí ETL procedur. Většinou jde již o data ve strukturované podobě. Data jsou do datového skladu přenášena v předem daných cyklech a následně je nad nimi provedena analýza již připravenými algoritmy. Dalším běžným způsobem je prováděný dalších analýz a výpočtů na vyžádání. [1] Obvykle se datových skladech pracuje s daty o objemuterabytů.[1]
Na rozdíl od toho se v big datech hovoří o objemech dat v petabyte. [2] Petabyte je 1 000 000 000 000 000 byte, tedy 1015 byte. Jde tedy o objemy o tři řády větší. Problematikou zpracování velkých objemů dat zabývají například i VLDB a XLDB.
Kategorie Big data nelze zjednodušit na prosté zvětšení nároků na zpracování většího objemu dat. Jde i o jejich další charakteristiky. V literatuře je používán pojem 3V z počátečních písmen anglických slov volume, velocity a variety charakterizujících big data. [1] Některé zdroje přidávají i čtvrté V pro veracity. [3]
· volume (objem)
Objem dat narůstá exponenciálně.
· velocity (rychlost)
Objevují se úlohy vyžadující okamžité zpracování velkého objemu průběžně vznikajících dat. Vhodným příkladem může být zpracování dat produkovaných kamerou.
· variety (různorodost, variabilnost)
Kromě obvyklých strukturovaných dat jde o úlohy pro zpracování nestrukturovaných textů, ale i různých typů multimediálních dat.
· veracity (věrohodnost)
Nejistá věrohodnost dat v důsledku jejich nekonzistence, neúplnosti, nejasnosti a podobně. Vhodným příkladem mohou být údaje čerpané z komunikace na sociálních sítích.
Nástroje pro big data
Známým nástrojem pro zpracování Big dat je Hadoop.[1] Nejde ale o nástroj řešící problematiku Big dat úplně. Jde jen o jeden z nástrojů pro Big data a navíc jde o open source software, což může být pro některé zákazníky problematické. Proto více IT firem, která dodávají nástroje a řešení pro Big data používá sice Hadoop, ale jen jako základ pro některý z jimi dodávaných nástrojů pro zpracování Big dat.