BigData

Vizualizace dat vytvořená firmou IBM. Jde o data ukazující editační aktivity jednoho z robotů Wikipedie. Data Wikipedie jsou svým rozsahem, nestrukturovaností informací a variabilitou dat vhodným příkladem pro big data.
Big data je pojem z výpočetní techniky. Přímý překlad tohoto pojmu z angličtiny do češtiny je veledata. V dostupných zdrojích je uváděno více definic. Například poradenská firma Gartner za big data označuje soubory dat, jejichž velikost je mimo schopnosti zachycovat, spravovat a zpracovávat data běžně používanými softwarovými prostředky v rozumném čase. Často bývá v textech na dané téma používáno i v češtině přímo big data jako pojem označující technickou kategorii, tedy bez překladu.

Big data a datové sklady
Velké objemy dat jsou nyní (2013) obvykle ukládány v datových skladech. Do datových skladů jsou ukládány z různých zdrojů a existujících informačních systémů pomocí procedur ETL. Většinou jde již o data ve strukturované podobě. Data jsou do datového skladu přenášena v předem daných cyklech a následně je nad nimi provedena analýza již připravenými algoritmy. Dalším běžným způsobem je provádění dalších analýz a výpočtů na vyžádání. Obvykle se v datových skladech pracuje s daty o objemu terabytů.

Na rozdíl od toho se v big datech hovoří o objemech dat v petabytech. Petabyte je 1 000 000 000 000 000 bytů, tedy 1015 bytů. Jde tedy o objemy o tři řády větší. Problematikou zpracování velkých objemů dat zabývají například i VLDB a XLDB.

Kategorie big data nelze zjednodušit na prosté zvětšení nároků na zpracování většího objemu dat. Jde i o jejich další charakteristiky. V literatuře je používán pojem 3V z počátečních písmen anglických slov volume, velocity a variety charakterizujících big data. Některé zdroje přidávají i čtvrté V pro veracity.

volume (objem)
Objem dat narůstá exponenciálně.
velocity (rychlost)
Objevují se úlohy vyžadující okamžité zpracování velkého objemu průběžně vznikajících dat. Vhodným příkladem může být zpracování dat produkovaných kamerou.
variety (různorodost, variabilita)
Kromě obvyklých strukturovaných dat jde o úlohy pro zpracování nestrukturovaných textů, ale i různých typů multimediálních dat.
veracity (věrohodnost)
Nejistá věrohodnost dat v důsledku jejich inkonzistence, neúplnosti, nejasnosti a podobně. Vhodným příkladem mohou být údaje čerpané z komunikace na sociálních sítích.
Nástroje pro big data
Známým nástrojem pro zpracování big dat je Hadoop. Nejde ale o nástroj řešící problematiku big dat úplně. Jde jen o jeden z nástrojů pro big data a navíc jde o opensourceový software, což může být pro některé zákazníky problematické. Proto více IT firem, které dodávají nástroje a řešení pro big data používá sice Hadoop, ale jen jako základ pro některý z jimi dodávaných nástrojů pro zpracování big dat.