Big data
Vizualizace dat vytvořená firmou IBM. Jde o data ukazující editační aktivity
jednoho z robotů Wikipedie. Data Wikipedie jsou svým rozsahem,
nestrukturovaností informací a variabilitou dat vhodným příkladem pro Big data.
Big data je pojem z výpočetní techniky. Přímý překlad tohoto pojmu z angličtiny
do češtiny je veledata. V dostupných zdrojích je uváděno více definic. Například
poradenská firma Gartner za big data označuje soubory dat, jejichž velikost je
mimo schopnosti zachycovat, spravovat a zpracovávat data běžně používanými
softwarovými prostředky v rozumném čase. Často bývá v textech na dané téma
používáno i v češtině přímo big data jako pojem označující technickou kategorii,
tedy bez překladu.
Big data a datové sklady
Velké objemy dat jsou nyní (2013) obvykle ukládány v
datových skladech. Do datových skladů jsou ukládány z různých zdrojů a
existujících informačních systémů pomocí ETL procedur. Většinou jde již o data
ve strukturované podobě. Data jsou do datového skladu přenášena v předem daných
cyklech a následně je nad nimi provedena analýza již připravenými algoritmy.
Dalším běžným způsobem je provádění dalších analýz a výpočtů na vyžádání.Obvykle
se v datových skladech pracuje s daty o objemu terabytů.
Na rozdíl od toho se v big datech hovoří o objemech dat v petabyte. Petabyte je 1 000 000 000 000 000 byte, tedy 1015 byte. Jde tedy o objemy o tři řády větší. Problematikou zpracování velkých objemů dat zabývají například i VLDB a XLDB.
Kategorie Big data nelze zjednodušit na prosté zvětšení nároků na zpracování většího objemu dat. Jde i o jejich další charakteristiky. V literatuře je používán pojem 3V z počátečních písmen anglických slov volume, velocity a variety charakterizujících big data. Některé zdroje přidávají i čtvrté V pro veracity.
volume (objem) Objem dat narůstá exponenciálně.
velocity (rychlost) Objevují
se úlohy vyžadující okamžité zpracování velkého objemu průběžně vznikajících
dat. Vhodným příkladem může být zpracování dat produkovaných kamerou.
variety
(různorodost, variabilnost) Kromě obvyklých strukturovaných dat jde o úlohy pro
zpracování nestrukturovaných textů, ale i různých typů multimediálních dat.
veracity (věrohodnost) Nejistá věrohodnost dat v důsledku jejich nekonzistence,
neúplnosti, nejasnosti a podobně. Vhodným příkladem mohou být údaje čerpané z
komunikace na sociálních sítích.
Nástroje pro big data[editovat | editovat
zdroj]
Známým nástrojem pro zpracování Big dat je Hadoop.[1] Nejde ale o
nástroj řešící problematiku Big dat úplně. Jde jen o jeden z nástrojů pro Big
data a navíc jde o open source software, což může být pro některé zákazníky
problematické. Proto více IT firem, které dodávají nástroje a řešení pro Big
data používá sice Hadoop, ale jen jako základ pro některý z jimi dodávaných
nástrojů pro zpracování Big dat.