Výuka úlu pro začátečníky: Učte se s příklady za 3 dny
Shrnutí výukového programu úlu
Apache Hive pomáhá s dotazováním a správou velkých datových sad opravdu rychle. Je to an ETL nástroj pro ekosystém Hadoop. V tomto tutoriálu Apache Hive pro začátečníky se naučíte základy Hive a důležitá témata, jako jsou HQL dotazy, extrakce dat, oddíly, buckety a tak dále. Tato série výukových programů Hive vám pomůže naučit se koncepty a základy Hive.
Co bych měl vědět?
Chcete-li se naučit tento výukový program dotazů Hive, potřebujete základní znalosti SQL, Hadoop a znalost dalších databází bude další pomocí.
Osnova kurzu úlu
Úvod
👍 Lessna 1 | Co je Hive? - Architecture & Modes |
👍 Lessna 2 | Stáhněte a nainstalujte HIVE — Jak stáhnout a nainstalovat HIVE na Ubuntu |
👍 Lessna 3 | Konfigurace HIVE Metastore — Proč používat MySQL? |
👍 Lessna 4 | Datové typy podregistru — Create & Drop Database in Hive |
Pokročilé věci
👍 Lessna 1 | Vytvořit tabulku úlu — Druhy a jejich použití |
👍 Lessna 2 | Úlové přepážky a vědra — Učte se příkladem |
👍 Lessna 3 | Indexy a zobrazení úlu — Učte se příkladem |
👍 Lessna 4 | Hive dotazy — Učte se příkladem |
👍 Lessna 5 | Výukový program Hive Join & SubQuery — Učte se příkladem |
👍 Lessna 6 | Výukový program dotazovacího jazyka Hive — Vestavěný Operatorů |
👍 Lessna 7 | Funkce úlu — Vestavěné a uživatelem definované funkce |
👍 Lessna 8 | ETL úlu — Načítání JSON, XML, příklady textových dat |
Úvod do Hive
Hive se vyvinul jako řešení pro datové sklady postavené na frameworku Hadoop Map-Reduce.
Velikost datových souborů shromažďovaných a analyzovaných v průmyslu business intelligence roste a svým způsobem zdražuje tradiční řešení datových skladů. Hadoop s rámcem MapReduce, se používá jako alternativní řešení pro analýzu datových sad o velké velikosti. Ačkoli se Hadoop ukázal jako užitečný pro práci na obrovských souborech dat, jeho rámec MapReduce je na velmi nízké úrovni a vyžaduje, aby programátoři psali vlastní programy, které se obtížně udržují a znovu používají. Hive sem přichází, aby zachránil programátory.
Úlový motor zkompiluje tyto dotazy do úloh Map-Reduce, které se mají provést na Hadoopu. Kromě toho lze do dotazů zapojit i vlastní skripty Map-Reduce. Hive pracuje s daty uloženými v tabulkách, které se skládají z primitivních datových typů a sbírkových datových typů, jako jsou pole a mapy.
Hive přichází s rozhraním příkazového řádku, které lze použít k vytváření tabulek a provádění dotazů.
Hive dotazovací jazyk je podobný SQL, kde podporuje poddotazy. S dotazovacím jazykem Hive je možné provést spojení MapReduce napříč tabulkami Hive. Má podporu pro jednoduché Funkce podobné SQL– CONCAT, SUBSTR, ROUND atd. a agregační funkce– SUM, COUNT, MAX atd. Podporuje také klauzule GROUP BY a SORT BY. Je také možné psát uživatelem definované funkce v dotazovacím jazyce Hive.
Co je Hive?
Úl Apache je rámec datového skladu pro dotazování a analýzu dat uložených v HDFS. Je vyvinut na vrcholu Hadoop. Hive je open-source software pro analýzu velkých souborů dat na Hadoop. Poskytuje deklarativní jazyk podobný SQL, nazývaný HiveQL, pro vyjádření dotazů. Pomocí Hive-QL jsou uživatelé spojeni s SQL může provádět analýzu dat velmi snadno.
Úl versus mapa zmenšení
Před výběrem jedné z těchto dvou možností se musíme podívat na některé jejich vlastnosti.
Při volbě mezi Úlem a Snížením mapy se berou v úvahu následující faktory;
- Typ dat
- Množství dat
- Složitost kódu
Úl versus zmenšení mapy?
vlastnost | Úl | Zmenšit mapu |
---|---|---|
Jazyk | Podporuje dotazovací jazyk podobný SQL pro interakci a datové modelování |
|
Úroveň abstrakce | Vyšší úroveň abstrakce nad HDFS | Nižší úroveň abstrakce |
Efektivita v kódu | Poměrně menší než snížení mapy | Poskytuje vysokou účinnost |
Rozsah kódu | Less počet řádků kódu potřebného pro provedení | Je třeba definovat více řádků kódů |
Typ požadované vývojové práce | Less Potřebné vývojové práce | Je potřeba více vývojové práce |