Výuka úlu pro začátečníky: Učte se s příklady za 3 dny

Shrnutí výukového programu úlu


Apache Hive pomáhá s dotazováním a správou velkých datových sad opravdu rychle. Je to an ETL nástroj pro ekosystém Hadoop. V tomto tutoriálu Apache Hive pro začátečníky se naučíte základy Hive a důležitá témata, jako jsou HQL dotazy, extrakce dat, oddíly, buckety a tak dále. Tato série výukových programů Hive vám pomůže naučit se koncepty a základy Hive.

Co bych měl vědět?


Chcete-li se naučit tento výukový program dotazů Hive, potřebujete základní znalosti SQL, Hadoop a znalost dalších databází bude další pomocí.

Osnova kurzu úlu

Úvod

👍 Lessna 1 Co je Hive? - Architecture & Modes
👍 Lessna 2 Stáhněte a nainstalujte HIVE — Jak stáhnout a nainstalovat HIVE na Ubuntu
👍 Lessna 3 Konfigurace HIVE Metastore — Proč používat MySQL?
👍 Lessna 4 Datové typy podregistru — Create & Drop Database in Hive

Pokročilé věci

👍 Lessna 1 Vytvořit tabulku úlu — Druhy a jejich použití
👍 Lessna 2 Úlové přepážky a vědra — Učte se příkladem
👍 Lessna 3 Indexy a zobrazení úlu — Učte se příkladem
👍 Lessna 4 Hive dotazy — Učte se příkladem
👍 Lessna 5 Výukový program Hive Join & SubQuery — Učte se příkladem
👍 Lessna 6 Výukový program dotazovacího jazyka Hive — Vestavěný Operatorů
👍 Lessna 7 Funkce úlu — Vestavěné a uživatelem definované funkce
👍 Lessna 8 ETL úlu — Načítání JSON, XML, příklady textových dat

Úvod do Hive

Hive se vyvinul jako řešení pro datové sklady postavené na frameworku Hadoop Map-Reduce.

Velikost datových souborů shromažďovaných a analyzovaných v průmyslu business intelligence roste a svým způsobem zdražuje tradiční řešení datových skladů. Hadoop s rámcem MapReduce, se používá jako alternativní řešení pro analýzu datových sad o velké velikosti. Ačkoli se Hadoop ukázal jako užitečný pro práci na obrovských souborech dat, jeho rámec MapReduce je na velmi nízké úrovni a vyžaduje, aby programátoři psali vlastní programy, které se obtížně udržují a znovu používají. Hive sem přichází, aby zachránil programátory.


Úlový motor zkompiluje tyto dotazy do úloh Map-Reduce, které se mají provést na Hadoopu. Kromě toho lze do dotazů zapojit i vlastní skripty Map-Reduce. Hive pracuje s daty uloženými v tabulkách, které se skládají z primitivních datových typů a sbírkových datových typů, jako jsou pole a mapy.

Hive přichází s rozhraním příkazového řádku, které lze použít k vytváření tabulek a provádění dotazů.

Hive dotazovací jazyk je podobný SQL, kde podporuje poddotazy. S dotazovacím jazykem Hive je možné provést spojení MapReduce napříč tabulkami Hive. Má podporu pro jednoduché Funkce podobné SQL– CONCAT, SUBSTR, ROUND atd. a agregační funkce– SUM, COUNT, MAX atd. Podporuje také klauzule GROUP BY a SORT BY. Je také možné psát uživatelem definované funkce v dotazovacím jazyce Hive.

Co je Hive?

Úl Apache je rámec datového skladu pro dotazování a analýzu dat uložených v HDFS. Je vyvinut na vrcholu Hadoop. Hive je open-source software pro analýzu velkých souborů dat na Hadoop. Poskytuje deklarativní jazyk podobný SQL, nazývaný HiveQL, pro vyjádření dotazů. Pomocí Hive-QL jsou uživatelé spojeni s SQL může provádět analýzu dat velmi snadno.

Úl versus mapa zmenšení

Před výběrem jedné z těchto dvou možností se musíme podívat na některé jejich vlastnosti.

Při volbě mezi Úlem a Snížením mapy se berou v úvahu následující faktory;

  • Typ dat
  • Množství dat
  • Složitost kódu

Úl versus zmenšení mapy?

vlastnost Úl Zmenšit mapu
Jazyk Podporuje dotazovací jazyk podobný SQL pro interakci a datové modelování
  • Kompiluje jazyk se dvěma hlavními úkoly, které jsou v něm obsaženy. Jedna je mapová úloha a další je redukce.
  • Tyto úlohy můžeme definovat pomocí Java or Python
Úroveň abstrakce Vyšší úroveň abstrakce nad HDFS Nižší úroveň abstrakce
Efektivita v kódu Poměrně menší než snížení mapy Poskytuje vysokou účinnost
Rozsah kódu Less počet řádků kódu potřebného pro provedení Je třeba definovat více řádků kódů
Typ požadované vývojové práce Less Potřebné vývojové práce Je potřeba více vývojové práce
Klikněte pro Další výukový program