Учебное пособие по Hive для начинающих: учитесь на примерах за 3 дня

Краткое описание учебного пособия по Hive


Apache Hive помогает очень быстро выполнять запросы и управлять большими наборами данных. Это Инструмент ETL для экосистемы Hadoop. В этом руководстве по Apache Hive для начинающих вы изучите основы Hive и важные темы, такие как запросы HQL, извлечение данных, разделы, сегменты и т. д. Эта серия руководств по Hive поможет вам изучить концепции и основы Hive.

Что я должен знать?


Чтобы изучить это руководство по запросам Hive, вам потребуются базовые знания SQL, Hadoop и знание других баз данных будет дополнительным подспорьем.

Программа курса Hive

Введение

👉 Lessна 1 Что такое улей? - Archiтекстура и режимы
👉 Lessна 2 Загрузите и установите HIVE — Как скачать и установить HIVE на Ubuntu
👉 Lessна 3 Конфигурация метахранилища HIVE — Зачем использовать MySQL?
👉 Lessна 4 Типы данных куста — Создание и удаление базы данных в Hive

Расширенный материал

👉 Lessна 1 Улей Создать таблицу — Типы и их использование
👉 Lessна 2 Перегородки и ведра для ульев — Учитесь на примере
👉 Lessна 3 Индексы Hive и просмотр — Учитесь на примере
👉 Lessна 4 Запросы улья — Учитесь на примере
👉 Lessна 5 Учебное пособие по присоединению к Hive и подзапросам — Учитесь на примере
👉 Lessна 6 Учебное пособие по языку запросов Hive — Встроенный OperaTORs
👉 Lessна 7 Функция улья — Встроенные и определяемые пользователем функции
👉 Lessна 8 Улей ЭТЛ — Загрузка примеров JSON, XML, текстовых данных

Введение в Улей

Hive развивался как решение для хранения данных, построенное на базе платформы Hadoop Map-Reduce.

Размер наборов данных, собираемых и анализируемых в отрасли для бизнес-аналитика растет и, в некотором смысле, это делает традиционные решения по хранению данных более дорогими. Hadoop с платформой MapReduce используется в качестве альтернативного решения для анализа наборов данных огромного размера. Хотя Hadoop оказался полезным для работы с огромными наборами данных, его платформа MapReduce имеет очень низкий уровень и требует от программистов написания собственных программ, которые сложно поддерживать и повторно использовать. Hive приходит сюда для спасения программистов.


Двигатель улья компилирует эти запросы в задания Map-Reduce для выполнения в Hadoop. Кроме того, в запросы можно включать собственные сценарии Map-Reduce. Hive работает с данными, хранящимися в таблицах, которые состоят из примитивных типов данных и типов данных коллекций, таких как массивы и карты.

Hive поставляется с интерфейсом командной строки, который можно использовать для создания таблиц и выполнения запросов.

Язык запросов Hive аналогичен SQL и поддерживает подзапросы. С помощью языка запросов Hive можно выполнять соединения MapReduce между таблицами Hive. Он имеет поддержку простых SQL-подобные функции– CONCAT, SUBSTR, ROUND и т. д., и функции агрегации– SUM, COUNT, MAX и т. д. Он также поддерживает предложения GROUP BY и SORT BY. Также возможно писать пользовательские функции на языке запросов Hive.

Что такое улей?

Апачский улей — это платформа хранилища данных для запроса и анализа данных, хранящихся в HDFS. Он разработан на основе Hadoop. Hive — это программное обеспечение с открытым исходным кодом для анализа больших наборов данных в Hadoop. Он предоставляет SQL-подобный декларативный язык, называемый HiveQL, для выражения запросов. Используя Hive-QL, пользователи, связанные с SQL может очень легко выполнить анализ данных.

Улей против карты Уменьшить

Прежде чем выбрать один из этих двух вариантов, мы должны рассмотреть некоторые их особенности.

При выборе между Hive и Map Reduce учитываются следующие факторы:

  • Тип данных
  • Количество данных
  • Сложность кода

Улей против сокращения карты?

Особенность Hive Уменьшение карты
Язык Он поддерживает SQL-подобный язык запросов для взаимодействия и моделирования данных.
  • Он компилирует язык с двумя основными задачами. Одна из них — задача карты, а другая — редуктор.
  • Мы можем определить эту задачу, используя Java or Python
Уровень абстракции Более высокий уровень абстракции поверх HDFS. Нижний уровень абстракции
Эффективность в коде Сравнительно меньше, чем Map сокращение Обеспечивает высокую эффективность
Объем кода Less количество строк кода, необходимое для выполнения Необходимо определить большее количество строк кодов
Тип требуемой разработки Less Требуется разработка Требуется дополнительная работа по развитию
Нажмите для Следующий урок