Учебное пособие по Hive для начинающих: учитесь на примерах за 3 дня
Краткое описание учебного пособия по Hive
Apache Hive помогает очень быстро выполнять запросы и управлять большими наборами данных. Это Инструмент ETL для экосистемы Hadoop. В этом руководстве по Apache Hive для начинающих вы изучите основы Hive и важные темы, такие как запросы HQL, извлечение данных, разделы, сегменты и т. д. Эта серия руководств по Hive поможет вам изучить концепции и основы Hive.
Что я должен знать?
Чтобы изучить это руководство по запросам Hive, вам потребуются базовые знания SQL, Hadoop и знание других баз данных будет дополнительным подспорьем.
Программа курса Hive
Введение
👉 Lessна 1 | Что такое улей? - Archiтекстура и режимы |
👉 Lessна 2 | Загрузите и установите HIVE — Как скачать и установить HIVE на Ubuntu |
👉 Lessна 3 | Конфигурация метахранилища HIVE — Зачем использовать MySQL? |
👉 Lessна 4 | Типы данных куста — Создание и удаление базы данных в Hive |
Расширенный материал
👉 Lessна 1 | Улей Создать таблицу — Типы и их использование |
👉 Lessна 2 | Перегородки и ведра для ульев — Учитесь на примере |
👉 Lessна 3 | Индексы Hive и просмотр — Учитесь на примере |
👉 Lessна 4 | Запросы улья — Учитесь на примере |
👉 Lessна 5 | Учебное пособие по присоединению к Hive и подзапросам — Учитесь на примере |
👉 Lessна 6 | Учебное пособие по языку запросов Hive — Встроенный OperaTORs |
👉 Lessна 7 | Функция улья — Встроенные и определяемые пользователем функции |
👉 Lessна 8 | Улей ЭТЛ — Загрузка примеров JSON, XML, текстовых данных |
Введение в Улей
Hive развивался как решение для хранения данных, построенное на базе платформы Hadoop Map-Reduce.
Размер наборов данных, собираемых и анализируемых в отрасли для бизнес-аналитика растет и, в некотором смысле, это делает традиционные решения по хранению данных более дорогими. Hadoop с платформой MapReduce используется в качестве альтернативного решения для анализа наборов данных огромного размера. Хотя Hadoop оказался полезным для работы с огромными наборами данных, его платформа MapReduce имеет очень низкий уровень и требует от программистов написания собственных программ, которые сложно поддерживать и повторно использовать. Hive приходит сюда для спасения программистов.
Двигатель улья компилирует эти запросы в задания Map-Reduce для выполнения в Hadoop. Кроме того, в запросы можно включать собственные сценарии Map-Reduce. Hive работает с данными, хранящимися в таблицах, которые состоят из примитивных типов данных и типов данных коллекций, таких как массивы и карты.
Hive поставляется с интерфейсом командной строки, который можно использовать для создания таблиц и выполнения запросов.
Язык запросов Hive аналогичен SQL и поддерживает подзапросы. С помощью языка запросов Hive можно выполнять соединения MapReduce между таблицами Hive. Он имеет поддержку простых SQL-подобные функции– CONCAT, SUBSTR, ROUND и т. д., и функции агрегации– SUM, COUNT, MAX и т. д. Он также поддерживает предложения GROUP BY и SORT BY. Также возможно писать пользовательские функции на языке запросов Hive.
Что такое улей?
Апачский улей — это платформа хранилища данных для запроса и анализа данных, хранящихся в HDFS. Он разработан на основе Hadoop. Hive — это программное обеспечение с открытым исходным кодом для анализа больших наборов данных в Hadoop. Он предоставляет SQL-подобный декларативный язык, называемый HiveQL, для выражения запросов. Используя Hive-QL, пользователи, связанные с SQL может очень легко выполнить анализ данных.
Улей против карты Уменьшить
Прежде чем выбрать один из этих двух вариантов, мы должны рассмотреть некоторые их особенности.
При выборе между Hive и Map Reduce учитываются следующие факторы:
- Тип данных
- Количество данных
- Сложность кода
Улей против сокращения карты?
Особенность | Hive | Уменьшение карты |
---|---|---|
Язык | Он поддерживает SQL-подобный язык запросов для взаимодействия и моделирования данных. |
|
Уровень абстракции | Более высокий уровень абстракции поверх HDFS. | Нижний уровень абстракции |
Эффективность в коде | Сравнительно меньше, чем Map сокращение | Обеспечивает высокую эффективность |
Объем кода | Less количество строк кода, необходимое для выполнения | Необходимо определить большее количество строк кодов |
Тип требуемой разработки | Less Требуется разработка | Требуется дополнительная работа по развитию |