초보자를 위한 Hive 튜토리얼: 3일 안에 예제를 통해 학습
Hive 튜토리얼 요약
Apache Hive는 대규모 데이터 세트를 매우 빠르게 쿼리하고 관리하는 데 도움이 됩니다. 이것은 ETL 도구 Hadoop 생태계를 위한 이 Apache Hive 초보자 튜토리얼에서는 Hive 기본 사항과 HQL 쿼리, 데이터 추출, 파티션, 버킷 등과 같은 중요한 주제를 학습합니다. 이 Hive 튜토리얼 시리즈는 Hive 개념과 기본 사항을 학습하는 데 도움이 됩니다.
무엇을 알아야 합니까?
이 Hive 쿼리 튜토리얼을 배우려면 다음 사항에 대한 기본 지식이 필요합니다. SQL, 하둡 다른 데이터베이스에 대한 지식도 추가적인 도움이 될 것입니다.
Hive 코스 강의 계획서
개요
👉 Less1에 | Hive 란 무엇입니까? - Archi강의 및 모드 |
👉 Less2에 | HIVE 다운로드 및 설치 — HIVE를 다운로드하고 설치하는 방법 Ubuntu |
👉 Less3에 | HIVE 메타스토어 구성 — 사용 이유 MySQL? |
👉 Less4에 | 하이브 데이터 유형 — Hive에서 데이터베이스 생성 및 삭제 |
고급 재료
👉 Less1에 | Hive 테이블 생성 — 유형 및 용도 |
👉 Less2에 | 하이브 파티션 및 버킷 — 예를 들어 배우기 |
👉 Less3에 | Hive 인덱스 및 뷰 — 예를 들어 배우기 |
👉 Less4에 | 하이브 쿼리 — 예를 들어 배우기 |
👉 Less5에 | Hive 조인 및 하위 쿼리 튜토리얼 — 예를 들어 배우기 |
👉 Less6에 | Hive 쿼리 언어 튜토리얼 — 내장 Opera토르 |
👉 Less7에 | 하이브 기능 — 내장 및 사용자 정의 기능 |
👉 Less8에 | 하이브 ETL — JSON, XML, 텍스트 데이터 예제 로드 |
하이브 소개
Hive는 Hadoop Map-Reduce 프레임워크를 기반으로 구축된 데이터 웨어하우징 솔루션으로 발전했습니다.
업계에서 수집 및 분석되는 데이터 세트의 규모 비즈니스 인텔리전스 데이터 웨어하우징 솔루션이 성장하고 있으며, 어떤 면에서는 이로 인해 기존 데이터 웨어하우징 솔루션의 비용이 더 높아지고 있습니다. 하둡 MapReduce 프레임워크를 사용하여 대용량 데이터 세트를 분석하기 위한 대체 솔루션으로 사용되고 있습니다. Hadoop은 대규모 데이터 세트 작업에 유용한 것으로 입증되었지만 MapReduce 프레임워크는 매우 낮은 수준이며 프로그래머는 유지 관리 및 재사용이 어려운 사용자 정의 프로그램을 작성해야 합니다. Hive는 프로그래머를 구출하기 위해 여기에 왔습니다.
하이브 엔진 이러한 쿼리를 Hadoop에서 실행될 Map-Reduce 작업으로 컴파일합니다. 또한 사용자 지정 Map-Reduce 스크립트도 쿼리에 플러그인할 수 있습니다. Hive는 기본 데이터 유형과 배열 및 맵과 같은 컬렉션 데이터 유형으로 구성된 테이블에 저장된 데이터에서 작동합니다.
Hive에는 테이블을 생성하고 쿼리를 실행하는 데 사용할 수 있는 명령줄 셸 인터페이스가 함께 제공됩니다.
Hive 쿼리 언어는 하위 쿼리를 지원하는 SQL과 유사합니다. Hive 쿼리 언어를 사용하면 Hive 테이블 전체에서 MapReduce 조인을 수행할 수 있습니다. 간단한 기능을 지원합니다. SQL과 유사한 함수– CONCAT, SUBSTR, ROUND 등 집계 함수– SUM, COUNT, MAX 등. GROUP BY 및 SORT BY 절도 지원합니다. Hive 쿼리 언어로 사용자 정의 함수를 작성하는 것도 가능합니다.
Hive 란 무엇입니까?
아파치 하이브 HDFS에 저장된 데이터를 쿼리하고 분석하기 위한 데이터 웨어하우스 프레임워크입니다. Hadoop을 기반으로 개발되었습니다. Hive는 Hadoop에서 대규모 데이터 세트를 분석하는 오픈 소스 소프트웨어입니다. 쿼리를 표현하기 위해 HiveQL이라는 SQL과 유사한 선언적 언어를 제공합니다. Hive-QL을 사용하면 다음과 관련된 사용자가 SQL 매우 쉽게 데이터 분석을 수행할 수 있습니다.
하이브 대 맵 축소
이 두 가지 옵션 중 하나를 선택하기 전에 해당 기능 중 일부를 살펴봐야 합니다.
Hive와 Map reduce 중에서 선택할 때 다음과 같은 요소를 고려합니다.
- 데이터 유형
- 데이터 양
- 코드의 복잡성
하이브 대 맵 축소?
특색 | 하이브 | 지도 축소 |
---|---|---|
지원하는 언어 | 상호 작용 및 데이터 모델링을 위해 쿼리 언어와 같은 SQL을 지원합니다. |
|
추상화 수준 | HDFS 위에 더 높은 수준의 추상화 | 낮은 수준의 추상화 |
코드 효율성 | Map Reduce보다 상대적으로 적음 | 높은 효율성 제공 |
코드의 범위 | Less 실행에 필요한 코드 라인 수 | 정의할 코드 라인 수가 더 많아졌습니다. |
필요한 개발 작업 유형 | Less 개발 작업 필요 | 더 많은 개발 작업이 필요함 |