HBase oktatóanyag kezdőknek: Mi az a HBase? Tanulj 3 nap alatt!

HBase oktatóanyag összefoglalója

A Hbase egy oszloporientált adatbázis-kezelő rendszer, amely a HDFS (Hadoop Distributed File System) tetején fut. Ebben a kezdőknek szóló HBase oktatóanyagban megtanulhatja az Apache HBase alapjait és haladó fogalmait. Ez a HBase kurzus tartalmazza az összes HBase alapismeretet a bevezetéstől a telepítésen, az architektúrán át a haladó dolgokig.

Mi az a HBase?

A HBase egy nyílt forráskódú, oszloporientált elosztott adatbázisrendszer a Hadoop környezet. Kezdetben a Google Big Table volt, később; átnevezték HBase-re, és elsősorban be van írva Java.  Apache A HBase a valós idejű Big Data alkalmazásokhoz szükséges.

A HBase hatalmas mennyiségű adatot képes tárolni terabájttól petabájtig. A HBase-ben található táblák sorok milliárdjaiból állnak, és több millió oszlopot tartalmaznak. A HBase alacsony késleltetésű műveletekhez készült, amely a hagyományos relációs modellekhez képest néhány sajátos tulajdonsággal rendelkezik.

HBase képzési tematika

Ez az Apache HBase képzési útmutató

👍 LessA 1 Archia HBase tectúrája — HBase Architecture, komponensek és adatmodell
👍 LessA 2 HBase telepítés — A HBase telepítés bekapcsolva Ubuntu
👍 LessA 3 HBase Shell parancsok — Tanulj példával
👍 LessA 4 HBase táblázat létrehozása — A táblázat létrehozásának lépései a HBase segítségével Java API
👍 LessA 5 Adatok beszúrása és visszakeresése a HBase-ben — get(), put(), scan() Példák
👍 LessA 6 A teljesítmény szűk keresztmetszete a HBase-ben — A HBase előnyei és korlátai
👍 LessA 7 Hbase interjúkérdések — A 30 legjobb Hbase interjúkérdés és válasz

Mit fog tanulni ebből a HBase kezdőknek szóló oktatóanyagból?

Ebből a HBase kezdőknek szóló oktatóanyagból megtudhatja, mi az Apache HBase, a ArchiA HBase tecture, Hogyan telepítsük a HBase-t, Lépések egy táblázat létrehozásához a HBase-ben, HBase előnyei és korlátozásai stb.

Miért válassza a HBase-t?

Egy népszerű webalkalmazás táblázata több milliárd sorból állhat. Ha ilyen hatalmas mennyiségű adatból szeretnénk egy adott sorban keresni, a HBase az ideális választás, mivel a lekérdezés lekérési ideje rövidebb. A legtöbb online elemző alkalmazás a HBase-t használja.

A hagyományos relációs adatmodellek nem felelnek meg a nagyon nagy adatbázisok teljesítménykövetelményeinek. Ezeket a teljesítmény- és feldolgozási korlátokat az Apache HBase leküzdheti.

Apache HBase szolgáltatásai

  • A HBase alacsony késleltetésű műveletekhez készült
  • A HBase-t széles körben használják véletlenszerű olvasási és írási műveletekhez
  • A HBase nagy mennyiségű adatot tárol táblázatok formájában
  • Lineáris és moduláris skálázhatóságot biztosít fürtkörnyezetben
  • Szigorúan konzisztens az olvasási és írási műveletekhez
  • A táblázatok automatikus és konfigurálható felosztása
  • Automatikus feladatátvételi támogatás a régiókiszolgálók között
  • Kényelmes alaposztályok alátámasztáshoz Hadoop MapReduce feladatok a HBase táblákban
  • Könnyen használható Java API az ügyfél eléréséhez
  • Blokkolja a gyorsítótárat és a Bloom-szűrőket a valós idejű lekérdezésekhez
  • A lekérdezés predikátuma szerveroldali szűrőkön keresztül tolódik le.

A NoSQL-adatbázisok jelentősége a Hadoopban

A nagy adatelemzésben Hadoop létfontosságú szerepet játszik a tipikus üzleti problémák megoldásában nagy adathalmazok kezelésével, és a legjobb megoldásokat kínálja az analitika területén.

A Hadoop ökoszisztémában minden komponens egyedi szerepet tölt be a

  • Adatfeldolgozás
  • Az adatok ellenőrzése
  • Adattárolás

A strukturálatlan, félig strukturált adattárolás, valamint az ilyen adatok visszakeresése szempontjából a relációs adatbázisok kevésbé hasznosak. Ezenkívül kihívást jelent az eredmények lekérése a Hadoop tárhelyen tárolt hatalmas adathalmazokra történő lekérdezéssel. A NoSQL tárolási technológiák nyújtják a legjobb megoldást a hatalmas adatkészletek gyorsabb lekérdezéséhez.

Egyéb NoSQL tárolótípus Adatbázisok

A piacon jelenlévő NoSQL modellek közül néhány ilyen Cassandra, MongoDBés CouchDB. Mindegyik modellnek különböző tárolási módjai vannak.

Például, MongoDB egy dokumentum-orientált adatbázis a NoSQL családfából. A hagyományos adatbázisokhoz képest a legjobb szolgáltatásokat nyújtja a teljesítmény, a rendelkezésre állás és a méretezhetőség tekintetében. Ez egy nyílt forráskódú dokumentum-orientált adatbázis, és be van írva C++.

Cassandra Ez is egy elosztott adatbázis a nyílt forráskódú Apache szoftverből, amelyet arra terveztek, hogy hatalmas mennyiségű adatot kezeljen áruszervereken. Cassandra magas rendelkezésre állást biztosít egyetlen hibapont nélkül.

Míg CouchDB egy dokumentum-orientált adatbázis, amelyben minden dokumentummező kulcsérték-leképezésben van tárolva.

Miben különbözik a HBase a többi NoSQL-modelltől

A HBase tárolási modell eltér a fent tárgyalt többi NoSQL-modelltől. Ez a következőképpen fogalmazható meg.

  • A HBase kulcs/érték párok formájában tárolja az adatokat egy oszlopos modellben. Ebben a modellben az összes oszlop oszlopcsaládként van csoportosítva.
  • A HBase rugalmas adatmodellt és alacsony késleltetésű hozzáférést biztosít a nagy adatkészletekben tárolt kis mennyiségű adathoz.
  • A Hadoop tetején lévő HBase növeli az elosztott fürtbeállítás átviteli sebességét és teljesítményét. Viszont gyorsabb véletlenszerű olvasási és írási műveleteket biztosít.

Melyik NoSQL adatbázist válasszam?

MongoDB, CouchDBés Cassandra olyan NoSQL típusú adatbázisok, amelyek szolgáltatásspecifikusak és üzleti igényeiknek megfelelően használják. Itt felsoroltuk a különböző NoSQL-adatbázisokat a használati esetüknek megfelelően.

Adatbázis típusa szolgáltatás alapján Példa az adatbázisra Használati eset (mikor érdemes használni)
Kulcs érték Redis, MemcacheDB Gyorsítótárazás, sorban állás, információk terjesztése
Oszlop-orientált Cassandra, HBase Méretezés, strukturálatlan, nem illékony
Dokumentum-orientált MongoDB, Couchbase Beágyazott információ, JavaSzkriptbarát
Grafikon alapú OrientDB, Neo4J Összetett relációs információk kezelése. Modellezés és kezelés osztályozás.

HBase vs. Kaptár

Jellemzők HBase Kaptár
Adatbázis modell Széles oszlopos üzlet Relációs DBMS
Adatséma Sémamentes Sémával
SQL támogatás Nem Igen, HQL-t használ (Hive lekérdezési nyelv)
Partíciós módszerek Szilánkos Szilánkos
Konzisztencia szint Azonnali konzisztencia Végső következetesség
Másodlagos indexek Nem Igen
Replikációs módszerek Választható replikációs tényező Választható replikációs tényező

HBase vs. RDBMS

A HBase és a Traditional Relational adatbázisok összehasonlítása során három kulcsfontosságú területet kell figyelembe vennünk. Ezek az adatmodell, az adattárolás és az adatdiverzitás.

HBASE RDBMS
  • Sémamentes az adatbázisban
  • Rögzített séma az adatbázisban
  • Oszloporientált adatbázisok
  • Sororientált adattár
  • Denormalizált adatok tárolására tervezték
  • Normalizált adatok tárolására tervezték
  • Széles és ritkán lakott asztalok jelennek meg a HBase-ben
  • Vékony táblákat tartalmaz az adatbázisban
  • Támogatja az automatikus particionálást
  • Nincs beépített támogatása a particionáláshoz
  • Jól használható OLAP rendszerekhez
  • Jól használható OLTP rendszerekhez
  • Csak a releváns adatokat olvassa el az adatbázisból
  • Egyszerre egy sor lekérése, és így szükségtelen adatok olvashatók ki, ha csak néhány adatra van szükség egy sorban
  • Strukturált és félig strukturált adatok tárolhatók és feldolgozhatók a HBase segítségével
  • A strukturált adatok RDBMS-sel tárolhatók és feldolgozhatók
  • Lehetővé teszi a sok sor és oszlop összesítését
  • Az összesítés költséges művelet

Összegzésként

A HBase egyedi funkciókat kínál, és megoldja a tipikus ipari felhasználási eseteket. Oszloporientált tárolóként gyors lekérdezést, eredmények lekérést és nagy mennyiségű adattárolást biztosít. Ez a kurzus egy teljes lépésről lépésre bemutatja a HBase-t.