برنامج HBase التعليمي للمبتدئين: ما هو HBase؟ تعلم في 3 أيام!

ملخص البرنامج التعليمي HBase

Hbase هو نظام إدارة قواعد بيانات موجه للأعمدة يعمل على نظام HDFS (نظام الملفات الموزعة Hadoop). في هذا البرنامج التعليمي HBase للمبتدئين، ستتعلم أساسيات Apache HBase والمفاهيم المتقدمة. تحتوي دورة HBase هذه على جميع أساسيات HBase من المقدمة والتثبيت والهندسة المعمارية إلى الأشياء المتقدمة.

ما هو HBase؟

HBase هو نظام قاعدة بيانات موزعة مفتوحة المصدر وموجهة نحو الأعمدة في بيئة Hadoop البيئة. في البداية، كان Google Big Table، وبعد ذلك تمت إعادة تسميته إلى HBase وهو مكتوب بشكل أساسي في Java.  أباتشي هناك حاجة إلى HBase لتطبيقات البيانات الضخمة في الوقت الفعلي.

يمكن لـ HBase تخزين كميات هائلة من البيانات تتراوح من التيرابايت إلى البيتابايت. تتكون الجداول الموجودة في HBase من مليارات الصفوف التي تحتوي على ملايين الأعمدة. تم تصميم HBase للعمليات ذات زمن الوصول المنخفض، والتي تتمتع ببعض الميزات المحددة مقارنة بالنماذج العلائقية التقليدية.

منهج التدريب HBase

إليك ما نغطيه في دليل تدريب Apache HBase

؟؟؟؟ الدرس 1 Archiبنية HBase — هبيس Archiالتقنية والمكونات ونموذج البيانات
؟؟؟؟ الدرس 2 تركيب HBase - تثبيت HBase على Ubuntu
؟؟؟؟ الدرس 3 أوامر HBase Shell - تعلم مع المثال
؟؟؟؟ الدرس 4 HBase إنشاء جدول - خطوات إنشاء جدول في HBase باستخدام Java API
؟؟؟؟ الدرس 5 إدراج واسترجاع البيانات في HBase — الحصول على ()، وضع ()، مسح () أمثلة
؟؟؟؟ الدرس 6 اختناقات الأداء في HBase - ميزة HBase والقيود
؟؟؟؟ الدرس 7 أسئلة مقابلة Hbase - أفضل 30 أسئلة وأجوبة لمقابلة Hbase

ما الذي ستتعلمه في هذا البرنامج التعليمي لـ HBase للمبتدئين؟

في هذا البرنامج التعليمي HBase للمبتدئين، سوف تتعلم ما هو Apache HBase، و Archiهيكل HBase، وكيفية تثبيت HBase، وخطوات إنشاء جدول في HBase، ومزايا HBase والقيود، وما إلى ذلك.

لماذا تختار HBase؟

قد يتكون جدول لتطبيق ويب شائع من مليارات الصفوف. إذا أردنا البحث عن صف معين من مثل هذه الكمية الضخمة من البيانات، فإن HBase هو الخيار الأمثل لأن وقت جلب الاستعلام أقل. تستخدم معظم تطبيقات التحليلات عبر الإنترنت HBase.

تفشل نماذج البيانات العلائقية التقليدية في تلبية متطلبات الأداء لقواعد البيانات الكبيرة جدًا. يمكن التغلب على قيود الأداء والمعالجة هذه بواسطة Apache HBase.

ميزات Apache HBase

  • تم تصميم HBase للعمليات ذات زمن الوصول المنخفض
  • يتم استخدام HBase على نطاق واسع لعمليات القراءة والكتابة العشوائية
  • يقوم HBase بتخزين كمية كبيرة من البيانات في شكل جداول
  • يوفر إمكانية التوسع الخطي والوحدات النمطية عبر بيئة المجموعة
  • متسق تمامًا مع عمليات القراءة والكتابة
  • تجزئة الجداول التلقائية والقابلة للتكوين
  • يدعم تجاوز الفشل التلقائي بين خوادم المنطقة
  • فئات أساسية مريحة للدعم Hadoop MapReduce وظائف في جداول HBase
  • سهل الاستخدام Java API للوصول إلى العميل
  • حظر ذاكرة التخزين المؤقت وفلاتر بلوم للاستفسارات في الوقت الفعلي
  • يتم دفع مسند الاستعلام للأسفل عبر عوامل التصفية من جانب الخادم.

أهمية قواعد بيانات NoSQL في Hadoop

في تحليلات البيانات الكبيرة، Hadoop يلعب دورًا حيويًا في حل مشكلات الأعمال النموذجية من خلال إدارة مجموعات البيانات الكبيرة ويقدم أفضل الحلول في مجال التحليلات.

في نظام Hadoop البيئي، يلعب كل مكون دوره الفريد من نوعه

  • معالجة البيانات
  • تأكيد صحة البيانات
  • تخزين البيانات

فيما يتعلق بتخزين البيانات غير المنظمة وشبه المنظمة وكذلك استرجاع هذه البيانات، فإن قواعد البيانات العلائقية تكون أقل فائدة. كما أن جلب النتائج من خلال تطبيق الاستعلام على مجموعات البيانات الضخمة المخزنة في مخزن Hadoop يعد مهمة صعبة. توفر تقنيات تخزين NoSQL أفضل الحلول للاستعلام بشكل أسرع عن مجموعات البيانات الضخمة.

قواعد بيانات أخرى من نوع تخزين NoSQL

بعض نماذج NoSQL الموجودة في السوق هي Cassandra, MongoDBو CouchDB. كل من هذه النماذج لديها طرق مختلفة لآلية التخزين.

على سبيل المثال، MongoDB هي قاعدة بيانات موجهة نحو المستندات من شجرة عائلة NoSQL. بالمقارنة مع قواعد البيانات التقليدية، فهي توفر أفضل الميزات من حيث الأداء والتوافر وقابلية التوسع. إنها قاعدة بيانات مفتوحة المصدر وموجهة نحو المستندات، وهي مكتوبة C++.

Cassandra هي أيضًا قاعدة بيانات موزعة من برنامج Apache مفتوح المصدر مصمم للتعامل مع كمية هائلة من البيانات المخزنة عبر خوادم السلع. Cassandra يوفر توافرًا عاليًا دون أي نقطة فشل واحدة.

بينما CouchDB هي قاعدة بيانات موجهة نحو المستندات حيث يتم تخزين كل حقول المستند في خرائط القيمة الرئيسية.

كيف يختلف HBase عن نماذج NoSQL الأخرى

يختلف نموذج تخزين HBase عن نماذج NoSQL الأخرى التي تمت مناقشتها أعلاه. ويمكن ذكر ذلك على النحو التالي.

  • يقوم HBase بتخزين البيانات في شكل أزواج المفتاح/القيمة في نموذج عمودي. في هذا النموذج، يتم تجميع كافة الأعمدة معًا كعائلات أعمدة.
  • يوفر HBase نموذج بيانات مرنًا ووصولاً بزمن وصول منخفض إلى كميات صغيرة من البيانات المخزنة في مجموعات بيانات كبيرة.
  • سيعمل HBase الموجود أعلى Hadoop على زيادة الإنتاجية والأداء في مجموعة العناقيد الموزعة. وفي المقابل، يوفر عمليات قراءة وكتابة عشوائية أسرع.

أي قاعدة بيانات NoSQL تختار؟

MongoDB, CouchDBو Cassandra هي قواعد بيانات من نوع NoSQL تتميز بميزات محددة ويتم استخدامها وفقًا لاحتياجات أعمالهم. لقد قمنا هنا بإدراج قاعدة بيانات NoSQL مختلفة وفقًا لحالة استخدامها.

نوع قاعدة البيانات على أساس الميزة مثال لقاعدة البيانات حالة الاستخدام (متى يتم الاستخدام)
المفتاح/القيمة ريديس، ميمكاش دي بي التخزين المؤقت، وقائمة الانتظار، وتوزيع المعلومات
موجه نحو العمود Cassandra، هبيس التحجيم، والحفاظ على غير منظم، وغير متقلبة
المنحى المستند MongoDB، كوتشباس معلومات متداخلة, Javaنص صديق
على أساس الرسم البياني OrientDB, Neo4J التعامل مع المعلومات العلائقية المعقدة. النمذجة والتعامل مع التصنيف.

HBase مقابل. خلية نحل

المميزات HBase خلية النحل
نموذج قاعدة البيانات متجر عمود واسع نظام إدارة قواعد البيانات العلائقية
مخطط البيانات خالية من المخطط مع المخطط
دعم SQL لا نعم، يستخدم HQL (لغة استعلام الخلية)
طرق التقسيم عملية التجزئة عملية التجزئة
مستوى الاتساق الاتساق الفوري الاتساق في نهاية المطاف
المؤشرات الثانوية لا نعم
طرق النسخ عامل النسخ المتماثل القابل للتحديد عامل النسخ المتماثل القابل للتحديد

HBase مقابل. نظام إدارة قواعد البيانات الراديوية (RDBMS).

أثناء مقارنة HBase مع قواعد البيانات العلائقية التقليدية، علينا أن نأخذ ثلاثة مجالات رئيسية في الاعتبار. هذه هي نموذج البيانات، وتخزين البيانات، وتنوع البيانات.

HBASE RDBMS
  • مخطط أقل في قاعدة البيانات
  • وجود مخطط ثابت في قاعدة البيانات
  • قواعد البيانات العمودية
  • مخزن بيانات موجه نحو الصف
  • مصممة لتخزين البيانات غير الطبيعية
  • مصممة لتخزين البيانات المعدلة
  • الجداول واسعة وذات كثافة سكانية منخفضة موجودة في HBase
  • يحتوي على جداول رقيقة في قاعدة البيانات
  • يدعم التقسيم التلقائي
  • لا يوجد لديه دعم مدمج للتقسيم
  • مناسب تمامًا لأنظمة OLAP
  • مناسب تمامًا لأنظمة OLTP
  • قراءة البيانات ذات الصلة فقط من قاعدة البيانات
  • يمكنك استرداد صف واحد في كل مرة، ومن ثم يمكن قراءة البيانات غير الضرورية إذا كانت هناك حاجة إلى بعض البيانات الموجودة في الصف فقط
  • يمكن تخزين ومعالجة البيانات المنظمة وشبه الهيكلية باستخدام HBase
  • يمكن تخزين البيانات المنظمة ومعالجتها باستخدام RDBMS
  • تمكين التجميع على العديد من الصفوف والأعمدة
  • التجميع عملية مكلفة

الملخص

يوفر HBase ميزات فريدة وسيعمل على حل حالات الاستخدام الصناعي النموذجية. باعتباره تخزينًا موجهًا نحو الأعمدة، فهو يوفر استعلامًا سريعًا وجلب النتائج وكمية كبيرة من تخزين البيانات. هذه الدورة عبارة عن مقدمة كاملة خطوة بخطوة لـ HBase.