AWS Glue مقابل Amazon EMR

ما هي المنصة المناسبة لك؟

AWS هي أكبر مزود لمراكز البيانات السحابية العامة والخاصة في العالم. كجزء من محفظة معالجة البيانات الضخمة، طورت AWS Glue وAmazon EMR. AWS Glue هي أداة استخراج وتحويل وتحميل (ETL) تساعد علماء البيانات على معالجة البيانات ونقلها عبر Amazon S3.

Amazon EMR، اختصارًا لـ Amazon Elastic MapReduce، عبارة عن منصة لمعالجة البيانات الضخمة وتدفقات البيانات في الوقت الفعلي والاستعلامات SQL والتعلم الآلي. يمكن استخدام EMR لتنفيذ وتوسيع نطاق مجموعات Apache Spark، من بين محركات البيانات الضخمة الأخرى.

على الرغم من أن كلتا الأداتين توفران إمكانيات معالجة ETL، فإن الأداة التي تختارها ستعتمد بشكل كبير على البنية الأساسية الحالية لديك. دعنا نستكشف AWS Glue مقابل EMR حتى تتمكن من تحديد ما إذا كان استخدام المنصتين بالتوازي أو اختيار إحداهما مناسبًا لشركتك.


ما هو AWS Glue Graphic

ما هو AWS Glue؟


AWS Glue هي خدمة تكامل بيانات بدون خادم متاحة على سحابة AWS. تهدف المنصة إلى مساعدة محللي البيانات في اكتشاف البيانات عبر مصادر متنوعة، وإعداد البيانات بتنسيقات ومخططات متعددة، ودمج مجموعات البيانات باستخدام تعيين البيانات. تعمل AWS Glue مع مجموعة من مخازن البيانات مثل قواعد البيانات وبحيرات البيانات ومصادر مستودعات البيانات.

يتم تقليل حاجز الدخول إلى سير عمل ETL بفضل الواجهات المرئية للمستخدمين غير الفنيين، إلى جانب واجهات قائمة على التعليمات البرمجية أكثر قوة للمستخدمين الفنيين. يتم تخزين جميع البيانات الوصفية لـ AWS Glue في كتالوج بيانات AWS Glue، مما يعني أنه يمكن لأي مستخدم العثور على مجموعات البيانات ذات الصلة والوصول إليها.


ما هو Amazon EMR؟


Amazon Elastic MapReduce (EMR) عبارة عن منصة بيانات ضخمة. وهي تدعم بث البيانات في الوقت الفعلي لأحمال عمل الذكاء الاصطناعي والتعلم الآلي عبر Apache Spark ومحركات التحليلات الأخرى. ويتم تمكين ذلك من خلال خطوط أنابيب البيانات القابلة للتطوير التي تستخرج البيانات من المصدر وتسلمها إلى الهدف. كما يمكن استخدام التحليلات التنبؤية والنماذج الإحصائية واسعة النطاق في EMR للمساعدة في الكشف عن الاتجاهات والارتباطات.

تتضمن مزايا EMR إمكانية التوسع على مستوى البيتابايت بنصف تكلفة النظام المحلي، ووقت أسرع يصل إلى ضعف الوقت اللازم للحصول على البيانات لأحمال العمل التحليلية. يمكن استخدام EMR Studio لبناء خطوط أنابيب البيانات، وتصور تدفق البيانات، وتنفيذ استعلامات SQL.

ما هو Amazon EMR Graphic

مقارنة بين AWS Glue وEMR


تتمتع كل من AWS Glue وEMR بالقدرة على تمكين عمليات ETL وسير العمل. ومع ذلك، هناك بعض الاختلافات الأساسية في طريقة عمل الخدمتين.

الخدمات بدون خوادم مقابل الخدمات المُدارة

AWS Glue عبارة عن منصة تكامل بيانات بدون خادم تتولى إدارة البنية الأساسية وخيارات التكوين والإعداد. ويمكنها العمل مع تنسيقات البيانات المنظمة وشبه المنظمة لاستنتاج مراجع المخططات تلقائيًا.

Amazon EMR عبارة عن خدمة مُدارة لتغطية البنى التحتية ذاتية التكوين، مثل مثيلات أو مجموعات Amazon EC2. كما تقدم EMR خيارًا مخصصًا بدون خادم. تدعم EMR مكونات نظام Apache Hadoop البيئي مثل Spark وHive وHBase وPresto، مع تخزين البيانات في Amazon Athena وAmazon Redshift وحلول تحليلات البيانات الضخمة الأخرى.

باختصار، تعد AWS Glue منصة ETL قابلة للتطوير وسهلة الإعداد والاستخدام. ومع ذلك، فإن سهولة استخدامها تأتي مع بعض القيود، مما يجعلها أكثر ملاءمة للوظائف ذات متطلبات البنية التحتية الأكثر مرونة. تتمتع Amazon EMR بمجموعة ميزات أكثر ثراءً، بما في ذلك توافق استضافة مكونات Hadoop ومكتبات التعلم الآلي TensorFlow واستعلامات Presto SQL. Glue مناسبة لتدفقات عمل ETL وتكامل البيانات الأكثر بساطة، في حين أن EMR عبارة عن منصة خدمة إدارة عمليات البيانات الأكثر شمولاً .

النفقات وتكاليف التشغيل والتسعير

كما هو الحال مع معظم الخدمات السحابية، كلما زادت الخدمات التي تقدمها لك، زادت تكلفتها. AWS Glue عبارة عن منصة بدون خادم، مما يعني أنه يمكنك تجاهل نشر البنية الأساسية وتكوينها للتركيز على سير عمل ETL.

يستفيد EMR من مصادر البيانات الموجودة لتسهيل استعلامات SQL وتدفق البيانات وعمليات ETL الأخرى. ويؤدي هذا إلى انخفاض التكاليف، حيث يقع عبء نشر البيانات وتكوينها على عاتقك. ويمكن تعويض هذه التكاليف المنخفضة من خلال دفع رواتب للموظفين لتكوين ونشر EMR، ونفقات التشغيل الإضافية لكل خدمة AWS مصاحبة.

بإمكانك مقارنة تكلفة كل خدمة لحالة الاستخدام المقصودة لديك باستخدام حاسبة تسعير AWS.

حدود الأداء

اعتبارًا من أبريل 2022، فإن أكبر نوع عامل في AWS Glue هو G.2X. ويأتي هذا مع حد أقصى يبلغ 32 جيجابايت من ذاكرة المنفذ، مما يعني أن فك ضغط الملفات المضغوطة للغاية قد يؤدي إلى أخطاء "نفاد الذاكرة". في حين يمكن لـ EMR استخدام أي نوع مثيل AWS، مما يسمح بتخصيصات ذاكرة وصول عشوائي أكبر بكثير تصل إلى 24 تيرا بايت (TiB).


حالات الاستخدام والسيناريوهات الخاصة بـ AWS Glue وEMR


بالنسبة لأولئك الذين يقومون بتخزين البيانات على نطاق واسع في السحابة، فمن المفيد استخدام محركات الحوسبة الموزعة وقواعد البيانات الأصلية في السحابة ومستودعات البيانات. Amazon EMR وAWS Glue هما خدمتان يمكن للمؤسسات استخدامهما لإنجاز هذه المهمة. دعنا نستكشف سيناريوهين آخرين حيث قد تكون وظائف Glue أو EMR أكثر ملاءمة لاستخدامها بشكل منفصل.

سير عمل بيانات جديد أو بيئة اختبار أو بيئة اختبار جديدة


إذا كنت تختبر سير عمل بيانات جديدًا تمامًا، فقد يكون AWS Glue خيارًا أفضل. فهو يسمح لك بتخطي تكوين البنية الأساسية ونشرها، وتنفيذ سير عمل البيانات ببساطة. وتؤدي طبيعة الدفع حسب الاستخدام (PAYG) في Glue إلى تقليل مخاطر إهدار الإنفاق.

إن تكوين مجموعة سجلات طبية إلكترونية لبيئات الاختبار وسير العمل لمرة واحدة من شأنه أن يزيد من الجهد المبذول مع القليل من الفائدة للشركة. والمشكلة الوحيدة هي توافق Glue مع مصدر البيانات. وعلى النقيض من ذلك، توفر سجلات طبية إلكترونية المزيد من المرونة في استخدام جميع أنواع مثيلات AWS.


معالجة البيانات الضخمة والتعلم الآلي


بالنسبة لمعالجة البيانات الضخمة أو أحمال العمل المتعلقة بالتعلم الآلي، قد يكون EMR خيارًا أفضل نظرًا لمرونته. فهو قادر على التعامل بشكل آمن وموثوق مع التعلم الآلي والتعلم العميق واستخراج البيانات وتحويلها وتحميلها وتحليلات البث في الوقت الفعلي.

يركز Glue بشكل أكبر على إجراءات الاستخراج والتحويل والتحميل (ETL). يمكنه تنفيذ تحويلات التعلم الآلي ولكنه يعاني من العديد من القيود فيما يتعلق بتحليلات البث في الوقت الفعلي بسبب نوافذ المعالجة والكتابة التي تستمر لمدة 100 ثانية. كما يعمل اكتشاف مخطط Glue على تعطيل إجراءات ربط البيانات المتدفقة، مع دعم تحويلات Glue المضمنة فقط أو تحويلات Apache Spark Structured Streaming.


ملخص مقارنة بين AWS Glue وEMR


AWS Glue وAmazon EMR منصتان متشابهتان تختلفان في بساطتهما ومرونتهما. AWS Glue هي طريقة سريعة ومنخفضة الجهد لتنفيذ مهام ETL في السحابة. EMR هو حل معالجة بيانات ضخمة أكثر قوة وغني بالميزات يتيح ETL جنبًا إلى جنب مع تدفق البيانات في الوقت الفعلي لأحمال عمل ML باستخدام البنية الأساسية الحالية. تأتي مرونة EMR مع عبء إداري، ولكنها غالبًا ما تؤدي إلى تكاليف أقل من Glue، وذلك بفضل تجنب الميزات الخالية من الخوادم.

في النهاية، يعد Amazon EMR مناسبًا لعمليات البيانات الصغيرة والكبيرة الحجم، في حين أن Glue أكثر تخصيصًا ومناسبًا للمهام الصغيرة. ومع ذلك، نظرًا لأنهما يخدمان أغراضًا مختلفة، فقد تجد نفسك تستخدم كلتا الأداتين - Glue للمهام المخصصة التي تريد إنجازها بسرعة وEMR لمهام معالجة البيانات الموزعة طويلة الأجل وكبيرة الحجم.

هل تريد أن تتعلم المزيد عن هجرة ETL؟

اكتشف كيف يقلل Trianz أوقات الترحيل من قواعد البيانات القديمة وأدوات ETL الحالية إلى AWS Glue بنسبة تصل إلى 50%.

تعرف على المزيد حول AWS Glue

تجربة الفرق مع Trianz

تعمل شركة Trianz على تمكين التحولات الرقمية من خلال استراتيجيات فعالة والتميز في التنفيذ. من خلال التعاون مع قادة الأعمال والتكنولوجيا، نساعد في صياغة وتنفيذ الاستراتيجيات التشغيلية لتحقيق النتائج التجارية المقصودة من خلال تقديم أفضل الاستشارات وتجارب التكنولوجيا ونماذج التنفيذ.

بفضل المعرفة والبحث والآراء، فإننا نمكن العملاء من تحويل أنظمتهم التجارية وتحقيق أداء متفوق من خلال الاستفادة من البنية الأساسية والسحابة والتحليلات والنماذج الرقمية والأمنية. تواصل معنا للتواصل معنا أو لمعرفة المزيد.

×

Get in Touch

Let us help you
transform and grow


By submitting your information, you agree to our revised  Privacy Statement.