AWS ialah penyedia pusat data awan awam dan swasta terbesar di dunia. Sebagai sebahagian daripada portfolio pemprosesan data besarnya, AWS telah membangunkan Glue dan Amazon EMR. AWS Glue ialah alat ekstrak, ubah, muat (ETL) yang membantu saintis data memanipulasi dan memindahkan data melalui Amazon S3.
Amazon EMR, singkatan untuk Amazon Elastic MapReduce, ialah pemprosesan data yang besar, strim data masa nyata, pertanyaan SQL dan platform pembelajaran mesin. EMR boleh digunakan untuk melaksanakan dan meningkatkan kluster Apache Spark, antara enjin data besar yang lain.
Walaupun kedua-dua alat menyediakan keupayaan pemprosesan ETL, yang mana satu yang anda pilih akan sangat bergantung pada infrastruktur semasa anda. Biar kami meneroka AWS Glue lwn. EMR supaya anda boleh memutuskan sama ada menggunakan kedua-dua platform secara selari atau memilih satu sesuai untuk perniagaan anda.
AWS Glue ialah perkhidmatan penyepaduan data tanpa pelayan yang tersedia pada awan AWS. Platform ini bertujuan untuk membantu penganalisis data menemui data merentas pelbagai sumber, menyediakan data ke dalam pelbagai format dan skema serta menggabungkan set data menggunakan pemetaan data. AWS Glue berfungsi dengan pelbagai stor data seperti pangkalan data, tasik data dan sumber gudang data.
Halangan kemasukan ke aliran kerja ETL diturunkan terima kasih kepada antara muka yang divisualisasikan untuk pengguna bukan teknikal, di samping antara muka berasaskan kod yang lebih berkuasa untuk pengguna teknikal. Semua metadata untuk AWS Glue disimpan dalam Katalog Data AWS Glue, bermakna mana-mana pengguna boleh mencari dan mengakses set data yang berkaitan.
Amazon Elastic MapReduce (EMR) ialah platform data yang besar. Ia menyokong penstriman data masa nyata untuk kecerdasan buatan dan beban kerja pembelajaran mesin melalui Apache Spark dan enjin analitik lain. Ini didayakan oleh saluran paip data berskala yang mengekstrak data daripada sumber dan menghantarnya ke sasaran. Analitis ramalan dan model statistik berskala besar dalam EMR juga boleh digunakan untuk membantu mendedahkan arah aliran dan korelasi.
Faedah EMR termasuk kebolehskalaan peringkat petabyte pada separuh kos di premis dan sehingga dua kali lebih pantas masa-ke-cerapan untuk beban kerja analitik. EMR Studio boleh digunakan untuk membina saluran paip data, menggambarkan aliran data dan melaksanakan pertanyaan SQL.
AWS Glue dan EMR kedua-duanya mampu mendayakan proses dan aliran kerja ETL. Walau bagaimanapun, terdapat beberapa perbezaan asas dalam cara kedua-dua perkhidmatan beroperasi.
AWS Glue ialah platform penyepaduan data tanpa pelayan yang mengendalikan infrastruktur, pilihan konfigurasi dan persediaan. Ia boleh berfungsi dengan format data berstruktur dan separa berstruktur untuk membuat kesimpulan rujukan skema secara automatik.
Amazon EMR ialah tindanan perkhidmatan terurus untuk infrastruktur yang dikonfigurasikan sendiri, seperti contoh atau kelompok Amazon EC2. EMR juga menawarkan pilihan tanpa pelayan khusus. EMR menyokong komponen ekosistem Apache Hadoop seperti Spark, Hive, HBase dan Presto, dengan penyimpanan data dalam Amazon Athena, Amazon Redshift dan penyelesaian analitik data besar yang lain.
Ringkasnya, AWS Glue ialah platform ETL berskala yang mudah untuk disediakan dan digunakan. Walau bagaimanapun, kemudahan penggunaannya disertakan dengan pengehadan, menjadikannya lebih sesuai untuk pekerjaan dengan keperluan infrastruktur yang lebih fleksibel. Amazon EMR mempunyai set ciri yang lebih kaya, termasuk keserasian pengehosan komponen Hadoop, perpustakaan pembelajaran mesin TensorFlow dan pertanyaan SQL Presto. Gam sesuai dengan aliran kerja ETL dan penyepaduan data yang lebih ringkas, manakala EMR ialah platform perkhidmatan terurus operasi data yang lebih komprehensif .
Seperti kebanyakan perkhidmatan awan, semakin banyak yang ia lakukan untuk anda di luar kotak, semakin mahal harganya. AWS Glue ialah platform tanpa pelayan, bermakna anda boleh mengabaikan penggunaan infrastruktur dan konfigurasi untuk memfokuskan pada aliran kerja ETL.
EMR memanfaatkan sumber data sedia ada untuk memudahkan pertanyaan SQL, penstriman data dan proses ETL lain. Ini menyebabkan kos yang lebih rendah, kerana penggunaan data dan beban konfigurasi adalah milik anda. Kos yang lebih rendah ini mungkin diimbangi dengan membayar pekerja untuk mengkonfigurasi dan menggunakan EMR, dan perbelanjaan operasi tambahan untuk setiap perkhidmatan AWS yang disertakan.
Anda boleh membandingkan kos setiap perkhidmatan untuk kes penggunaan yang dimaksudkan dengan Kalkulator Harga AWS.
Sehingga April 2022, jenis pekerja terbesar AWS Glue ialah G.2X. Ini disertakan dengan had atas 32GB memori pelaksana, bermakna menyahzip fail yang sangat dimampatkan boleh membawa kepada ralat "kehabisan memori". Manakala EMR boleh menggunakan mana-mana jenis contoh AWS, membenarkan peruntukan RAM yang lebih besar sehingga 24 Tebibait (TiB).
Bagi mereka yang menyimpan data pada skala besar dalam awan, adalah berfaedah untuk menggunakan enjin pengkomputeran teragih, pangkalan data asli awan dan gudang data. Amazon EMR dan AWS Glue ialah dua organisasi perkhidmatan yang boleh digunakan untuk mencapai matlamat ini. Mari terokai dua lagi senario di mana kerja Glue atau EMR mungkin lebih sesuai untuk digunakan secara berasingan.
Jika anda sedang menguji aliran kerja data serba baharu, AWS Glue mungkin merupakan pilihan yang lebih baik. Ia membolehkan anda melangkau konfigurasi dan penggunaan infrastruktur, dan hanya melaksanakan aliran kerja data. Sifat pay-as-you-go (PAYG) Glue membawa kepada sedikit risiko perbelanjaan terbuang.
Mengkonfigurasi kelompok EMR untuk persekitaran ujian dan aliran kerja sekali sahaja akan meningkatkan usaha dengan sedikit manfaat kepada perniagaan. Satu-satunya isu ialah keserasian Gam dengan sumber data. Sebaliknya, EMR menawarkan lebih banyak fleksibiliti menggunakan semua jenis tika AWS.
Untuk pemprosesan data besar atau beban kerja pembelajaran mesin, EMR mungkin merupakan pilihan yang lebih baik kerana fleksibilitinya. Ia boleh mengendalikan pembelajaran mesin, pembelajaran mendalam, ETL data dan analisis penstriman masa nyata dengan selamat dan boleh dipercayai.
Gam lebih tertumpu pada tindakan mengekstrak, mengubah dan memuatkan (ETL). Ia boleh melaksanakan transformasi pembelajaran mesin tetapi mempunyai banyak batasan untuk analitis penstriman masa nyata disebabkan oleh pemprosesan dan penulisan tetingkap yang berlangsung selama 100 saat. Pengesanan Skema Gam juga melumpuhkan tindakan gabungan data penstriman, dengan hanya transformasi Glue terbina dalam atau transformasi Penstriman Berstruktur Apache Spark yang disokong.
AWS Glue dan Amazon EMR ialah platform serupa yang dibezakan oleh kesederhanaan dan fleksibilitinya. AWS Glue ialah cara cepat dan rendah untuk melaksanakan kerja ETL dalam awan. EMR ialah penyelesaian pemprosesan data besar yang lebih teguh dan kaya dengan ciri yang membolehkan ETL bersama-sama penstriman data masa nyata untuk beban kerja ML menggunakan infrastruktur sedia ada. Fleksibiliti EMR datang dengan beban pengurusan, tetapi selalunya menghasilkan perbelanjaan yang lebih rendah daripada Glue, berkat mengelakkan ciri tanpa pelayan.
Akhirnya, Amazon EMR sesuai untuk operasi data berskala kecil dan besar, manakala Glue adalah lebih ad-hoc dan sesuai untuk kerja kelompok kecil. Walau bagaimanapun, memandangkan ia mempunyai tujuan yang berbeza, anda mungkin mendapati diri anda menggunakan kedua-dua alatan — Gam untuk tugas ad-hoc yang anda mahu lakukan dengan cepat dan EMR untuk kerja pemprosesan data teragih jangka panjang dan besar-besaran.
Ingin mengetahui lebih lanjut tentang migrasi ETL?
Ketahui cara Trianz mengurangkan masa migrasi daripada pangkalan data lama dan alatan ETL sedia ada kepada AWS Glue sehingga 50%.