آیا آپاچی اسپارک باعث مرگ هدوپ خواهد شد؟

این موضوع یکی از داغ ترین موضوعات مورد بحث در حوزه کلان داده است و افراد زیادی به دنبال جواب آن هستند. بسیاری از آن‌ها همواره اسپارک و هدوپ را با هم مقایسه می‌کنند و یا به دنبال برتری هرکدام هستند.
مدت‌ها پیش این سؤال ذهن من را هم به خود مشغول کرده بود. پیش از اینکه خود به تشریح پاسخ این پرسش بپردازم میخواهم پاسخی که شاون اون(Sean Owen) مسئول تحقیقات علوم داده شرکت Cloudera به سؤال من داد را در اینجا نقل قول کنم. این سؤال را من در سایت کورا(Quora) که یکی از بزرگ‌ترین پلتفرم های پرسش و پاسخ کوتاه است مطرح کردم. در کورا می‌توانید بدون هیچ توضیحاتی سؤال خود را از دیگران بپرسید برخلاف سایت Stackoverflow که سؤال هایتان می بایست از کیفیت خاصی برخوردار باشد. اخیراً پرسش من به یکی از پربیننده ترین سؤالات سایت کورا بدل شد(بالغ بر ۴۰ هزار بازدید). متوجه شدم این سؤال در‌واقع موضوع بسیاری از افراد فعال در این حوزه است.

پرسش من این بود که «آیا هدوپ مرده است و زمان آن رسیده تا به اسپارک کوچ کنیم؟»

پاسخی که شاون اون به آن داد قابل توجه بود:

او گفت: «این پرسش مانند این است که بپرسیم آیا لینوکس مرده است و ما باید به داکر(Docker) کوچ کنیم و یا چیزی شبیه به این. لینوکس در‌واقع مجموعه‌ زیادی از تکنولوژی های مرتبط به هم است. این سؤال را معمولاً افرادی می‌پرسند که منظورشان از هدوپ فقط MapReduce است. در این صورت جواب بله خواهد بود. ما می بایست اسپارک را جایگزینی برای MapReduce و احتمالاً پروژه های دیگر بدانیم(MLlib را جایگزینی برای Pig و ماهوت کلاسیک، GraphX را جایگزینی برای Giraph).
اسپارک به تنهایی دارای سیستم ذخیره سازی نیست. به این معنی که شما می بایست آنرا به ابزارهای دیگر مانند HDFS و HBase و یا حتی Amazon S3 متصل کنید تا بتوانید با آن کار کنید. اسپارک به تنهایی هیچ مدلی برای ایجاد امنیت ندارد و احتیاج است که آنرا با مکانیزم های امنیتی که در YARN موجود است مثل Kerberos متصل کنیم. همچنین اسپارک هیچ پایگاه داده NoSQL ای مثل Hbase و Cassandra و هیچ محیط کار با دستورات SQL ای مثل Drill و Impala ندارد. اگر شما به هرکدام از این‌ها نیاز داشتید،جواب خیر است و شما نمی‌توانید هدوپ را با اسپارک جایگزین و یا مقایسه کنید.»

نتیجه اینکه هدوپ و اسپارک دو ابزار با تعاریف متفاوت هستند.  مقایسه این ۲ ابزار با هم نه تنها از منظر تخصصی بلکه از نظر اعتبار استدلال منطقی،حکم قیاس مع‌الفارق را دارد زیرا که دو طرف مقایسه می بایست شباهت کاملی با هم داشته باشند.

نویسنده: مبین رنجبر

از سرورهای ما برای اجرای پروژه های داده های کلان خود بدون اینکه درگیر پیچیدگی نصب شوید استفاده کنید. برای سفارش اینجا را کلیک کنید.
ما حتی می توانیم کلاستر و سرورهای هدوپ را برای شما ایجاد کنیم. برای درخواست راه اندازی اینجا را کلیک کنید.
اگر نیاز به مشاوره و یا کلاس آموزشی داشتید به اینجا مراجعه کنید.

لیست نظرات

  1. سلام دوست عزیز اول از همه تشکر می کنم به خاطر زحمت هایی که برای این سایت کشیدی و میکشی ولی به نظرم لازم هستش که چند تا موضوع رو یادآوری کنم. 

    اول اینکه خوب میشه اگر یک اطلاعاتی در مورد خود اسپارک و ماژولهایی که داره داشته باشیم تا در این مورد صحبت کنیم. بله اکوسیستم هدوپ هنوز هم به درد می خوره و همونطوری که گفته شد باید باشه و اسپارک بهش نیاز داره ولی آیا به نظر شما با وجود یک ابزاری به نام

    spark sql 

    در اسپارک لزومی رو برای استفاده از دریل ایجاد می کنه؟ بهتره که با این ابزاری که گفتم بیشتر آشنا بشید و شاید هم یک سری مطلب در موردش توی سایتتون بزارید. 

    نکته ی دیگه ای که وجود داره اینه که درون اسپارک یک سری اینترفیس های ارتباطی با پایگاه داده های غیر رابطه ای وجود داره. مثلا برای 

    hbase, cassandra , ….

    کافی هستش که وجود این ابزارها که توی هدوپ هم ایجاد شده رو در کنار این موضوع که شما یک سیستم همگون در اسپارک دارید که همه رو در کنار هم داره نه مثل هدوپ که هر چیزی کم داشت بعدا تحت عنوان های مختلف به صورت ابزارهایی بهش الحاق کردن قرار بدید خواهید دید که این ابزارها خیلی خیلی بهتر و به صرفه تر هستن از جهت یادگیری و استفاده. 

    تا جایی از متن بالایی که نوشته بودید مشکلی نداشتم اما آخرهای مطلبی که نوشته بودید به نظرم صحیح نبود. بهتره که به جای نقل قول از یک نفر جمع بندی خودتون رو از چند منبع بنویسید و یا اینکه حداقل نظر چند نفر که استخون ترکوندن رو بیارید و نه باز یک نفر رو. 

    باز هم به خاطر زحماتتون تشکر می کنم. 

    موفق و سلامت باشید. 

    خدانگهدار 🙂

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *