نصب Apache Spark بر روی Windows

Capture

آپاچی اسپارک یک موتور پردازشی  سبک و در عین حال قدرتمند است که برای عملیات پردازشی برروی داده های کلان بسیار مناسب می باشد. ما در این مقاله قصد داریم آپاچی اسپارک را برروی سیستم عامل ویندوز نصب و پیکربندی کنیم.

شما در ابتدا نیاز دارید که پکیج های مورد نظر برای این عملیات را در لینک هایی که اشاره می شود دانلود کنید :

  • اگر شما با برنامه نوبسی Python  آشنایی دارید می توانید از نسخه 2.6 به بالای آن را نصب کنید وگرنه این مرحله از مراحل انتخابی است و شما می توانید به جای آن از زبان Scala استفاده کنید.
  • نسخه Spark binary که برای Hadoop استفاده می شود را دانلود کنید. شما می توانید از  نسخه 1.2.1 Spark  و پکیج دوباره ساخته شده  Hadoop 2.3 استفاده کنید . لینک دانلود (مزیت استفاده از نسخه های دوباره ساخته شده یا Re-Build این است که دیگر نیازی نیست خود را به دردسر انداخته و بعد از دانلود آنها را از ایتدا    Build کنیم )
  • وقتی که دانلود شد می توانید آنها را به درایو دیگری مثلا D برده و توسط نرم افزار WinRar آنها را Unzip کنید.
  • Winutils.exe را دانلود کنید و آن را به درایو D برده و نصب کنید.

 

تنظیم مسیر متغیرها بر روی Windows Environment :

این مرحله بسیار حساس و مهم است و اگر مسیر متعیرها بصورت مناسب Set نشود شما قادر نخواهید بود Spark Shell را استارت کنید. اکنون چگونه می توان به مسیر متغیرها داد :

  • بر روی My Computer کلیک راست کنید
  • از پنجره باز شده Change Setting را انتخاب کنید
  • بر روی تب Advanced رفته و بر روی Environment Variables کلیک کنید
  • شما مشاهده می کنید که پنجره باز شده به دو قسمت تقسیم می شده است ، در قسمت بالا User Variables و در قسمت پائین System Variables . ما قصد داریم دو System Variable جدید بسازیم پس بر روی دکمه New در قسمت system Variables  کلیک می کنیم.
  • داخل قسمت Variable Name  "JAVA_HOME" را Type  می کنیم و سپس قسمت Variable Value را با " C:\Program Files\Java\jdk1.7.0_79\ " پر می کنیم (البته بدون Double Quote) و در ادامه روی Ok کلیک می کنیم
  • همین کار را برای " HADOOP_HOME "  و “C:\winutils”
  • و همچنین “PYTHON_PATH” و "C:\Python27\"  
  • و “SPARK_HOME” و " C:\SPARK\BIN " انجام می دهیم

نکته : نصب Apache Maven انتخابی می باشد : من در اینجا به این نکته اشاره کنم که علاقمندانی که قصد دارند با R  کار کنند باید Apache Maven را همراه پکیج های قبلی نصب کنند . و مانند موارد قبلی در محیط  Environment Variable به سیستم اضافه شوند.

در انتها ما باید این variable های JAVA_HOME, PYTHON_PATH, HADOOP_HOME & SPARK_HOME را به Path Variable اضافه کنیم .

%JAVA_HOME%\BIN; %PYTHON_PATH%; %HADOOP_HOME%; %SPARK_HOME%; %M2_HOME%\BIN %MAVEN_HOME%\BIN 

در ادامه بر روی Ok  کلیک کنید و پنجره Environment Variable را ببندید

شروع Apache Spark  بر روی Windows  :

  • Command prompt  را باز کنید
  • به درایو نصب اسپارک بروید (در مثال ما درایو D)
  • پوشه bin را باز کنید
  • spark-shell را تایپ و Enter  را فشار دهید.

2       3

بعد از مشاهده Shell اسپارک می توانید Web Browser  خود را باز کنید و با وارد کردن IP کامپیوتر خود و port شماره 4040  می توانید Spark shell application UI را مشاهده کنید.

4

نویسنده: جمال مکتوبیان

از سرورهای ما برای اجرای پروژه های داده های کلان خود بدون اینکه درگیر پیچیدگی نصب شوید استفاده کنید. برای سفارش اینجا را کلیک کنید.
ما حتی می توانیم کلاستر و سرورهای هدوپ را برای شما ایجاد کنیم. برای درخواست راه اندازی اینجا را کلیک کنید.
اگر نیاز به مشاوره و یا کلاس آموزشی داشتید به اینجا مراجعه کنید.

لیست نظرات

  1. سلام

    ممنون از مطالب مفیدتون. فقط برای کامپایل برنامه های اسپارک در ویندوز به

    sbt یا maven  نیاز نداریم؟

    اگر نیاز داریم چطوری به این مجموعه اضافه کنیم؟

    پیشاپیش سپاسگذارم.

    • شرکت مهندسی تکنولوژی فرافکر

      نیازی به اضافه کردن به صورت دستی نیست. در خود بسته اسپارک که دانلود میکنید SBT قرار دارد.

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *