هدوپ چیست؟

در ابتدا بهتر است که بدانیم هدوپ چه چیزی نیست:

  • هدوپ پایگاه داده نیست.
  • هدوپ یک نرم افزار نیست.

هدوپ توسط Doug Cutting سازنده Apache Lucene که بصورت گسترده برای عمیات جستجوی متن ها استفاده می شود ،  تولید شد. در حقیقت به وجود آمدن هدوپ از کار بر روی Nutch شروع شد. Apache Nutch یک فریم ورک متن باز برای ایجاد موتور جستجو است که بصورت گسترده ، عملیات جستجوی متن ها را به روشی که خزیدن یا Crawling نام گرفت انجام می دهد.
در خصوص نامگذاری نام هدوپ(HADOOP) باید گفت که مخفف عبارت خاصی نیست، این نامی است که پسر Doug برروی عروسک فیل خود که زرد رنگ بود گذاشته بود.
برای شروع ،  Doug و همکارش Mike ایده ساختن یک موتور جستجوگر وب را در سر داشتند اما این تنها چالش آنها نبود ، قیمت سخت افزار یک موتور جستجوگر که 1 میلیون صفحه وب را جستجو و ایندکس می کند در حدود 500000  دلار بود با این وجود آنها باور داشتند که این پروژه یک هدف ارزشمند است.
Nutch در سال 2002 شروع به کار کرد و در همان زمان عملیات و روشهای جستجوی صفحات وب به سرعت رشد کرد. طی زمانی معماران پروژه دریافتند که این پروژه قابلیت و توانایی کار کردن با میلیونها صفحه وب را ندارد ، در همان برهه در سال 2003 مقاله ای از شرکت گوگل منتشر شد که توانست راهگشای مشکل آنها باشد و معماری(Google File system) GFS را توصیف می کرد. 
GFS توانست مشکل ذخیره سازی داده های عظیم را حل کند علاوه بر آن مدیریت ذخیره سازی نودها دیگر چالشی بود که در معماریهای قبلی بود و با استفاده از این روش آن مشکل نیز برطرف شد. در سال 2004 تیم Nutch توانست نسخه متن باز خود را با نام Nutch Distributed filesystem(NDFS) منتشر کنند. در سال 2004 گوگل با مقاله ای MapReduce را به جهان معرفی کرد، خیلی زود در سال 2005 برنامه نویسان Nutch شروع به کار با (MR)MapReduce کردند و تا اواسط همان سال Nutch نسخه جدید خود را که با NDFS و MR کار می کرد به جهان معرفی کرد. بعد از چندی معماران Nutch دریافتند که عملکرد آن فراتر از فقط یک موتور جستجوگر است و در فوریه 2006 آنها از پروژه Nutch که خود زیر پروژه Lucine به حساب می آمد به سمت پروژه ای آمدند که آن را Hadoop (هدوپ) نامیدند. در تقریبا همان سال Doug به Yahoo پیوست تا با استفاده از یک تیم مستقل هدوپ را آزمایش و پیاده سازی کند.
در سال 2008 شرکت یاهو ،  موتور جستجویی را معرفی کرد که توسط 10000 کلاستر هدوپ عملیات جستجو را انجام می داد. در همان سال و در ماه ژانویه هدوپ در بالاترین سطح پروژه های Apache قرار گرفت در آن زمان دیگر تنها Yahoo تنها استفاده کننده این محصول نبود، شرکتهایی نظیر Last.fm ، Facebook و نیویورک تایمز نیز شروع به فعالیت در این حوزه کرده بودند.
در همان سال New York Times تعداد زیادی از روزنامه های خود را که در قسمت آرشیو وجود داشت اسکن کرد که حجم آن نزدیک به 4 ترابایت داده می شد و سپس با استفاده از پردازش ابری EC2 آمازون و با استفاده از 100 ماشین در کمتر از 24 ساعت پردازش خود را به پایان برساند.
در April سال 2008 هدوپ رکورد جهان را شکست و سریعترین سیستمی شد که توانست 1 ترابایت داده را ظرف 202 ثانیه و با استفاده از 910 نود کلاستر پردازش کند. این رکورد در سال قبل با 297 ثانیه ثبت شده بود. در November همان سال گوگل طی گزارشی اعلام کرد که این رکورد را به 68 ثانیه ارتقاء داده است. در April 2009  یاهو اعلام کرد با استفاده از هدوپ توانسته 1 ترابایت داده را ظرف 62 ثانیه پردازش کند. و بالاخره در سال 2014 یک تیم از شرکت DataBricks اعلام کرد که توانسته با استفاده از 207 نود کلاستر اسپارک حدود 100 ترابایت داده را ظرف 1406 ثانیه که تقریبا 4.27 ترابایت در دقیقه می شود پردازش کند.
امروزه هدوپ بصورت وسیعی و در زمینه های بسیاری از فعالیتهای دانشگاهی تا تجارت ، از علوم تا نجوم مورد استفاده قرار می گیرد . هدوپ مکانی امن برای ذخیره و تحلیل داده های کلان بشمار می رود ، مقیاس پذیر، توسعه پذیر و متن باز است . هدوپ هدف اصلی کمپانی های بزرگ تولید و ذخیره داده هاست از جمله Facebook ، IBM ، EMC ، Oracle و Microsoft است.
از کمپانیهای متخصص در زمینه سرویس های هدوپ می توان به MapR ،  Cloudera و HortonWorks اشاره کرد.  

به طور خلاصه ، هدوپ یک فریم ورک یا مجموعه ای از نرم افزارها و کتابخانه هایی است که ساز و کار پردازش حجم عظیمی از داده های توزیع شده را فراهم میکند. در واقع Hadoop را می توان به یک سیستم عامل تشبیه کرد که طراحی شده تا بتواند حجم زیادی از داده ها را بر روی ماشین های مختلف پردازش و مدیریت کند. فریم ورک هدوپ شامل زیر پروژه های مختلفی می شود که در زیر لیست کامل آنها آمده است:

  • HDFS
  • YARN
  • MapReduce
  • Ambari
  • Avro
  • Cassandra
  • Chukwa
  • HBase
  • Hive
  • Mahout
  • Pig
  • Spark
  • Tez
  • ZooKeeper

 

از سرورهای ما برای اجرای پروژه های داده های کلان خود بدون اینکه درگیر پیچیدگی نصب شوید استفاده کنید. برای سفارش اینجا را کلیک کنید.
ما حتی می توانیم کلاستر و سرورهای هدوپ را برای شما ایجاد کنیم. برای درخواست راه اندازی اینجا را کلیک کنید.
اگر نیاز به مشاوره و یا کلاس آموزشی داشتید به اینجا مراجعه کنید.

لیست نظرات

  1. با سلام و عرض احترام

     

    دوست عزیز بنده تازه وارد هستم و دارم در باره این فریم ورک تحقیق می کنم

    ای کاش نوع استفاده زیر شاخه های این فریم ورک رو توضیح میدادید یا یک منبع جهت تحقیق علاقمندان قرار می دادید

    با سپاس فراوان جهت راه اندازی و قراردادن اطلاعات توسط این وب سایت

    ارادتمند

  2. با سلام و تشکر

    در سال 2008 شرکت یاهو ،  موتور جستجویی را معرفی کرد که توسط 10000 کلاستر هدوپ عملیات جستجو را انجام می داد. 

     منظور استفاده از 10000 سرور همزمان بوده؟

  3. با سلام

    بنده میخوام برای نمونه یک کد خیلی ساده در حد حمع دو ماتریس را با این سیستم راه اندازی کنم. برای شروع چه فایل هایی نیاز دارم؟ آیا روی سیستم خودم میتوانم تنظیم کنم که اجرا شود؟

    با تشکر

    • شرکت مهندسی تکنولوژی فرافکر

      باید با یکی از زبان های برنامه نویسی مثل جاوا و پایتون آشنایی داشته باشید. پس از دریافت فایل های کتابخانه موردنیاز می بایست شروع به نوشتن برنامه خود کنید. برروی سیستم خودتان قابل اجرا است ولی نتیجه قابل توجهی مانند زمان اجرای کمتر و … حاصل نمی شود. هدوپ یک فریم ورک توزیع شده است و برروی یک سیستم بازدهی مناسبی نخواهد داشت. فایل های کتابخانه زیر را برای برنامه نویسی به زبان جاوا برای هدوپ نیاز دارید:

      Hadoop-common.jar

      Hadoop-client-core.jar

      Hadoop-client-jobclient.jar

  4. سلام
    من کد kmeans رو میخواستم روی هادوپ پیاده سازی کنم ، اما نمیدونم error این کد مرتبط با چیه ،کجا میتونم کد رو براتون بفرستم ؟؟

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *