معرفی Apache Nutch

Apache Nutch یک web crawler متن باز است که توسط جاوا نوشته شده است. با استفاده از آن ما قادر خواهیم بود لینکهای صفحات وب را پیدا کنیم. Nutch کار را برای ما بسیار ساده کرده است برای مثال چک کردن Linkهای ناقص یا بدو آدرس صفحه، درست کردن یک کپی از ویزیت تمام صفحاتی که آن را پیمایش می کند.در صورتی که اطلاعات به حد کافی باشد  می توان با استفاده از Nutch موتور جستجوگری در مقیاس کوچکتر از Google طراحی کرد، حتی با استفاده از Search Engine طراحی شده به لحاظ جستجو Rank صفحه برنامه ها را بالا برد.

Nutch گسترش پذیر و مقیاس پذیر است. Nutch ابزاری را برای Parsing ، ایندکس کردن، فیلترکردن Scoreها را بصورت سفارشی فراهم می آورد. این محصول Apache دارای یک ساختار بسیار سطح بالا می باشد که از Plugin API برای Parse کردن فایلهای مدیا ، آنالیز HTML ، بازیابی داده ها و کدها استفاده می کند.

ScoingFiltter یک کلاس از جاواست و مواقعی استفاده می شود که قصد تولید یک Apache Nutch Plugin را داشته باشیم. ما می توانیم Nutch را روی یک ماشین یا یک محیط توزیع شده مثل Hadoop اجرا کنیم.

هسته Nutch ازچهار بخش تشکیل شده است:

  • Searcher
  • Indexer
  • Fetcher
  • Database

ازApache nutch  مواقعی می توان سود برد که مقادیر زیادی داده داریم ونیاز است Cralwing داشته باشیم. استفاده از Nutch به تنهایی کارایی چندانی ندارد ولی در کنار یک تکنولوژی کارا مانند Solr می تواند قدرت این Web crawler را دوچندان کند. Solr یک فریم ورک متن باز است که قابلیت جستجوی متون را دارد . استفاده از Nutch  در کنار Hadoop و Java یا Python نیز می تواند ترکیب خوبی برای یک پروژه باشد.

Nutch درورژنهای مختلفی عرضه شده است  از قبیل Apache Nutch 1.X و Apache Nutch 2.x

تفاوت عمده بین 1.x و 2.x در نحوه وارد کردن دستورات می باشد . در ورژن 1.x برای عملیات Crawling ما مجبور بودیم دستورات را به صورت دستی و یکی یکی وارد کنیم ولی در ورژنهای بالاتر تولید کنندگان Nutch یک Crawling اسکریپت تولید کردند که فقط با اجرای آن تمام کار انجام می شد.

نیازمندیهای نصب:

  • Apache Nutch
  • HBase
  • Ant
  • JDK

نویسنده: جمال مکتوبیان 

از سرورهای ما برای اجرای پروژه های داده های کلان خود بدون اینکه درگیر پیچیدگی نصب شوید استفاده کنید. برای سفارش اینجا را کلیک کنید.
ما حتی می توانیم کلاستر و سرورهای هدوپ را برای شما ایجاد کنیم. برای درخواست راه اندازی اینجا را کلیک کنید.
اگر نیاز به مشاوره و یا کلاس آموزشی داشتید به اینجا مراجعه کنید.

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *