Back to Question Center
0

সেমাল্ট ইসলামাবাদ বিশেষজ্ঞ ও - আপনি কি একটি ওয়েব ক্রলার সম্পর্কে জানতে প্রয়োজন

1 answers:

A সার্চ ইঞ্জিন ক্রলার একটি স্বয়ংক্রিয় অ্যাপ্লিকেশন, স্ক্রিপ্ট বা প্রোগ্রাম যা একটি নির্দিষ্ট অনুসন্ধান ইঞ্জিনের জন্য আপডেট করা তথ্য সরবরাহ করার জন্য একটি প্রোগ্রামেড পদ্ধতিতে ওয়ার্ল্ড ওয়াইড ওয়েবের উপরে যায়। আপনি কি কখনও বিস্ময়ের উদ্রেক কেন আপনি বিং বা Google একই কীওয়ার্ড টাইপ প্রতিটি সময় বিভিন্ন সেট ফলাফল পেতে? এটা কারণ প্রতি মিনিটে আপলোড হচ্ছে ওয়েব পেজ। এবং তারা আপলোড করা হচ্ছে ওয়েব ক্রলার নতুন ওয়েব পেজ উপর চালানো।

মাইকেল ব্রাউন, স্যামাল্ট এর একজন নেতৃস্থানীয় বিশেষজ্ঞ বলেছেন যে, ওয়েব ক্রলকারীরা স্বয়ংক্রিয় ইনডেক্সার এবং ওয়েব স্পাইডার নামেও পরিচিত, বিভিন্ন সার্চ ইঞ্জিনের বিভিন্ন আলগোরিদিমগুলিতে কাজ করে। ওয়েব ক্রলিংয়ের প্রক্রিয়াটি নতুন ইউআরএলগুলির শনাক্তকরণের সাথে শুরু হয় যা তাদের পরিদর্শন করা উচিত কারণ তারা তাদের আপলোড করা হয়েছে বা তাদের কিছু ওয়েব পেজে তাজা কন্টেন্ট রয়েছে এই চিহ্নিত ইউআরএল সার্চ ইঞ্জিন শব্দে বীজ হিসাবে পরিচিত হয়।

এই URLগুলি পরিশেষে পরিদর্শিত হয় এবং পুনরায় পরিদর্শিত হয় যে তাদের কাছে নতুন বিষয়বস্তু কত বার আপলোড করা হয় এবং নীতিমালা মাকড়সার পথ নির্দেশ করে তা নির্ভর করে। সফরের সময়, প্রতিটি ওয়েব পেজের সমস্ত হাইপারলিংক চিহ্নিত করা এবং তালিকাতে যুক্ত করা হয়। এই সময়ে, স্পষ্ট শর্তে এটি গুরুত্বপূর্ণ যে বিভিন্ন সার্চ ইঞ্জিন আলাদা আলগোরিদিম এবং নীতিগুলি ব্যবহার করে। এই কারণেই একই ফলাফলের জন্য Google এর ফলাফল এবং বিং ফলাফলগুলি থেকে পার্থক্য থাকবে, যদিও খুব সামান্যতা থাকবে।

সার্চ ইঞ্জিনগুলি আপ-টু-ডেটে রাখা ওয়েব ক্রলারগুলি অসাধারণ কাজ করে। প্রকৃতপক্ষে, তিনটি কারণের কারণে তাদের চাকরি খুব কঠিন।

1। প্রত্যেক নির্দিষ্ট সময়ে ইন্টারনেটের ওয়েব পেজগুলির আয়তন আপনি ওয়েব উপর কয়েক লক্ষ সাইট আছে জানি এবং আরো প্রতিদিন চালু করা হচ্ছে। নেটের ওয়েবসাইটে আরো বেশি ভলিউম, এটি ক্রলারদের জন্য আপ টু ডেট হওয়ার জন্য কঠিন।

2।.ওয়েবসাইট চালু করা যা গতি আপনার কি কোন ধারণা আছে কি প্রতিদিন নতুন ওয়েবসাইটগুলি চালু হয়?

3। যে ফ্রিকোয়েন্সিটি বর্তমান ওয়েবসাইটগুলিতেও পরিবর্তিত হয় এবং গতিশীল পৃষ্ঠাগুলি যোগ করা হয়।

এই তিনটি বিষয় যা ওয়েব স্পাইডারগুলি আপ টু ডেট হতে কঠিন করে তোলে। প্রথম-আসা-প্রথম-পরিসেবার ভিত্তিতে ক্রলিং ওয়েবসাইটের পরিবর্তে, অনেক ওয়েব স্পাইডার ওয়েব পেজ এবং হাইপারলিংকগুলি অগ্রাধিকার দেয়। অগ্রাধিকারীকরণের মাত্র 4 টি সাধারণ সার্চ ইঞ্জিন ক্রলার নীতিগুলি উপর ভিত্তি করে।

1। নির্বাচনের পলিসিটি প্রথমে ক্রল করার জন্য ডাউনলোড করা কোন পেজগুলি নির্বাচন করার জন্য ব্যবহৃত হয়।

2। সম্ভাব্য পরিবর্তনের জন্য কখন ও কত বার ওয়েব পেজগুলি পুনর্বিবেচনা করা হয় তা নির্ধারণের জন্য পুনরায় দর্শন নীতির প্রকার ব্যবহৃত হয়।

3। পার্ল্লাইজেশন নীতিটি সমস্ত বীজের দ্রুত কভারেজের জন্য ক্রলার কিভাবে বিতরণ করা হয় তা সমন্বয় করতে ব্যবহৃত হয়।

4। ওয়েবসাইটের ওভারলোডিং এড়ানোর জন্য URL গুলি কিভাবে ক্রল করা হয় তা নির্ধারণ করার জন্য নীতিগত নীতিটি ব্যবহার করা হয়।

বীজের দ্রুত এবং সঠিক কভারেজের জন্য, ক্রলারদের একটি দুর্দান্ত ক্রলিং টেকনিক থাকতে হবে যা অগ্রাধিকার এবং ওয়েব পেজগুলির সংকীর্ণতা দূর করে দেয় এবং তাদের অবশ্যই অত্যন্ত অপেক্ষিত আর্কিটেকচার থাকতে হবে। এই দুইটি তাদের কয়েক সপ্তাহের মধ্যে শত শত কোটি ওয়েব পেজ ক্রল এবং ডাউনলোড করতে সহজ করবে।

একটি আদর্শ অবস্থায়, প্রতিটি ওয়েব পেজটি ওয়ার্ল্ড ওয়াইড ওয়েব থেকে টানা হয় এবং একটি মাল্টি-থ্রেডেড ডাউনলোডারের মাধ্যমে নেওয়া হয়, যার পরে ওয়েব পেজ বা ইউআরএল তাদের অগ্রাধিকারের জন্য একটি ডেডিকেটেড শিডিউলারের মাধ্যমে পাস করার আগে সারিবদ্ধ হয়। অগ্রাধিকারের URLগুলি বহু-থ্রেডেড ডাউনলোডারের মাধ্যমে আবার গ্রহণ করা হয় যাতে তাদের মেটাডেটা এবং পাঠ্য সঠিক ক্রলিংয়ের জন্য সংরক্ষণ করা হয়।

বর্তমানে, বেশ কয়েকটি সার্চ ইঞ্জিন স্পাইডার বা ক্রলার রয়েছে। গুগল দ্বারা ব্যবহৃত এক গুগল ক্রলার। ওয়েব স্পাইডার ছাড়াই, সার্চ ইঞ্জিনের ফলাফলের পৃষ্ঠাটি শূন্য ফলাফল বা অপ্রচলিত বিষয়বস্তু ফিরে আসবে, যেহেতু নতুন ওয়েব পেজগুলি তালিকাভুক্ত হবে না। আসলে, অনলাইন গবেষণার মত কিছু থাকবে না।

November 29, 2017
সেমাল্ট ইসলামাবাদ বিশেষজ্ঞ ও ndash; আপনি কি একটি ওয়েব ক্রলার সম্পর্কে জানতে প্রয়োজন
Reply