Back to Question Center
0

মিমল্ট: দারোয়ান রোবটস টেষ্টকে কীভাবে ব্লক করবেন

1 answers:

Robots.txt ফাইল একটি সাধারণ পাঠ্য ফাইল যা ওয়েব ক্রলার বা বটগুলি কোনও সাইটকে ক্রল করে তা নির্দেশ করে। তাদের অ্যাপ্লিকেশনটি স্পষ্ট সার্চ ইঞ্জিন বট যা অনেকগুলি অপ্টিমাইজ করা ওয়েবসাইটগুলিতে সাধারণ। রোবটস এক্সেকিউশন প্রোটোকল (আরপিপি) অংশ হিসাবে, robots.txt ফাইল ওয়েবসাইটের সূচী সূচনার একটি অপরিহার্য দিক হিসেবে সার্ভারকে সেই অনুসারে ব্যবহারকারীর অনুরোধ প্রমাণীকরণ সক্ষম করে।

জুলিয়া ভাশেভা, (1২) সেমল্ট সিনিয়র কাস্টমার সফল ম্যানেজার, ব্যাখ্যা করে যে লিঙ্কিং সার্চ ইঞ্জিন অপ্টিমাইজেশান (এসইও) এর একটি দিক, যা আপনার কৌতুকের মধ্যে অন্য ডোমেনগুলি থেকে ট্রাফিক পেতে চাচ্ছে। লিঙ্কে জুস স্থানান্তর করার জন্য "ফলো" লিঙ্কগুলির জন্য, সার্ভারটি আপনার সাইটের সাথে ইন্টারঅ্যাক্ট করে কিভাবে একজন প্রশিক্ষক হিসাবে কাজ করার জন্য আপনার ওয়েবসাইটের হোস্টিং স্থানটিতে robots.txt ফাইলটি অন্তর্ভুক্ত করা অপরিহার্য। এই আর্কাইভ থেকে, কিছু নির্দিষ্ট ব্যবহারকারী এজেন্ট আচরণ কিভাবে অনুমতি বা মঞ্জুরি দ্বারা নির্দেশাবলী উপস্থিত হয়।

একটি robots.txt ফাইলের বেসিক বিন্যাস

একটি robots.txt ফাইল দুটি অপরিহার্য লাইন রয়েছে:

ব্যবহারকারী-এজেন্ট: [ব্যবহারকারী-এজেন্টের নাম]

অনুমোদন করুন: [URL স্ট্রিংটি ক্রল করা হবে না]

একটি সম্পূর্ণ robots.txt ফাইল এই দুই লাইন থাকা উচিত। যাইহোক, তাদের মধ্যে কয়েকটি ব্যবহারকারী এজেন্ট এবং নির্দেশাবলী একাধিক লাইন থাকতে পারে। এই কমান্ডগুলি যেমন, মঞ্জুরি দেয়, অনুমোদন দেয় বা ক্রল-বিলম্বগুলি করে থাকতে পারে। সাধারণত একটি লাইন বিরতি হয় যা নির্দেশের প্রতিটি সেটকে পৃথক করে। প্রতিটি লাইন বিভাজক দ্বারা বিশেষ করে robots.txt- র জন্য একাধিক লাইন দিয়ে

অনুমতি বা অনুমোদন দেওয়া হয়।

উদাহরণ

উদাহরণস্বরূপ, একটি robots.txt ফাইল যেমন কোড থাকতে পারে:

ব্যবহারকারী-এজেন্ট: দারদার

অনুমোদন করুন: / প্লাগইন

অনুমোদন করুন: / API

অনুমোদন করুন: / _comments

এই ক্ষেত্রে, এটি একটি ব্লক robots.txt ফাইল দারদর ওয়েব ক্রলারকে আপনার ওয়েবসাইট অ্যাক্সেস থেকে সীমাবদ্ধ করে। উপরে সিনট্যাক্সে, কোড প্লাগইন, এপিআই এবং মন্তব্য বিভাগের মত ওয়েবসাইটের দিকগুলি ব্লক করে। এই জ্ঞান থেকে, কার্যকরভাবে একটি রোবট এর টেক্সট ফাইল নির্বাহ থেকে অনেক বেনিফিট অর্জন করা সম্ভব। রোবট।.txt ফাইল অনেক ফাংশন সঞ্চালন করতে সক্ষম হতে পারে। উদাহরণস্বরূপ, তারা প্রস্তুত হতে পারে:

1। সমস্ত ওয়েব ক্রলার সামগ্রীকে একটি ওয়েবসাইট পৃষ্ঠাতে অনুমতি দিন উদাহরণস্বরূপ;

ব্যবহারকারী-এজেন্ট: *

নামঞ্জুর করুন:

এই ক্ষেত্রে, কোনও ওয়েব ক্রলার দ্বারা কোনও ওয়েবসাইট পেতে অনুরোধ করা সমস্ত ব্যবহারকারী সামগ্রী অ্যাক্সেস করা যায়।

2। একটি নির্দিষ্ট ফোল্ডার থেকে একটি নির্দিষ্ট ওয়েব সামগ্রী অবরুদ্ধ করুন। উদাহরণস্বরূপ;

ব্যবহারকারী-এজেন্ট: Googlebot

অনুমতি দেবেন না: / example-subfolder /

এই সিনট্যাক্সটি ব্যবহারকারী-এজেন্টের নাম Googlebot Google এর অন্তর্গত। এটি বট স্ট্রিং www.ourexample.com/example-subfolder/.10 এ যেকোনো ওয়েবপৃষ্ঠা অ্যাক্সেস করতে বাধা দেয়।

3। একটি নির্দিষ্ট ওয়েব পৃষ্ঠা থেকে একটি নির্দিষ্ট ওয়েব ক্রলার অবরোধ। উদাহরণস্বরূপ;

ব্যবহারকারী-এজেন্ট: Bingbot

অনুমতি দেবেন না: /example-subfolder/blocked-page.html

ব্যবহারকারী-এজেন্ট বিং বিট বিং ওয়েব ক্রলারগুলির অন্তর্গত। এই ধরনের robots.txt ফাইলটি বিং ওয়েব ক্রলারকে একটি নির্দিষ্ট পৃষ্ঠাটি www.ourexample.com/example-subfolder/blocked-page.10) দিয়ে অ্যাক্সেস করতে বাধা দেয়।

গুরুত্বপূর্ণ তথ্য

  • প্রতিটি ব্যবহারকারী আপনার robts.txt ফাইল ব্যবহার করে না। কিছু ব্যবহারকারী এটি উপেক্ষা করতে পারে। এই ধরনের ওয়েব ক্রলারগুলির মধ্যে বেশিরভাগ ট্রোজান এবং ম্যালওয়্যার রয়েছে।
  • দৃশ্যমান হওয়ার জন্য একটি Robots.txt ফাইলের জন্য, এটি শীর্ষ-স্তরের ওয়েবসাইট ডিরেক্টরিতে পাওয়া উচিত।
  • অক্ষর "robots.txt" ক্ষেত্রে সংবেদনশীল হয়। ফলস্বরূপ, কিছু দিকের মূলধনসহ তাদের কোনও পরিবর্তন করা উচিত নয়।
  • "/robots.txt" সার্বজনীন ডোমেন। যে কোনও URL এর বিষয়বস্তুতে এটি যোগ করার সময় যে কেউ এই তথ্যটি খুঁজে পেতে সক্ষম হতে পারে। আপনার প্রয়োজনীয় অপরিহার্য বিশদ বা পৃষ্ঠাগুলিকে আপনি তাদের ব্যক্তিগত রাখতে চান না।
November 29, 2017
মিমল্ট: দারোয়ান রোবটস টেষ্টকে কীভাবে ব্লক করবেন
Reply