What is Robot.txt? – Hindi – Indian Computer Kida

What is robot.txt

What is robot.txt : robots.txt एक साधारण सा टेक्स्ट फ़ाइल होता है। इस फाइल का उपयोग वेब रोबोट (सर्च इंजन रोबोट) को निर्देश देने के लिए बनाया जाता है। एक वेबसाइट के पेजेस को सर्च इंजन रोबोट्स किस तरह से क्रॉल कर सकते है, इसके बारे में रूल्स robots.txt फाइल में लिखा जाता है। robots.txt फ़ाइल, Robot Exclusion Protocol (REP) का एक हिस्सा है, जो वेब मानकों का एक समूह है जो यह नियंत्रित करता है कि कैसे एक रोबोट वेबसाइट और इंडेक्स सामग्री को क्रॉल करते हैं, और उपयोगकर्ताओं तक उस सामग्री की सेवा पहुंचाते हैं। REP में मेटा रोबोट्स के साथ-साथ पेज, सब्डिरेक्टरी या साइट-वाइड निर्देश भी शामिल होते हैं कि कैसे खोज इंजनों को लिंक (जैसे “Follow” या “Nofollow”) का इलाज करना चाहिए। robots.txt फाइलें संकेत करती हैं कि क्या कुछ उपयोगकर्ता एजेंट (वेब-क्रॉलिंग सॉफ़्टवेयर) किसी वेबसाइट के कुछ हिस्सों को क्रॉल नहीं कर सकते हैं या नहीं कर सकते। ये क्रॉल निर्देश “कुछ” (या सभी) उपयोगकर्ता एजेंटों के व्यवहार को “अस्वीकार” या “अनुमति” द्वारा निर्दिष्ट किया जाता हैं। यह फाइल वर्डप्रेस बेस्ड वेबसाइट में भी आवश्यक होता है।

इसे भी पढ़े : What is SEO and why it is so important Hindi

Robot.txt फाइल कैसे बनाये ?

एक साथ, इन दो पंक्तियों को एक पूर्ण robots.txt फ़ाइल माना जाता है – हालांकि एक रोबोट फ़ाइल में उपयोगकर्ता एजेंटों और निर्देशों की कई पंक्तियाँ हो सकती हैं (उदा., disallows, allows, crawl-delays, etc.).

Basic format:

User-agent: [user-agent name]Disallow: [URL string not to be crawled]

Robots.txt फ़ाइल के भीतर, उपयोगकर्ता-एजेंट के निर्देशों का प्रत्येक सेट एक असतत सेट के रूप में दिखाई देता है, जिसे लाइन ब्रेक द्वारा अलग किया जाता है:

कई उपयोगकर्ता-एजेंट निर्देशों के साथ एक robots.txt फ़ाइल में, प्रत्येक अस्वीकृत या नियम केवल उस विशेष लाइन ब्रेक-अलग सेट में निर्दिष्ट उपयोगकर्ता (ओं) पर लागू होता है। यदि फ़ाइल में एक नियम है जो एक से अधिक उपयोगकर्ता-एजेंट पर लागू होता है, तो एक क्रॉलर निर्देशों के सबसे विशिष्ट समूह पर केवल (और निर्देशों का पालन करेगा) पर ध्यान देगा।

सभी Content से सभी वेब क्रॉलर को Bock करना

User-agent: * Disallow: /

Robots.txt फ़ाइल में इस सिंटैक्स का उपयोग करना सभी वेब क्रॉलरों को बताएगा कि मुखपृष्ठ सहित www.example.org पर किसी भी पेज को क्रॉल न करें।

सभी वेब क्रॉलरों को सभी सामग्री तक पहुंच प्रदान करना

User-agent: * allow:

robots.txt फ़ाइल में इस सिंटैक्स का उपयोग करना वेब क्रॉलर्स को होमपेज सहित www.example.org पर सभी पेज क्रॉल करने के लिए कहता है।

एक विशिष्ट फ़ोल्डर से एक विशिष्ट वेब क्रॉलर को कंटेंट एक्सेस करने से रोकना

User-agent: Googlebot Disallow: /example-subfolder/

यह सिंटैक्स केवल Google के क्रॉलर (उपयोगकर्ता-एजेंट का नाम Googlebot) को किसी ऐसे पृष्ठ को क्रॉल नहीं करने के लिए कहता है जिसमें URL स्ट्रिंग www.example.com/example-subfol … एक विशिष्ट वेब पेज से एक विशिष्ट वेब क्रॉलर है।

User-agent: Bingbot Disallow: /example-subfolder/this-is-blocked-page.html

यह सिंटैक्स केवल बिंग के क्रॉलर (उपयोगकर्ता-एजेंट का नाम बिंग) को www.example.com/example-subfol … पर विशिष्ट पृष्ठ क्रॉल करने से बचने के लिए कहता है।

खोज इंजन के दो मुख्य कार्य हैं:

सामग्री खोजने के लिए वेब क्रॉल करना;
उस सामग्री को अनुक्रमित करना ताकि उसे उन खोजकर्ताओं तक परोसा जा सके जो जानकारी की तलाश में हैं।

साइटों को क्रॉल करने के लिए, खोज इंजन एक साइट से दूसरी साइट पर जाने के लिए लिंक का अनुसरण करते हैं – अंततः, कई अरब लिंक और वेबसाइटों पर क्रॉल करते हैं। इस रेंगने वाले व्यवहार को कभी-कभी “स्पाइडरिंग” के रूप में जाना जाता है।

एक वेबसाइट पर पहुंचने के बाद लेकिन इसे spidering करने से पहले, खोज क्रॉलर एक robots.txt फ़ाइल की तलाश करेगा। यदि यह मिल जाता है, तो क्रॉलर पृष्ठ के माध्यम से जारी रखने से पहले पहले उस फ़ाइल को पढ़ेगा। क्योंकि robots.txt फ़ाइल में इस बारे में जानकारी होती है कि खोज इंजन को कैसे क्रॉल करना चाहिए, तो वहां मिली जानकारी इस विशेष साइट पर क्रॉलर कार्रवाई का निर्देश देगी। यदि robots.txt फ़ाइल में कोई निर्देश नहीं है जो उपयोगकर्ता-एजेंट की गतिविधि को बाधित करता है (या यदि साइट में robots.txt फ़ाइल नहीं है), तो यह साइट पर अन्य जानकारी को क्रॉल करने के लिए आगे बढ़ेगा।

इसे भी पढ़े : How to add Google Analytics to WordPress website

robots.txt के बारे में कुछ तथ्य –

robots.txt फ़ाइल को वेबसाइट के root directory में मौजूद होता है।
robots.txt केस संवेदी है यानि केस सेंसिटिव है। फ़ाइल का नाम “robots.txt” होना चाहिए (Robots.txt या robots.TXT नहीं )।
कुछ यूजर एजेंट (रोबोट) आपकी robots.txt फ़ाइल को अनदेखा करना चुन सकते हैं। यह विशेष रूप से अधिक सामान्य क्रॉलर जैसे मैलवेयर रोबोट या ईमेल एड्रेस स्क्रेपर्स के साथ आम है।
किसी भी वेबसाइट का robots.txt फ़ाइल सार्वजनिक रूप से उपलब्ध है, बस उस वेबसाइट के निर्देशों देखने के लिए किसी भी रूट डोमेन के अंत में /robots.txt जोड़ें। इसका मतलब है कि कोई भी यह देख सकता है कि आप कौन से पृष्ठ को क्रॉल करने से छुपा रहे है, इसलिए निजी उपयोगकर्ता जानकारी छिपाने के लिए उनका उपयोग न करें।
रूट डोमेन का प्रत्येक उप डोमेन अलग-अलग robots.txt फ़ाइलों का उपयोग करता है। इसका मतलब यह है कि blog.computerkida.in और computerkida.in दोनों के पास अपनी robots.txt फाइलें (blog.computerkida.in/robots.txt पर और computerkida.in/robots.txt पर) होनी चाहिए।

इसे भी पढ़े : What is Google Adsense? – Hindi

हमें robots.txt फाइल की आवश्यकता क्यों होती है?

robots.txt फाइल वेब क्रॉलर्स को नियंत्रित करता है। robot.txt फाइल का मुख्य कार्य वेब क्रॉलर्स को वेबसाइट का हिस्से को एक्सेस करने से रोकने के लिए किया जाता है। यदि आप गलती से Googlebot को disallow करते है तो इससे आपके वेब पेजेस इंडेक्स नहीं हो पाएंगे और इससे आपका नुकसान होगा। यदि आपके वेबसाइट में सर्च रोबोट्स से छुपाने के लिए कोई कंटेंट नहीं है, तो आपको robots.txt फाइल का उपयोग करने की कोई आवश्यकता नहीं है। robots.txt फाइल का उपयोग निचे दिए चीजों के लिए किया जाता है।

आपके वेबसाइट के डुप्लीकेट डेटा/कंटेंट को सर्च रिजल्ट्स में दिखने से रोखने के लिए robot.txt फाइल का उपयोग करते है।
आपके वेबसाइट के किसी एक सम्पूर्ण हिस्से को छुपाने के लिए। उदा आपका Staging Website .
आपके वेबसाइट में उपलब्ध डाउनलोडेबल फाइल्स को इंडेक्स होने से बचाने के लिए robot.txt फाइल का उपयोग किया जाता है। जैसे PDF file, वीडियो फाइल आदि।
आपके वेबसाइट के sitemap का लोकेशन को बताने के लिए।
जब क्रॉलर एक साथ सम्पूर्ण वेबसाइट के कंटेंट क्रॉल करता हैं, तो आपके सर्वर को ओवरलोड होने से बचाने के लिए क्रॉल विलंब/डिले उल्लेखित कर सकरते है।

इसे भी पढ़े : What is Web Hosting – Hindi

Comment (1)

What is SEO and how it works? - Hindi - Indian Computer Kida

[…] कोई भी वेब पेज को Google अपने सर्च रिजल्ट में रैंक करने के लिए 200 से अधिक रैंकिंग कारकों/Factors का उपयोग करता है। किसी को नहीं पता कि ये सभी रैंकिंग कारक क्या हैं, लेकिन हम उनमें से कुछ फैक्टर्स को जानते हैं। यह ध्यान रहे की Google Web Pages को रैंक करता है ना की वेबसाइट को। इसे भी पढ़े : What is Robot.txt? – Hindi […]

August 12, 2022 at 6:51 pm

Log in to Reply

Leave your thought here Cancel reply

You must be logged in to post a comment.

Blog

What is Robot.txt? – Hindi