What is Robot.txt? – Hindi
What is robot.txt
What is robot.txt : robots.txt एक साधारण सा टेक्स्ट फ़ाइल होता है। इस फाइल का उपयोग वेब रोबोट (सर्च इंजन रोबोट) को निर्देश देने के लिए बनाया जाता है। एक वेबसाइट के पेजेस को सर्च इंजन रोबोट्स किस तरह से क्रॉल कर सकते है, इसके बारे में रूल्स robots.txt फाइल में लिखा जाता है। robots.txt फ़ाइल, Robot Exclusion Protocol (REP) का एक हिस्सा है, जो वेब मानकों का एक समूह है जो यह नियंत्रित करता है कि कैसे एक रोबोट वेबसाइट और इंडेक्स सामग्री को क्रॉल करते हैं, और उपयोगकर्ताओं तक उस सामग्री की सेवा पहुंचाते हैं। REP में मेटा रोबोट्स के साथ-साथ पेज, सब्डिरेक्टरी या साइट-वाइड निर्देश भी शामिल होते हैं कि कैसे खोज इंजनों को लिंक (जैसे “Follow” या “Nofollow”) का इलाज करना चाहिए। robots.txt फाइलें संकेत करती हैं कि क्या कुछ उपयोगकर्ता एजेंट (वेब-क्रॉलिंग सॉफ़्टवेयर) किसी वेबसाइट के कुछ हिस्सों को क्रॉल नहीं कर सकते हैं या नहीं कर सकते। ये क्रॉल निर्देश “कुछ” (या सभी) उपयोगकर्ता एजेंटों के व्यवहार को “अस्वीकार” या “अनुमति” द्वारा निर्दिष्ट किया जाता हैं। यह फाइल वर्डप्रेस बेस्ड वेबसाइट में भी आवश्यक होता है।
इसे भी पढ़े : What is SEO and why it is so important Hindi
Robot.txt फाइल कैसे बनाये ?
एक साथ, इन दो पंक्तियों को एक पूर्ण robots.txt फ़ाइल माना जाता है – हालांकि एक रोबोट फ़ाइल में उपयोगकर्ता एजेंटों और निर्देशों की कई पंक्तियाँ हो सकती हैं (उदा., disallows, allows, crawl-delays, etc.).
Basic format:
User-agent: [user-agent name]Disallow: [URL string not to be crawled]
Robots.txt फ़ाइल के भीतर, उपयोगकर्ता-एजेंट के निर्देशों का प्रत्येक सेट एक असतत सेट के रूप में दिखाई देता है, जिसे लाइन ब्रेक द्वारा अलग किया जाता है:
कई उपयोगकर्ता-एजेंट निर्देशों के साथ एक robots.txt फ़ाइल में, प्रत्येक अस्वीकृत या नियम केवल उस विशेष लाइन ब्रेक-अलग सेट में निर्दिष्ट उपयोगकर्ता (ओं) पर लागू होता है। यदि फ़ाइल में एक नियम है जो एक से अधिक उपयोगकर्ता-एजेंट पर लागू होता है, तो एक क्रॉलर निर्देशों के सबसे विशिष्ट समूह पर केवल (और निर्देशों का पालन करेगा) पर ध्यान देगा।
सभी Content से सभी वेब क्रॉलर को Bock करना
User-agent: * Disallow: /
Robots.txt फ़ाइल में इस सिंटैक्स का उपयोग करना सभी वेब क्रॉलरों को बताएगा कि मुखपृष्ठ सहित www.example.org पर किसी भी पेज को क्रॉल न करें।
सभी वेब क्रॉलरों को सभी सामग्री तक पहुंच प्रदान करना
User-agent: * allow:
robots.txt फ़ाइल में इस सिंटैक्स का उपयोग करना वेब क्रॉलर्स को होमपेज सहित www.example.org पर सभी पेज क्रॉल करने के लिए कहता है।
एक विशिष्ट फ़ोल्डर से एक विशिष्ट वेब क्रॉलर को कंटेंट एक्सेस करने से रोकना
User-agent: Googlebot Disallow: /example-subfolder/
यह सिंटैक्स केवल Google के क्रॉलर (उपयोगकर्ता-एजेंट का नाम Googlebot) को किसी ऐसे पृष्ठ को क्रॉल नहीं करने के लिए कहता है जिसमें URL स्ट्रिंग www.example.com/example-subfol … एक विशिष्ट वेब पेज से एक विशिष्ट वेब क्रॉलर है।
User-agent: Bingbot Disallow: /example-subfolder/this-is-blocked-page.html
यह सिंटैक्स केवल बिंग के क्रॉलर (उपयोगकर्ता-एजेंट का नाम बिंग) को www.example.com/example-subfol … पर विशिष्ट पृष्ठ क्रॉल करने से बचने के लिए कहता है।
खोज इंजन के दो मुख्य कार्य हैं:
- सामग्री खोजने के लिए वेब क्रॉल करना;
- उस सामग्री को अनुक्रमित करना ताकि उसे उन खोजकर्ताओं तक परोसा जा सके जो जानकारी की तलाश में हैं।
साइटों को क्रॉल करने के लिए, खोज इंजन एक साइट से दूसरी साइट पर जाने के लिए लिंक का अनुसरण करते हैं – अंततः, कई अरब लिंक और वेबसाइटों पर क्रॉल करते हैं। इस रेंगने वाले व्यवहार को कभी-कभी “स्पाइडरिंग” के रूप में जाना जाता है।
एक वेबसाइट पर पहुंचने के बाद लेकिन इसे spidering करने से पहले, खोज क्रॉलर एक robots.txt फ़ाइल की तलाश करेगा। यदि यह मिल जाता है, तो क्रॉलर पृष्ठ के माध्यम से जारी रखने से पहले पहले उस फ़ाइल को पढ़ेगा। क्योंकि robots.txt फ़ाइल में इस बारे में जानकारी होती है कि खोज इंजन को कैसे क्रॉल करना चाहिए, तो वहां मिली जानकारी इस विशेष साइट पर क्रॉलर कार्रवाई का निर्देश देगी। यदि robots.txt फ़ाइल में कोई निर्देश नहीं है जो उपयोगकर्ता-एजेंट की गतिविधि को बाधित करता है (या यदि साइट में robots.txt फ़ाइल नहीं है), तो यह साइट पर अन्य जानकारी को क्रॉल करने के लिए आगे बढ़ेगा।
इसे भी पढ़े : How to add Google Analytics to WordPress website
robots.txt के बारे में कुछ तथ्य –
- robots.txt फ़ाइल को वेबसाइट के root directory में मौजूद होता है।
- robots.txt केस संवेदी है यानि केस सेंसिटिव है। फ़ाइल का नाम “robots.txt” होना चाहिए (Robots.txt या robots.TXT नहीं )।
- कुछ यूजर एजेंट (रोबोट) आपकी robots.txt फ़ाइल को अनदेखा करना चुन सकते हैं। यह विशेष रूप से अधिक सामान्य क्रॉलर जैसे मैलवेयर रोबोट या ईमेल एड्रेस स्क्रेपर्स के साथ आम है।
- किसी भी वेबसाइट का robots.txt फ़ाइल सार्वजनिक रूप से उपलब्ध है, बस उस वेबसाइट के निर्देशों देखने के लिए किसी भी रूट डोमेन के अंत में /robots.txt जोड़ें। इसका मतलब है कि कोई भी यह देख सकता है कि आप कौन से पृष्ठ को क्रॉल करने से छुपा रहे है, इसलिए निजी उपयोगकर्ता जानकारी छिपाने के लिए उनका उपयोग न करें।
- रूट डोमेन का प्रत्येक उप डोमेन अलग-अलग robots.txt फ़ाइलों का उपयोग करता है। इसका मतलब यह है कि blog.computerkida.in और computerkida.in दोनों के पास अपनी robots.txt फाइलें (blog.computerkida.in/robots.txt पर और computerkida.in/robots.txt पर) होनी चाहिए।
इसे भी पढ़े : What is Google Adsense? – Hindi
हमें robots.txt फाइल की आवश्यकता क्यों होती है?
robots.txt फाइल वेब क्रॉलर्स को नियंत्रित करता है। robot.txt फाइल का मुख्य कार्य वेब क्रॉलर्स को वेबसाइट का हिस्से को एक्सेस करने से रोकने के लिए किया जाता है। यदि आप गलती से Googlebot को disallow करते है तो इससे आपके वेब पेजेस इंडेक्स नहीं हो पाएंगे और इससे आपका नुकसान होगा। यदि आपके वेबसाइट में सर्च रोबोट्स से छुपाने के लिए कोई कंटेंट नहीं है, तो आपको robots.txt फाइल का उपयोग करने की कोई आवश्यकता नहीं है। robots.txt फाइल का उपयोग निचे दिए चीजों के लिए किया जाता है।
- आपके वेबसाइट के डुप्लीकेट डेटा/कंटेंट को सर्च रिजल्ट्स में दिखने से रोखने के लिए robot.txt फाइल का उपयोग करते है।
- आपके वेबसाइट के किसी एक सम्पूर्ण हिस्से को छुपाने के लिए। उदा आपका Staging Website .
- आपके वेबसाइट में उपलब्ध डाउनलोडेबल फाइल्स को इंडेक्स होने से बचाने के लिए robot.txt फाइल का उपयोग किया जाता है। जैसे PDF file, वीडियो फाइल आदि।
- आपके वेबसाइट के sitemap का लोकेशन को बताने के लिए।
- जब क्रॉलर एक साथ सम्पूर्ण वेबसाइट के कंटेंट क्रॉल करता हैं, तो आपके सर्वर को ओवरलोड होने से बचाने के लिए क्रॉल विलंब/डिले उल्लेखित कर सकरते है।
इसे भी पढ़े : What is Web Hosting – Hindi
Nandeshwar Katenga
Related Posts
What is Content Delivery Network (CDN)?
How to Host Your HTML Page Online for Free?
What is Cockpit CMS (Content Management System)
Elevate Your Digital Presence: Crafting a Stunning Webflow Portfolio
Choosing Between Domain and URL Prefix Properties
Recent Posts
Archives
- July 2024
- March 2024
- February 2024
- January 2024
- December 2023
- November 2023
- October 2023
- September 2023
- August 2023
- July 2023
- June 2023
- May 2023
- April 2023
- January 2023
- December 2022
- November 2022
- October 2022
- September 2022
- August 2022
- July 2022
- June 2022
- January 2022
- November 2021
- September 2021
- August 2021
- July 2021
- December 2020
- November 2020
- August 2020
- June 2020
- May 2020
- March 2020
- February 2020
Categories
- Adsense
- Artificial Intelligence
- Blockchain Technology
- Computer
- Computer System
- CSS
- Developer Tools
- Development
- Digital Marketing
- Domain Tools
- Flutter
- Google Analytics
- HTML
- JavaScript
- Laravel
- Operating System
- Printing
- Programming
- Python
- React Native
- SEO
- Technology
- Uncategorized
- Webmaster
- Wordpress
- Wordpress Development
Comment (1)
What is SEO and how it works? - Hindi - Indian Computer Kida
[…] कोई भी वेब पेज को Google अपने सर्च रिजल्ट में रैंक करने के लिए 200 से अधिक रैंकिंग कारकों/Factors का उपयोग करता है। किसी को नहीं पता कि ये सभी रैंकिंग कारक क्या हैं, लेकिन हम उनमें से कुछ फैक्टर्स को जानते हैं। यह ध्यान रहे की Google Web Pages को रैंक करता है ना की वेबसाइट को। इसे भी पढ़े : What is Robot.txt? – Hindi […]