मकड़ियों और वेब क्रॉलर: वेबसाइट डेटा को सुरक्षित रखने के लिए आपको क्या पता होना चाहिए
मकड़ियों, जिन्हें 'वेब क्रॉलर' के रूप में भी जाना जाता है, वे वेब पर खोज करते हैं और सभी अपने इरादे में अनुकूल नहीं हैं।
सूचना एकत्र करने के लिए स्पैमर स्पाइडर वेबसाइटें
गूगल, याहू!
और अन्य खोज इंजन वेबसाइटों को क्रॉल करने में रुचि रखने वाले अकेले नहीं हैं - इसलिए स्कैमर और स्पैमर हैं।
स्पाइडर और अन्य स्वचालित टूल्स का उपयोग स्पैमर द्वारा ईमेल पते खोजने के लिए किया जाता है (इंटरनेट पर इस अभ्यास को अक्सर वेबसाइटों पर 'कटाई' कहा जाता है) और फिर स्पैम सूचियां बनाने के लिए उनका उपयोग करें।
स्पाइडर भी आपकी वेबसाइट के बारे में अधिक जानकारी प्राप्त करने के लिए खोज इंजन द्वारा उपयोग किए जाने वाले टूल हैं, लेकिन अनचेक छोड़ दिया गया है, बिना किसी निर्देश के वेबसाइट (या 'अनुमतियां') आपकी साइट को क्रॉल करने के तरीके पर प्रमुख जानकारी सुरक्षा जोखिम प्रस्तुत कर सकते हैं। मकड़ियों को निम्नलिखित लिंक से यात्रा करते हैं, और वे डेटाबेस, प्रोग्राम फाइलों और अन्य जानकारी के लिंक ढूंढने में बहुत ही कुशल हैं जिनके लिए आप उन्हें एक्सेस नहीं करना चाहते हैं।
वेबमास्टर्स यह देखने के लिए लॉग देख सकते हैं कि मकड़ियों और अन्य रोबोटों ने अपनी साइटों का दौरा किया है। यह जानकारी वेबमास्टर्स को यह जानने में सहायता करती है कि उनकी साइट को कौन अनुक्रमणित कर रहा है, और कितनी बार।
यह जानकारी उपयोगी है क्योंकि यह वेबमास्टर्स को अपने एसईओ को ट्यून करने और रोबोट.txt फ़ाइलों को अपडेट करने की अनुमति देता है ताकि कुछ रोबोट भविष्य में अपनी साइट को क्रॉल करने से रोक सकें।
अनचाहे रोबोट क्रॉलर से आपकी वेबसाइट की सुरक्षा पर युक्तियाँ
अवांछित क्रॉलर को अपनी वेबसाइट से बाहर रखने का एक आसान तरीका है। यहां तक कि यदि आप अपनी साइट को क्रॉल करने वाले दुर्भावनापूर्ण मकड़ियों के बारे में चिंतित नहीं हैं (अप्रचलित ईमेल पता आपको अधिकांश क्रॉलरों से सुरक्षित नहीं करेगा), तो आपको अभी भी महत्वपूर्ण निर्देशों के साथ खोज इंजन प्रदान करने की आवश्यकता होनी चाहिए।
सभी वेबसाइटों में रूट निर्देशिका में स्थित फ़ाइल होना चाहिए जिसे robots.txt फ़ाइल कहा जाता है। यह फ़ाइल आपको वेब क्रॉलर्स को निर्देश देने की अनुमति देती है जहां आप उन्हें इंडेक्स पृष्ठों को देखना चाहते हैं (जब तक कि वे एक विशिष्ट पृष्ठ के मेटा डेटा में कोई अनुक्रमित न हों) यदि वे एक खोज इंजन हैं।
जैसे ही आप वांछित क्रॉलर्स को बता सकते हैं कि आप उन्हें ब्राउज़ करना चाहते हैं, आप उन्हें यह भी बता सकते हैं कि वे कहां नहीं जा सकते हैं और यहां तक कि आपकी पूरी वेबसाइट से विशिष्ट क्रॉलर को अवरुद्ध भी कर सकते हैं।
यह ध्यान में रखना महत्वपूर्ण है कि एक साथ अच्छी तरह से robots.txt फ़ाइल को खोज इंजन के लिए जबरदस्त मूल्य होगा और आपकी वेबसाइट के प्रदर्शन में सुधार करने के लिए एक महत्वपूर्ण तत्व भी हो सकता है, लेकिन कुछ रोबोट क्रॉलर अभी भी आपके निर्देशों को अनदेखा कर देंगे। इस कारण से, अपने सभी सॉफ़्टवेयर, प्लगइन्स और ऐप्स को हर समय अद्यतित रखना महत्वपूर्ण है।
संबंधित लेख और जानकारी
घृणास्पद (स्पैम) उद्देश्यों के लिए उपयोग की जाने वाली सूचना कटाई के प्रसार के कारण, कुछ अभ्यासों को अवैध बनाने के लिए 2003 में कानून पारित किया गया था। ये उपभोक्ता संरक्षण कानून 2003 के कैन-स्पैम अधिनियम के अंतर्गत आते हैं।
यह महत्वपूर्ण है कि आप कैन-स्पैम अधिनियम पर पढ़ने के लिए समय दें यदि आपका व्यवसाय किसी भी बड़े मेलिंग या सूचना कटाई में संलग्न है।
आप निम्नलिखित लेखों को पढ़कर एंटी-स्पैम कानूनों और स्पैमर से निपटने के तरीके के बारे में और अधिक जानकारी प्राप्त कर सकते हैं, और व्यवसाय स्वामी के रूप में आप क्या कर सकते हैं:
- कैन-स्पैम अधिनियम 2003
- गैर-लाभकारी संस्थाओं के लिए कैन-स्पैम अधिनियम नियम
- 5 कैन-स्पैम नियम छोटे व्यवसाय के मालिकों को समझने की आवश्यकता है