Განმარტება Spidering და ვებ Crawlers

ობობები და ვებ Crawlers: რა საჭიროა იცოდეთ, რათა დაიცვას საიტი მონაცემები

ობობები არის პროგრამები (ან ავტომატიზირებული სკრიპტები), რომლებიც "გადაბირებას" ინტერნეტში ეძებს მონაცემებს. ობობები მოგზაურობენ ვებ-გვერდებზე და შეუძლიათ ვებ გვერდებისგან ელ-ფოსტის მისამართები. ობობები ასევე გამოიყენება ვებსაიტზე საძიებო სისტემებში ინფორმაციის მოძიებაზე.

ობობები, რომლებიც ასევე მოიხსენიება როგორც "ვებ-კრეოლერები" ინტერნეტის ძებნაში და არა ყველა მეგობრული განზრახვით.

Spammers Spider საიტები ინფორმაციის შეგროვება

Google, Yahoo!

და სხვა საძიებო სისტემები არ არის მხოლოდ დაინტერესებული ვებსაიტებზე - ასე არიან სკამერები და სპამერები.

ობობები და სხვა ავტომატური ინსტრუმენტები გამოიყენება სპამისგან ელექტრონული ფოსტის მისამართების მოძიებაზე (ინტერნეტში ეს პრაქტიკა ხშირად "მოსავალს" უწოდებს) და შემდეგ გამოიყენეთ ისინი სპამის სიების შესაქმნელად.

ობობები ასევე იყენებს საძიებო სისტემებს, რათა მოიძიოთ თქვენი ვებ-გვერდის შესახებ დამატებითი ინფორმაციის მოძიება, მაგრამ დატოვონ ვებ-გვერდი მითითებულ ინსტრუქციებთან (ან "ნებართვების გარეშე"), თუ როგორ უნდა მოიძიოთ თქვენი ვებ-გვერდი თქვენს მიერ წარმოდგენილ ძირითად ინფორმაციულ რისკებზე. ობობები მოგზაურობენ შემდეგ ბმულებზე და ისინი ძალიან კომპეტენტურნი არიან მონაცემთა ბაზების, პროგრამის ფაილების და სხვა ინფორმაციის მოძიებაზე, რომელთა საშუალებითაც შეიძლება არ გქონდეთ წვდომა.

ვებმასტერებს შეუძლიათ მოინახულონ ჟურნალები, თუ რა ობობები და სხვა რობოტები ეწვივნენ თავიანთ საიტებს. ეს ინფორმაცია ეხმარება ვებმასტერებს იცის, ვინ არის ინდექსირება მათი საიტი, და რამდენად ხშირად.

ეს ინფორმაცია სასარგებლოა, რადგან ის საშუალებას აძლევს ვებმასტერებს, სრულად შეძლონ თავიანთი SEO და განახლება robot.txt ფაილები, რათა გააუქმონ გარკვეული რობოტები თავიანთ საიტზე მომავალში.

მინიშნებები დაცული თქვენი საიტი არასასურველი Robot Crawlers

არსებობს მარტივი გზა შენარჩუნება არასასურველი crawlers თქვენი ნახვა. მაშინაც კი, თუ არ ხართ შეშფოთებული მავნე ობობები თქვენს საიტზე მობრუნებით (დაბლოკვის ელ.ფოსტის მისამართი არ დაიცავს თქვენ ყველაზე მეტად), საჭიროა საძიებო სისტემებისთვის მნიშვნელოვანი ინსტრუქციების უზრუნველყოფა.

ყველა ვებსაიტს უნდა ჰქონდეს ფაილი, რომელიც მდებარეობს ძირეულ დირექტორიაში, რომელსაც ეწოდება robots.txt ფაილი. ეს ფაილი საშუალებას მოგცემთ შეავსოთ ვებ-კრეოლერები, სადაც გინდათ რომ გამოიყურებოდეს ინდექსის გვერდებზე (თუ სხვაგვარად არ არის მითითებული კონკრეტული გვერდის მეტა მონაცემები არ უნდა იყოს საძიებო სისტემა), თუ ისინი საძიებო სისტემას წარმოადგენს.

ზუსტად ისე, როგორც თქვენ შეგიძლიათ თქვათ სასურველი მებაღეები, სადაც გინდათ რომ დაათვალიეროთ, ასევე შეგიძლიათ თქვათ, სად შეიძლება არ წახვიდეთ და წაშალონ კონკრეტული კრეოლერები მთელი თქვენი ვებ-გვერდიდან.

მნიშვნელოვანია გვახსოვდეს, რომ robots.txt- ს კარგად შეიქმნება საძიებო სისტემებისთვის უზარმაზარი მნიშვნელობა და შესაძლოა თქვენი ვებ-გვერდის მუშაობის გაუმჯობესების მთავარი ელემენტიც იყოს, მაგრამ ზოგიერთი რობოტი კვლავ იგნორირებას უკეთებს თქვენს ინსტრუქციებს. ამ მიზეზით, მნიშვნელოვანია, რომ ყველა თქვენი პროგრამული უზრუნველყოფა, დანამატები და აპლიკაციები დღემდე განახლდეს.

დაკავშირებული სტატიები და ინფორმაცია

ინფორმაციული ჩარევის გავრცელების გამო, რომელიც გამოიყენება არასაკმარისი (სპამის) მიზნით, კანონმდებლობა 2003 წელს გადაეცა გარკვეული პრაქტიკა უკანონო. ეს მომხმარებელთა დაცვის კანონები 2003 წლის CAN-SPAM- ის კანონს ეყრდნობა.

მნიშვნელოვანია, რომ დრო გაატაროთ CAN-SPAM აქტის შესახებ, თუ თქვენი ბიზნესი ჩართულია ნებისმიერი მასობრივი საფოსტო ან საინფორმაციო მოსავლის მიხედვით.

თქვენ შეგიძლიათ გაიგოთ უფრო მეტი ანტი-სპამის კანონები და როგორ უნდა გაუმკლავდეთ სპამერებს და რას აკეთებ, როგორც ბიზნესის მფლობელს, არ გაუკეთებთ შემდეგ სტატიებს: