საძიებო სისტემების მიერ საიტების ინდექსაციის მართვის ერთ-ერთი ინსტრუმენტია robots.txt ფაილი. იგი ძირითადად გამოიყენება იმისთვის, რომ ყველა ან მხოლოდ გარკვეული რობოტი არ ჩამოიტვირთოს გარკვეული გვერდების ჯგუფების შინაარსი. ეს საშუალებას გაძლევთ მოიცილოთ საძიებო სისტემის შედეგების "ნაგავი" და, ზოგიერთ შემთხვევაში, მნიშვნელოვნად გააუმჯობესოთ რესურსის რეიტინგი. წარმატებული გამოყენებისათვის მნიშვნელოვანია გქონდეთ სწორი robots.txt ფაილი.
აუცილებელია
ტექსტის რედაქტორი
ინსტრუქციები
Ნაბიჯი 1
შეადგინეთ რობოტების სია, რომელთათვისაც დაწესდება სპეციალური გამორიცხვის წესები ან გაფართოებული robots.txt სტანდარტის დირექტივები, ასევე არასტანდარტული და კონკრეტული დირექტივები (კონკრეტული საძიებო სისტემის გაფართოებები). ამ სიაში შეიტანეთ HTTP მოთხოვნის სათაურის მომხმარებლის – აგენტის ველების მნიშვნელობები, რომლებიც შერჩეულია რობოტების მიერ საიტის სერვერზე გაგზავნილი. რობოტების სახელები ასევე შეგიძლიათ იხილოთ საძიებო სისტემის საიტების საცნობარო განყოფილებებში.
ნაბიჯი 2
შეარჩიეთ საიტის რესურსების URL ჯგუფები, რომელზე წვდომა უარი უნდა თქვან თითოეულ რობოტზე პირველ ეტაპზე შედგენილი სიაში. შეასრულეთ იგივე ოპერაცია ყველა სხვა რობოტისთვის (ინდექსაციური ბოტების განუსაზღვრელი ნაკრები). სხვა სიტყვებით რომ ვთქვათ, შედეგი უნდა იყოს რამდენიმე სია, რომლებიც შეიცავს საიტის მონაკვეთების ბმულებს, გვერდების ჯგუფებს ან მედიის შინაარსის წყაროებს, რომელთა ინდექსაცია აკრძალულია. თითოეული სია უნდა შეესაბამებოდეს სხვადასხვა რობოტს. ასევე უნდა არსებობდეს აკრძალული URL- ების ჩამონათვალი ყველა სხვა ბოტისთვის. შეადგინეთ სიები საიტის ლოგიკური სტრუქტურის შედარების საფუძველზე სერვერზე არსებული მონაცემების ფიზიკურ მდებარეობასთან, აგრეთვე გვერდების URL- ების დაჯგუფებით მათი ფუნქციური მახასიათებლები. მაგალითად, უარყოფის ჩამონათვალში შეგიძლიათ შეიტანოთ ნებისმიერი სერვისის კატალოგის შინაარსი (ჯგუფის მიხედვით ადგილმდებარეობა) ან მომხმარებლის პროფილის ყველა გვერდი (ჯგუფურად დანიშნულების მიხედვით).
ნაბიჯი 3
შეარჩიეთ URL ნიშნები თითოეული რესურსისთვის, რომელიც შეიცავს მეორე ეტაპზე შედგენილ სიებში. რობოტებისთვის მხოლოდ სტანდარტული robots.txt დირექტივებისა და განუსაზღვრელი რობოტების გამოყენებით გამორიცხვის სიების დამუშავებისას, მონიშნეთ მაქსიმალური სიგრძის უნიკალური URL ნაწილები. მისამართების დარჩენილი ნაკრებისთვის შეგიძლიათ შექმნათ შაბლონები კონკრეტული საძიებო სისტემების სპეციფიკაციების შესაბამისად.
ნაბიჯი 4
Robots.txt ფაილის შექმნა. დაამატეთ მას დირექტივების ჯგუფები, რომელთაგან თითოეული შეესაბამება კონკრეტული რობოტის აკრძალვის წესების ნაკრებს, რომელთა ჩამონათვალი შედგენილია პირველ ეტაპზე. ამ უკანასკნელს უნდა მიჰყვეს დირექტივების ჯგუფი ყველა სხვა რობოტისთვის. ცალკეული წესების ჯგუფები ერთი ცარიელი ხაზით. თითოეული წესების დაწყება უნდა დაიწყოს მომხმარებლის აგენტის დირექტივით, რომელიც განსაზღვრავს რობოტს, რასაც მოჰყვება დირექტივის გაუქმება, რომელიც კრძალავს URL ჯგუფების ინდექსირებას. მესამე ეტაპზე მიღებული სტრიქონები გააკეთეთ Disallow დირექტივების მნიშვნელობებით. დირექტივებისა და მათი მნიშვნელობების გამიჯვნა ორწერტილთან. განვიხილოთ შემდეგი მაგალითი: მომხმარებლის აგენტი: YandexDisallow: / temp / data / images / მომხმარებლის აგენტი: * აკრძალვა: / temp / data / დირექტივების ეს ნაკრები ავალებს მთავარ რობოტს Yandex– მა საძიებო სისტემა არ მოახდინა URL– ის ინდექსაცია. ეს ასევე ხელს უშლის ყველა სხვა რობოტს ინდექსაციის URL- ებში, რომლებიც შეიცავს / temp / data /.
ნაბიჯი 5
Robots.txt დამატებულია გაფართოებული სტანდარტული დირექტივებით ან სპეციფიკური საძიებო სისტემის დირექტივებით. ასეთი დირექტივების მაგალითებია: მასპინძელი, საიტის რუქა, მოთხოვნის შეფასება, ვიზიტის დრო, სეირნობა-დაგვიანება.