✅ Robots.txt eller robots exklusionsstandard och sökmotorcrawling

Innehållsförteckning

Hej alla, jag börjar med den här självstudien på robots.txt, jag hoppas att du gillar den

Låt alla robotar besöka alla filer som lagras i rotkatalogen på webben:

 Användaragent: * Tillåt:

Förhindra åtkomst till alla robotar och alla filer som lagras i rotkatalogen:

 User-agent: * Disallow: /

Tillåt bara en robot att komma åt, i det här exemplet kommer bara Google att kunna genomsöka

 User-agent: googlebot Disallow: User-agent: * Disallow: /

De mest populära robotarna har ett namn att använda i user-agent
googlebot => för Google
msnbot => MSN Search
yahoo-slurp => Yahoo!
scrubby => Skrubba webben
robozilla => DMOZ Checker
ia_archiver => Alexa / Wayback
baiduspider => Baidu
Det finns också de mer specifika robotarna som de i bilder
googlebot-image => Google Image
googlebot-mobile => Google Mobile
Ett annat exempel så att alla underkataloger som innehåller jokertecken (/) måste blockeras, endast dessa, förutom alla andra filer och kataloger som inte innehåller jokertecken, är systemet eller back -end -katalogerna blockerade:

 User-agent: * Disallow: / cgi-bin / Disallow: / images / Disallow: / tmp / Disallow: / adminstrador /

Förhindra att en specifik fil spåras

 User-agent: * Disallow: /page.htm

Detta används mycket när vi vill eliminera en sida som ger ett 404 -fel eller för att eliminera en sida från sökresultaten och därmed förhindra att den genomsöks.
Hantera frekvensen av krypande robotar
Från Google analytics och från webmastertools du kan se statistiken du kan också se att ibland tar det en lång tid för vissa robotar att granska vår webbplats och skicka förfrågningar till servern, robotarna förbrukar bandbredd och resurser som om de bara var en annan besökare.
Det finns ett sätt att robotar inte kommer ur kontroll, vi kan berätta för var och en
User-agent: googlebot Crawl-delay: 30
Med detta informerar vi Google -roboten om att vänta 30 sekunder mellan varje genomsökning. Var försiktig eftersom Crawl-delay kanske inte stöds av alla sökmotorer, vilket Bing och Google gör.
Den officiella webbplatsen för robots.txt Det är http://www.robotstxt.org/ där vi hittar namnen på alla robotar, specifikationer om koden. Här avslöjas att robotar tjänar till att standardisera dem som måste spåras och används i andra plattformar för att spåra och validera html, validera länkar, indexera information, uppdatera innehåll i sökmotorer, skydda webbplatser.Gillade du och hjälpte denna handledning?Du kan belöna författaren genom att trycka på den här knappen för att ge honom en positiv poäng