Innehållsförteckning
När sökmotorerna kommer till en webbplats börjar de leta efter filen robots.txt för att läsa den. Det beror på dess innehåll så att sökmotorns spindel fortsätter inom webbplatsen eller går till en annan.Filen robots.txt innehåller en lista med sidor som får indexeras av sökmotorn, vilket i sin tur begränsar tillgången till vissa sökmotorer selektivt.
Detta är en ASCII -fil som måste finnas vid roten till webbplatsen. Kommandona den kan innehålla är:
Agentanvändare: Den används för att ange vilken robot som ska följa de order som presenteras.
Inte tillåta: Den används för att identifiera vilka sidor som ska uteslutas under analysprocessen av sökmotorn. Det är viktigt att varje sida som ska uteslutas måste ha separata rader och också börja med / -symbolen. Med denna symbolik specificeras det; till "alla sidor på webbplatsen".
Det är oerhört viktigt att filen robots.txt inte har några tomma rader.
Några exempel visas nedan;
- När du vill utesluta alla sidor; Användaragenten är: Tillåt inte: /.
- Om målet inte är att utesluta någon sida, får filen robotos.txt inte finnas på webbplatsen, det vill säga att alla sidor på webbplatsen besöks lika.
- När en viss robot utesluts kommer det att vara:
- Agentanvändare: Robotnamn Tillåt inte: / Agentanvändare: * Tillåt inte:
- När en sida är utesluten; Agentanvändare: * Tillåt inte: /directory/path/page.html
- När alla sidor i en katalog utesluts från webbplatsen med motsvarande undermappar blir det; Agentanvändare: * Tillåt inte: / directory /
En annan funktion är att förhindra indexering av dubblettinnehåll som finns på webbplatsen, för att inte bli straffad.
Andra överväganden att ta hänsyn till är att vissa robotar kan ignorera instruktionerna i den här filen, och det måste också vara klart att filen är offentlig eftersom alla som skriver www.example.com/robots.txt kan ha åtkomst till den.
Nu kan frågan vara; Hur genererar jag robots.txt -filen?
Det är faktiskt ganska enkelt eftersom det är ett textdokument med namnet "robots.txt" och sedan ladda upp det till roten på sidans domän, det är där sökmotorerna kommer att leta efter att det ska läsas.
En grundläggande robots.txt -fil kan vara:
Användaragent: *
Tillåt: / privat /
Instruktioner genereras för att neka åtkomst till en katalog som kommer att vara "privat" för alla sökmotorer.
Kommandot bestämmer att det är adresserat till alla robotar (User-agent: *), vilket anger att katalogen inte är tillåten (Disallow: / private /).
Parametern som används för Googles sökmotor är; Användaragent: Googlebot
Som nämnts tidigare används dess användning i SEO för att begränsa tillgången för robotar till dubblettinnehåll.Gillade du och hjälpte denna handledning?Du kan belöna författaren genom att trycka på den här knappen för att ge honom en positiv poäng