Hva er Robots.txt-filen i et domene?
Webmaster Verktøy Nettsteder Seo Helt / / March 19, 2020
Sist oppdatert den
En av de største feilene for nye nettstedseiere er å ikke se på robots.txt-filen deres. Så hva er det likevel, og hvorfor så viktig? Vi har svarene dine.
Hvis du eier et nettsted og bryr deg om nettstedets SEO-helse, bør du gjøre deg veldig kjent med robots.txt-filen på domenet ditt. Tro det eller ei, det er et urovekkende høyt antall mennesker som raskt lanserer et domene, installerer et raskt WordPress-nettsted og aldri gidder å gjøre noe med robots.txt-filen.
Dette er farlig. En dårlig konfigurert robots.txt-fil kan faktisk ødelegge nettstedets SEO-helse, og skade sjansene du måtte ha for å øke trafikken.
Hva er Robots.txt-filen?
De robots.txt filen er passende navngitt fordi det egentlig er en fil som viser direktiver for nettrobotene (som søkemotoroboter) om hvordan og hva de kan gjennomgå på nettstedet ditt. Dette har vært en nettstandard fulgt av nettsteder siden 1994, og alle viktige webcrawlere overholder standarden.
Filen lagres i tekstformat (med en .txt-utvidelse) på rotmappen til nettstedet ditt. Faktisk kan du se robot.txt-filen til ethvert nettsted bare ved å skrive inn domenet etterfulgt av /robots.txt. Hvis du prøver dette med groovyPost, ser du et eksempel på en godt strukturert robot.txt-fil.
Filen er enkel, men effektiv. Denne eksempelfilen skiller ikke mellom roboter. Kommandoene blir gitt til alle roboter ved å bruke Bruker agent: * direktiv. Dette betyr at alle kommandoer som følger den, gjelder alle roboter som besøker nettstedet for å gjennomsøke det.
Spesifisering av nettlesere
Du kan også spesifisere spesifikke regler for spesifikke webcrawlere. Du kan for eksempel la Googlebot (Googles webcrawler) gjennomgå alle artiklene på nettstedet ditt, men det kan være lurt å la ikke den russiske webcrawleren Yandex Bot crawle artikler på nettstedet ditt som har nedslående informasjon om Russland.
Det er hundrevis av webcrawlere som søker på internett for informasjon om nettsteder, men de 10 vanligste du bør være opptatt av er listet opp her.
- Googlebot: Googles søkemotor
- Bingbot: Microsofts Bing-søkemotor
- slurp: Yahoo-søkemotoren
- DuckDuckBot: DuckDuckGo søkemotor
- Baiduspider: Kinesisk Baidu-søkemotor
- YandexBot: Russisk Yandex søkemotor
- Exabot: Fransk Exalead søkemotor
- Facebot: Facebooks gjennomsøkende bot
- ia_archiver: Alexa's crawler på nettet
- MJ12bot: Indekseringsdatabase med stor lenke
Ta eksempelet ovenfor, hvis du vil la Googlebot indeksere alt på nettstedet ditt, men ville blokkerer Yandex fra å indeksere det russiske baserte artikkelinnholdet, vil du legge til følgende linjer i robots.txt fil.
Bruker-agent: googlebot
Disallow: Disallow: / wp-admin /
Disallow: /wp-login.php
Bruker-agent: yandexbot
Disallow: Disallow: / wp-admin /
Disallow: /wp-login.php
Ikke tillatt: / russia /
Som du kan se, blokkerer den første delen bare Google fra å gjennomsøke din WordPress-påloggingsside og administrative sider. Den andre delen blokkerer Yandex fra det samme, men også fra hele området på nettstedet ditt der du har publisert artikler med anti-Russland-innhold.
Dette er et enkelt eksempel på hvordan du kan bruke Disallow kommando for å kontrollere spesifikke webcrawlere som besøker nettstedet ditt.
Andre Robots.txt-kommandoer
Disallow er ikke den eneste kommandoen du har tilgang til i robots.txt-filen. Du kan også bruke hvilken som helst av de andre kommandoene som vil lede hvordan en robot kan gjennomsøke nettstedet ditt.
- Disallow: Ber brukeragenten for å unngå å gjennomsøke spesifikke nettadresser, eller hele deler av nettstedet.
- Tillate: Lar deg finjustere bestemte sider eller undermapper på nettstedet ditt, selv om du kanskje har avvist en overordnet mappe. For eksempel kan du ikke tillate: / om /, men deretter tillate: / om / ryan /.
- Crawl-forsinkelse: Dette forteller crawleren om å vente xx antall sekunder før han begynner å gjennomsøke innholdet på nettstedet.
- sitemap: Gi søkemotorer (Google, Ask, Bing og Yahoo) plasseringen av XML-nettkartene.
Husk at roboter vil gjøre det bare lytt til kommandoene du har gitt når du spesifiserer navnet på bot.
En vanlig feil folk gjør er å ikke tillate områder som / wp-admin / fra alle boter, men spesifiser deretter en googlebot-seksjon og bare tillater andre områder (som / om /).
Siden bots bare følger kommandoene du spesifiserer i seksjonen deres, må du endre om alle de andre kommandoene du har spesifisert for alle boter (ved å bruke * brukeragenten).
- Disallow: Kommandoen som ble brukt til å fortelle en brukeragent om ikke å gjennomsøke en bestemt URL. Bare en "Disallow:" -linje er tillatt for hver URL.
- Tillat (gjelder bare for Googlebot): Kommandoen for å fortelle Googlebot at den kan få tilgang til en side eller undermappe selv om dens moderside eller undermappe kan ikke tillates.
- Crawl-forsinkelse: Hvor mange sekunder en gjennomsøker skal vente før side og side lastes inn og gjennomsøkes. Merk at Googlebot ikke anerkjenner denne kommandoen, men gjennomsøkingsfrekvensen kan angis i Google Search Console.
- Sitemap: Brukes til å ringe ut plasseringen til et XML-områdekart (er) tilknyttet denne URL-en. Merk at denne kommandoen bare støttes av Google, Ask, Bing og Yahoo.
Husk at robots.txt er ment å hjelpe legitime roboter (som søkemotoroboter) å gjennomsøke nettstedet ditt mer effektivt.
Det er mange ubehagelige gjennomsøkere der ute som gjennomsøker nettstedet for å gjøre ting som å skrape e-postadresser eller stjele innholdet ditt. Hvis du vil prøve å bruke robots.txt-filen din til å blokkere disse gjennomsøkerne fra å gjennomsøke noe på nettstedet ditt, må du ikke bry deg. Skaperne av disse gjennomsøkere ignorerer vanligvis alt du har lagt inn i robots.txt-filen.
Hvorfor ikke tillate noe?
Å få Googles søkemotor til å gjennomsøke så mye kvalitetsinnhold på nettstedet ditt som mulig, er et hovedanliggende for de fleste nettstedseiere.
Imidlertid bruker Google bare et begrenset gjennomgå budsjett og gjennomsøkingsfrekvens på individuelle nettsteder. Gjennomsøkingsfrekvensen er hvor mange forespørsler per sekund Googlebot kommer til nettstedet ditt under gjennomsøkingshendelsen.
Viktigere er gjennomsøkingsbudsjettet, som er hvor mange totale forespørsler Googlebot vil gjøre for å gjennomsøke nettstedet ditt i en økt. Google "bruker" gjennomsøkingsbudsjettet ved å fokusere på områder på nettstedet ditt som er veldig populære eller har endret seg i det siste.
Du er ikke blind for denne informasjonen. Hvis du besøker Googles verktøy for nettredaktører, kan du se hvordan robotsøkeprogrammet håndterer nettstedet ditt.
Som du kan se, holder søkeroboten sin aktivitet på nettstedet ditt ganske konstant hver dag. Den gjennomsøker ikke alle nettsteder, men bare de som den anser som de viktigste.
Hvorfor overlate det til Googlebot å bestemme hva som er viktig på nettstedet ditt, når du kan bruke robots.txt-filen til å fortelle den hva de viktigste sidene er? Dette vil forhindre at Googlebot kaster bort tid på sider med lav verdi på nettstedet ditt.
Optimaliser gjennomsøkingsbudsjettet ditt
Google Webmaster Tools lar deg også sjekke om Googlebot leser robots.txt-filen din bra, og om det er noen feil.
Dette hjelper deg med å bekrefte at du har strukturert robots.txt-filen riktig.
Hvilke sider bør du ikke tillate fra Googlebot? Det er bra for SEO-nettstedet ditt å ikke tillate følgende sidekategorier.
- Dupliserte sider (som utskriftsvennlige sider)
- Takk sider etter skjemabaserte bestillinger
- Bestillings- eller informasjonsspørreskjemaer
- Kontaktsider
- Innloggingssider
- Lead magnet "salg" sider
Ikke se bort fra filen Robots.txt
Den største feilen nye eiere av nettstedet gjør er å ikke engang se på robots.txt-filen deres. Den verste situasjonen kan være at robots.txt-filen faktisk blokkerer nettstedet ditt, eller områder på nettstedet ditt, fra å bli gjennomgått i det hele tatt.
Sørg for å gjennomgå robots.txt-filen din, og sørg for at den er optimalisert. På denne måten "ser" Google og andre viktige søkemotorer alle de fantastiske tingene du tilbyr verden med nettstedet ditt.