Mikä on verkkotunnuksen Robots.txt-tiedosto?
Verkkovastaavan Työkalut Sivustot Seo Sankari / / March 19, 2020
Viimeksi päivitetty
Yksi uusien verkkosivustojen omistajien suurimmista virheistä ei ole robots.txt-tiedoston tutkiminen. Joten mikä se on joka tapauksessa, ja miksi niin tärkeä? Meillä on vastauksesi.
Jos omistat verkkosivuston ja välität sivustosi SEO-terveydestä, sinun tulee tuntea itsesi hyvin verkkotunnuksesi robots.txt-tiedostoon. Usko tai älä, nämä ovat häiritsevästi paljon ihmisiä, jotka käynnistävät nopeasti verkkotunnuksen, asentavat nopean WordPress-verkkosivuston eivätkä koskaan vaivaudu tekemään mitään robots.txt-tiedostollaan.
Tämä on vaarallista. Huonosti konfiguroitu robots.txt-tiedosto voi tosiasiassa tuhota sivustosi SEO-terveyden ja vahingoittaa mahdollisia mahdollisuuksiasi kasvattaa liikennettä.
Mikä on Robots.txt-tiedosto?
robots.txt tiedosto on nimetty osuvasti, koska se on lähinnä tiedosto, joka luettelee webroboteille (kuten hakukoneroboteille) annettuja ohjeita siitä, miten ja mitä ne voivat indeksoida verkkosivustollasi. Tämä on ollut verkkostandardi, jota ovat seuranneet verkkosivustot vuodesta 1994, ja kaikki suuret verkkoindeksoijat noudattavat standardia.
Tiedosto tallennetaan tekstimuodossa (.txt-tunnisteella) verkkosivustosi juurikansioon. Itse asiassa voit tarkastella minkä tahansa verkkosivuston robot.txt-tiedostoa kirjoittamalla verkkotunnuksen ja /robots.txt. Jos kokeilet tätä groovyPost-sovelluksen kanssa, näet esimerkin hyvin jäsennellystä robot.txt-tiedostosta.
Tiedosto on yksinkertainen, mutta tehokas. Tämä esimerkitiedosto ei erota robotteja. Komennot annetaan kaikille roboteille käyttämällä Käyttäjä agentti: * direktiivi. Tämä tarkoittaa, että kaikki sitä seuraavat komennot koskevat kaikkia robotteja, jotka käyvät sivustolla indeksoimaan sitä.
Web-indeksointirobotien määrittäminen
Voit myös määrittää erityiset säännöt tietyille verkkoindeksoijille. Voit esimerkiksi sallia Googlebotin (Googlen verkkoindeksoija) indeksoida kaikki sivustosi artikkelit, mutta saatat haluta estä venäläinen indeksointirobotti Yandex Bot indeksoimasta sivustosi artikkeleita, joissa on halventavaa tietoa Venäjä.
On satoja verkkoindeksoijia, jotka hakevat tietoa verkkosivustoista, mutta tässä luetellaan 10 yleisintä, joista sinun pitäisi olla huolissasi.
- googlebot: Google-hakukone
- Bingbot: Microsoftin Bing-hakukone
- Ryystää: Yahoo-hakukone
- DuckDuckBot: DuckDuckGo-hakukone
- Baiduspider: Kiinalainen Baidu-hakukone
- YandexBot: Venäjän Yandex-hakukone
- Exabot: Ranskan Exalead-hakukone
- Facebot: Facebookin indeksointirobotti
- ia_archiver: Alexan web-indeksointirobotti
- MJ12bot: Suuri linkkien indeksointitietokanta
Ottamalla yllä oleva esimerkki, jos haluat sallia Googlebotin indeksoivan kaiken sivustoltasi, mutta halusit estää Yandexia indeksoimasta venäläistä artikkelisi sisältöä, lisääisit seuraavat rivit robots.txt-tiedostoosi tiedosto.
Käyttäjäagentti: googlebot
Estä: Estä: / wp-admin /
Estä: /wp-login.php
Käyttäjäagentti: yandexbot
Estä: Estä: / wp-admin /
Estä: /wp-login.php
Estä: / venäjä /
Kuten näette, ensimmäinen osa estää vain Googlea indeksoimasta WordPressin kirjautumissivua ja hallinnollisia sivuja. Toinen jakso estää Yandexia samasta, mutta myös koko sivustosi alueelta, jolla olet julkaissut Venäjän vastaisen sisällön artikkeleita.
Tämä on yksinkertainen esimerkki siitä, kuinka voit käyttää Estä -komento, jolla voit hallita tiettyjä verkkosivustoasi käyviä indeksointirobotteja.
Muut Robots.txt-komennot
Disallow ei ole ainoa komento, johon sinulla on pääsy robots.txt-tiedostoon. Voit käyttää myös mitä tahansa muita komentoja, jotka ohjaavat, kuinka robotti voi indeksoida sivustosi.
- Estä: Kehottaa käyttäjän edustajaa välttämään tiettyjen URL-osoitteiden tai kokonaisten sivustosi osien indeksointia.
- Sallia: Voit hienosäätää tiettyjä sivustosi sivuja tai alikansiota, vaikka olet estänyt vanhempien kansioiden. Voit esimerkiksi estää: / noin /, mutta sallia sitten: / about / ryan /.
- Ryömiä-viive: Tämä käskee indeksoijaa odottamaan xx sekuntimäärä ennen kuin selaa sivuston sisältöä.
- Sivukartta: Anna hakukoneille (Google, Ask, Bing ja Yahoo) XML-sivustokarttasi sijainti.
Muista, että robotit tulevat vain kuuntele antamasi komennot, kun määrität robotin nimen.
Yleinen virhe, jonka ihmiset tekevät, on sellaisten alueiden, kuten / wp-admin /, kieltäminen kaikista boteista, mutta määritä sitten googlebot-osio ja vain muiden alueiden (kuten / noin /) kieltäminen.
Koska robotit seuraavat vain niiden osiossa määrittämiäsi komentoja, sinun on uusittava kaikki ne muut, jotka olet määrittänyt kaikille robotille (käyttämällä * user-agenttia).
- Estä: Komento, jota käytetään käyttäjien edustajalle käskää olla indeksoimatta tiettyä URL-osoitetta. Kullekin URL-osoitteelle on sallittu vain yksi Dishibition: -rivi.
- Salli (koskee vain Googlebotia): Komento kertoa Googlebotille, että se voi käyttää sivua tai alikansiota, vaikka sen emo- tai alikansiot voidaan estää.
- Ryömiä-viive: Kuinka monta sekuntia indeksoijan tulee odottaa ennen sivun sisällön lataamista ja indeksointia. Huomaa, että Googlebot ei tunnista tätä komentoa, mutta indeksointinopeuden voi asettaa Google Search Consolessa.
- Sivukartta: Käytetään tähän URL-osoitteeseen liittyvien XML-sivustokarttojen sijaintiin. Huomaa, että tätä komentoa tukevat vain Google, Ask, Bing ja Yahoo.
Muista, että robots.txt on tarkoitettu auttamaan laillisia robotteja (kuten hakukoneiden robotteja) indeksoimaan sivustosi tehokkaammin.
Siellä on paljon häikäilemättömiä indeksoijia, jotka indeksoivat sivustoasi tehdäksesi esimerkiksi kaapia sähköpostiosoitteita tai varastaa sisältösi. Älä häiritse, jos haluat kokeilla robots.txt-tiedostoasi estääksesi indeksoijaa indeksoimasta mitään sivustoltasi. Indeksoijien luojat tyypillisesti jättävät huomiotta kaiken, mitä olet lisännyt robots.txt-tiedostoosi.
Miksi estää mitään?
Useimpien verkkosivustojen omistajien ensisijainen huolenaihe on saada Google-hakukone indeksoimaan mahdollisimman paljon laadukasta sisältöä verkkosivustollesi.
Google käyttää kuitenkin vain rajoitetusti indeksoida budjetti ja indeksointinopeus yksittäisillä sivustoilla. Indeksointinopeus on kuinka monta pyyntöä sekunnissa Googlebot tekee sivustollesi indeksointitapahtuman aikana.
Tärkeämpää on indeksointibudjetti, joka on kuinka monta kokonaispyyntöä Googlebot tekee indeksoidaksesi sivustosi yhdessä istunnossa. Google “viettää” indeksointbudjettinsa keskittymällä sivustosi alueille, jotka ovat erittäin suosittuja tai muuttuneet viime aikoina.
Et ole sokea näiden tietojen suhteen. Jos vierailet Google Webmaster Tools, näet kuinka indeksoija käsittelee sivustoasi.
Kuten huomaat, indeksoija indeksoi sivustosi toimintaa melko vakiona joka päivä. Se ei indeksoi kaikkia sivustoja, vaan vain niitä, joita se pitää tärkeimpinä.
Miksi jättää Googlebotin tehtäväksi päättää, mikä sivustossasi on tärkeätä, kun robots.txt-tiedostosi avulla voit kertoa, mitkä ovat tärkeimmät sivut? Tämä estää Googlebotia tuhlaamasta aikaa sivustosi vähäarvoisille sivuille.
Indeksointibudjetin optimointi
Google-verkkovastaavan työkalujen avulla voit myös tarkistaa, lukeeko Googlebot robots.txt-tiedostoasi oikein ja onko virheitä.
Tämä auttaa sinua tarkistamaan, että olet järjestänyt robots.txt-tiedostosi oikein.
Mitkä sivut sinun tulisi estää Googlebotista? On hyvä, että sivustosi SEO kieltää seuraavat sivukategoriat.
- Kopioidut sivut (kuten tulostinystävälliset sivut)
- Kiitos sivuja, jotka seuraavat lomakepohjaisia tilauksia
- Tilaus- tai tietokyselylomakkeet
- Yhteystiedot
- Sisäänkirjautumissivut
- Johtava magneetti ”myynti” -sivut
Älä ohita Robots.txt-tiedostoasi
Uusien verkkosivustojen omistajien suurin virhe on koskaan edes tarkastella robots.txt-tiedostoa. Pahimmassa tilanteessa voi olla, että robots.txt-tiedosto estää sivustosi tai sivustosi alueiden indeksoinnin ollenkaan.
Muista tarkistaa robots.txt-tiedostosi ja varmistaa, että se on optimoitu. Tällä tavalla Google ja muut tärkeät hakukoneet "näkevät" kaikki ne upeat asiat, joita tarjoat maailmalle verkkosivustosi kanssa.