Spletni robotiZadnjič smo pisali o zemljevidu spletnega mesta sitemap.xml, danes pa bomo nekaj besed namenili datoteki robots.txt, ki prav tako predstavlja pomemben element spletne strani. Torej, kaj je zapisano v tekstovni datoteki robots.txt in čemu je sploh namenjena? Najkrajši odgovor bi bil, da z omenjeno datoteko spletnim pajkom (oz. robotom ali krajše botom) damo navodila, katere podstrani na spletnem mestu naj obiščejo in katerih ne. Prav tako v datoteko lahko vnesemo pravilo, kateri spletni pajki naj pregledajo naše spletno mesto in katerih na našo stran ne želimo spustiti.

Naj na tem mestu omenimo, da četudi nekaterim pajkom dostop želimo preprečiti, to ne pomeni, da našega spletnega mesta ne bodo zares obiskali. To še posebej velja za pajke raznih hekerjev, ki s pomočjo lastno programiranih robotov pridobivajo informacije o spletni strani, ji želijo škodovati ali si zgraditi bazo elektronskih naslovov na nedovoljen način.

Čemu datoteka robots.txt služi najpogosteje?

V največ primerih robots.txt uporabimo, da pajkom spletnih iskalnikov sporočimo, katerih direktorijev spletne strani naj ne obiščejo. Večina CMS-jev (angl. Content Management System) ob inštalaciji generira direktorije, kjer so shranjene določene datoteke, za katere želimo, da jih spletni iskalniki ne poindeksirajo. Zakaj je to dobro? Če bi iskalniki omenjene datoteke poindeksirali, kar pomeni, da bi se te podstrani prikazale v rezultatih iskanja, bi to negativno vplivalo na naše spletno mesto iz vsaj dveh razlogov. Prvi in glavni je vezan na optimizacijo spletne strani, saj bi to pomenilo, da naše spletno mesto vsebuje precej nekih podstrani, ki vsebinsko niso povezane s preostalimi stranmi, drugi razlog pa je vezan na uporabniško izkušnjo. Obiskovalec bi namreč lahko prek spletnih iskalnikov končal na eni izmed takšnih podstrani (je sicer zelo malo verjetno), s katero pa si ne bi mogel prav nič pomagati.

V robot.txt lahko tudi zapišemo, kje se nahaja zemljevid spletnega mesta.

Kje se datoteka robots.txt nahaja in kako deluje?

Datoteko robots.txt je potrebno shraniti v root mapo. Pri sistemih za vnos in urejanje vsebin (CMS) obstajajo različni vtičniki, ki datoteko zgenerirajo in na pravo mesto dodajo samodejno, pri »klasičnih« straneh, napisanih v programskem jeziku .html, pa je tekstovno datoteko na strežnik najlažje prenesti s pomočjo FTP programa. Robots.txt naj se torej nahaja v isti mapi kot datoteka index.html.

V našem primeru se datoteka nahaja na naslovu optimizacijaspletnihstrani.eu/robots.txt

In kako robots.txt deluje? Ko določen spletni pajek obišče spletno mesto, najprej preveri, če na nivoju domene (torej v root mapi) datoteka robots.txt obstaja in se v skladu z zapisanimi pravili ravna. Na začetku članka smo omenili, da v nekaterih primerih to ne velja.

Nekaj primerov datoteke robots.txt

Če želimo, da celotno spletno stran obiščejo vsi spletni pajki, v robots.txt zapišemo naslednje:

User-agent: *
Disallow:

Če pa želimo pred (vsem) spletnim pajkom onemogočiti dostop do celotne spletne strani, zapišemo:

User-agent: *
Disallow: /

Lahko pa dostop do spletne strani onemogočimo le izbranim spletnim pajkom – v tem primeru je zapis sledeč:

User-agent: Baiduspider
Disallow: /
User-agent: bingbot
Disallow: /
User-agent: yandex
Disallow: /

Spletnim pajkom lahko preprečimo dostop do le nekaterih direktorijev:

User-agent: *
Disallow: /modules/
Disallow: /profiles/
Disallow: /tmp/

V vseh zgoraj navedenih primerih je smiselno, da na koncu dodamo še spodnjo vrstico, s katero spletnim pajkom pokažemo, kje se nahaja zemljevid spletnega mesta sitemap.xml:

Sitemap: http://imedomene.com/sitemap.xml

 

Če vam bo datoteka robots.txt povzročala težave, nam lahko pišete na info@optimizacijaspletnihstrani.si in z veseljem vam bomo priskočili na pomoč.