Vita huset: Myter om deras nya robots.txt

1/23/2009

Filen robots.txt används för att ge information till sökmotorernas robotar vad man anser accepterat att de indexerar. En webbsajt kan t.ex. utesluta vissa kataloger, filer m.m. från att tas med i sökmotorernas register. För att läsa mer om det rekommenderar jag:

Vita huset har fått en ny robots.txt

När President Obama tog över ändrades robots.txt för Vita husets webbsida d.v.s. www.whitehouse.gov. Jag har sett en enorm massa myter som börjat florera kring detta. Det som stör mig med det är inte att det orättfärdigt kommer skada något därför det är direkt otroligt. Utan det som stör mig är att det är så lätt för vem som helst att verifiera att dom är falska och aktörer som helt säkert inte feltolkat detta gjort det därför att de inte gjort faktakontroll.

Detta oroar mig därför att det visar hur slarvigt många ännu sköter faktakontroll.

Så vitt jag ser har ingen som sett orsaken till ändringen brytt sig i att blogga denna. Istället antyder många att någon större strategi (ökad öppenhet) eller något konspiratoriskt ligger bakom förändringen. Det finns ingenting som pekar på detta. Tvärt om.

Hur har robots.txt ändrats för www.whitehouse.gov?

Under President Bush (II) var robots.txt för www.whitehouse.gov fullständigt enorm. Nu är samma fil endast ett par rader lång:

User-agent: *
Disallow: /includes/

Varför har robots.txt ändrats för www.whitehouse.gov?

Det är ingenting jag kan besvara 100% säkert men det är fullständigt trivialt för vem som helst att konstatera via arkiv att hela www.whitehouse.gov fullständigt och helt byggts om. För den som lägger 10 - 20 minuter kan man också på samma sätt se att det behov som fanns för att spärra ut sökmotorer bland annat från att indexera dublicerat innehåll (text-versioner av sidorna) nu är borta.

Jag håller det därför för så troligt jag håller något om Vita huset att orsaken att filen ändrats uteslutande har att göra med ombyggnaden av webbsajten. Behovet av de många tusen raderna i robots.txt finns inte längre. Det finns ingen praktisk anledning att ha dom kvar så vitt jag såg.

Bryter www.whitehouse.gov mot Google:s riktlinjer?

Så långt jag ser är den nya robots.txt helt ändamålsenligt med den nya sajten. Det är så vitt jag ser även den gamla. Jag hittade inget fall där jag såg att indexering dublicerat innehåll blir fallet. Här kan jag ta fel i enstaka fall: Det vanliga är sajter får en del dublicerat även om man är noga.

Men det finns absolut ingenting onormalt med www.whitehouse.gov jämfört med andra webbsajter.

Har www.whitehouse.gov blivit bättre? Onpage SEO och användbarhet?

Det kan man ha olika åsikter om. Jag menar att hela webbsajten nu är mycket bättre byggd för att fungera bra med Google och andra sökmotorer. Min tolkning är att SEO onpage är tydligt bättre. Dessutom upplever jag att sajten har högre användbarhet.

Däremot avseende indexering av faktiskt innehåll ser jag inte att något ändrats överhuvudtaget. Tidigare uteslöt man för att hindra dublicerat innehåll. Nu har man en annan struktur där risken för detta inte längre finns på samma sätt.

Vad har andra skrivit om detta? BBC m.fl.

Läs vad BBC skrev... De har totalt missat att hela sajten byggts om. Istället har de bara läst det som bloggats och därför att missat att ge viktig information. Därmed finns risk för feltolkning och övertolkning. Så vitt jag kan se har ingen praktisk förändring skett. För en resurs som BBC tycker jag att det är dåligt att missa detta.

Nedan har vi en bloggpostning som är en av många som fullständigt över- och feltolkat förändringen:

Bloggpostningen länkades rel=nofollow därför att jag länkar den som "varnade exempel" och inte som en rekommendation. Jag har sett flera liknande bloggpostningar varav några värre. Ingen verkar ha brytt sig i att titta om sajten byggts och om det helt eller ens delvis motiverade förändringen.

0 kommentarer

Kommentera