Come ottimizzare i file Robots.txt di Magento

file robot.txt seo

Molto spesso capita che, in ottica SEO Magento, non si sappia bene come creare correttamente un file robots.txt per indicare agli spider dei motori di ricerca quali pagine non debbano essere esaminate. In questo articolo ti spiegherò le best practice per la creazione ottimale di questo file.

robotsMagentoRicordo che non bisognerebbe mai prendere i file robots.txt e posizionarli in modo casuale in Magento.

Ogni negozio ha una propria struttura ed in ogni caso c’è la necessità di modificare alcune parti del contenuto del file. Questo viene fatto per far sì che il file si adattatti meglio alle esigenze specifiche della struttura degli URL e a seconda delle priorità che avete.

Chiedi sempre al tuo consulente E-Commerce di modificare il file robots.txt per il vostro store di testare il sito su Google Webmaster Tools per vedere se alcune pagine sono bloccate. 

Di seguito mostrerò i robots.txt di Magento usati da 4 agenzie che usano Magento come indicato nell’articolo di Inchoo.

 

1. File robot.txt di Inchoo

Questo è un boilerplate del file robots.txt usato da Inchoo:

# Google Image Crawler Setup
User-agent: Googlebot-Image
Disallow:# Crawlers Setup
User-agent: *# Directories
Disallow: /404/
Disallow: /app/
Disallow: /cgi-bin/
Disallow: /downloader/
Disallow: /errors/
Disallow: /includes/
#Disallow: /js/
#Disallow: /lib/
Disallow: /magento/
#Disallow: /media/
Disallow: /pkginfo/
Disallow: /report/
Disallow: /scripts/
Disallow: /shell/
Disallow: /skin/
Disallow: /stats/
Disallow: /var/# Paths (clean URLs)
Disallow: /index.php/
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalog/product/view/
Disallow: /catalogsearch/
#Disallow: /checkout/
Disallow: /control/
Disallow: /contacts/
Disallow: /customer/
Disallow: /customize/
Disallow: /newsletter/
Disallow: /poll/
Disallow: /review/
Disallow: /sendfriend/
Disallow: /tag/
Disallow: /wishlist/
Disallow: /catalog/product/gallery/# Files
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /error_log
Disallow: /install.php
Disallow: /LICENSE.html
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /STATUS.txt# Paths (no clean URLs)
#Disallow: /*.js$
#Disallow: /*.css$
Disallow: /*.php$
Disallow: /*?SID=

Come puoi vedere sopra, il file consente l’indicizzazione per la ricerca dell’immagine mentre non permette l’indicizzazione di alcune pagine vuote.

Questo previene alcune cartelle che di solito sono indesiderate nell’indice di una comune installazione di un negozio online Magento.

Ricorda che il file non esclude la maggiorparte dei parametri di ordinamento e di impaginazione poiche dò per scontato che  li sistemerai usando “rel prev” nella prossima attuazione e aggiungendo il meta “noindex, follow” nel resto dei parametri da aggiustare.

In alcuni casi potresti voler consentire alle recensioni di essere indicizzate. In questo caso  rimuovi la parte “Disallow: / recensione /” dal file robots.txt.

2. File robot.txt di Blueacorn

Questo è un esempio del sito portfolio:

User-agent: *
Disallow: /index.php/
Disallow: /*?
Disallow: /*.js$
Disallow: /*.css$
Disallow: /customer/
Disallow: /checkout/
Disallow: /js/
Disallow: /lib/
Disallow: /media/
Allow: /media/catalog/product/
Disallow: /*.php$
Disallow: /skin/
Disallow: /catalog/product/view/User-agent: Googlebot-Image
Disallow: /
Allow: /media/catalog/product/Sitemap: http://example.com/sitemap/sitemap.xml

Qui invece segue un altro esempio sempre da BlueAcorn leggermente diverso:

# Crawlers Setup
User-agent: *
Crawl-delay: 10# Allowable Index
Allow: /*?p=Allow: /media/# Directories
Disallow: /404/
Disallow: /app/
Disallow: /cgi-bin/
Disallow: /downloader/
Disallow: /includes/
Disallow: /js/
Disallow: /lib/
Disallow: /magento/
# Disallow: /media/
Disallow: /pkginfo/
Disallow: /report/
Disallow: /skin/
Disallow: /stats/
Disallow: /var/# Paths (clean URLs)
Disallow: /index.php/
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalog/product/view/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /control/
Disallow: /contacts/
Disallow: /customer/
Disallow: /customize/
Disallow: /newsletter/
Disallow: /poll/
Disallow: /review/
Disallow: /sendfriend/
Disallow: /tag/
Disallow: /wishlist/# Files
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /error_log
Disallow: /install.php
Disallow: /LICENSE.html
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /STATUS.txt# Paths (no clean URLs)
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*.php$
Disallow: /*?p=*&
Disallow: /*?SID=

Come puoi vedere sopra, loro permettono il parametro ?p ma non permettono in caso c’è un altro parametro usato nel frattempo con ?p. Questo approccio è abbastanza interessante poichè permette l’implementazione “rel prev next” ma non consente la combinazione con altri attributi. Personalmente preferisco la soluzione di questo problema con “noindex, follow” ma questo non è male.

3. File robot.txt di Groove Commerce

Questo è un esempio del sito portfolio di Groove Commerce:

# Groove Commerce Magento Robots.txt 05/2011
#
# robots.txt
#
# This file is to prevent the crawling and indexing of certain parts
# of your site by web crawlers and spiders run by sites like Yahoo!
# and Google. By telling these “robots” where not to go on your site,
# you save bandwidth and server resources.
#
# This file will be ignored unless it is at the root of your host:
# Used: http://example.com/robots.txt
# Ignored: http://example.com/site/robots.txt
#
# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/wc/robots.html
#
# For syntax checking, see:
# http://www.sxw.org.uk/computing/robots/check.html

# Website Sitemap
Sitemap: http://www.eckraus.com/sitemap.xml

# Crawlers Setup

# Directories
User-agent: *
Disallow: /404/
Disallow: /app/
Disallow: /cgi-bin/
Disallow: /downloader/
Disallow: /includes/
Disallow: /js/
Disallow: /lib/
Disallow: /magento/
Disallow: /pkginfo/
Disallow: /report/
Disallow: /skin/
Disallow: /stats/
Disallow: /var/
Disallow: /blog/

# Paths (clean URLs)
User-agent: *
Disallow: /index.php/
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalog/product/view/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /control/
Disallow: /contacts/
Disallow: /customer/
Disallow: /customize/
Disallow: /newsletter/
Disallow: /poll/
Disallow: /review/
Disallow: /sendfriend/
Disallow: /tag/
Disallow: /wishlist/

# Files
User-agent: *
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /error_log
Disallow: /install.php
Disallow: /LICENSE.html
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /STATUS.txt

# Paths (no clean URLs)
User-agent: *
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*.php$
Disallow: /*?p=*&
Disallow: /*?SID=

4. File robot.txt di Astrio (Prima Turnkeye)

Qui invece c’è un esempio dal portfolio di Astrio:

User-agent: *
Disallow: /*?
Disallow: /app/
Disallow: /catalog/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /customer/
Disallow: /downloader/
Disallow: /js/
Disallow: /lib/
Disallow: /pkginfo/
Disallow: /report/
Disallow: /skin/
Disallow: /tag/
Disallow: /review/
Disallow: /var/

Come puoi vedere, molte delle agenzie Magento hanno un approccio molto simile al file robots.txt, ma fa attenzione, prima di  copiare e incollare alla cieca qualsiasi codice nel tuo negozio, affidati alla tua agenzia.

Se hai bisogno della nostra consulenza, contattaci.

Ti è piaciuto questo articolo? Votalo!

Torna in alto