Novità!!! E' disponibile il Video Corso "E-commerce con Magento" + di 20h di formazione Scopri di più

Come ottimizzare i file Robots.txt di Magento

Molto spesso capita che, in ottica SEO in Magento, non si sappia bene come creare correttamente un file robots.txt per indicare agli spider dei motori di ricerca quali pagine non debbano essere esaminate. In questo articolo ti spiegherò le best practice per la creazione ottimale di questo file.

file robot.txt seo
5/5 (2)

Molto spesso capita che, in ottica SEO Magento, non si sappia bene come creare correttamente un file robots.txt per indicare agli spider dei motori di ricerca quali pagine non debbano essere esaminate. In questo articolo ti spiegherò le best practice per la creazione ottimale di questo file.

robotsMagentoRicordo che non bisognerebbe mai prendere i file robots.txt e posizionarli in modo casuale in Magento.

Ogni negozio ha una propria struttura ed in ogni caso c’è la necessità di modificare alcune parti del contenuto del file. Questo viene fatto per far sì che il file si adattatti meglio alle esigenze specifiche della struttura degli URL e a seconda delle priorità che avete.

Chiedi sempre al tuo consulente E-Commerce di modificare il file robots.txt per il vostro store di testare il sito su Google Webmaster Tools per vedere se alcune pagine sono bloccate. 

Di seguito mostrerò i robots.txt di Magento usati da 4 agenzie che usano Magento come indicato nell’articolo di Inchoo.

 

1. File robot.txt di Inchoo

Questo è un boilerplate del file robots.txt usato da Inchoo:

# Google Image Crawler Setup
User-agent: Googlebot-Image
Disallow:# Crawlers Setup
User-agent: *# Directories
Disallow: /404/
Disallow: /app/
Disallow: /cgi-bin/
Disallow: /downloader/
Disallow: /errors/
Disallow: /includes/
#Disallow: /js/
#Disallow: /lib/
Disallow: /magento/
#Disallow: /media/
Disallow: /pkginfo/
Disallow: /report/
Disallow: /scripts/
Disallow: /shell/
Disallow: /skin/
Disallow: /stats/
Disallow: /var/# Paths (clean URLs)
Disallow: /index.php/
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalog/product/view/
Disallow: /catalogsearch/
#Disallow: /checkout/
Disallow: /control/
Disallow: /contacts/
Disallow: /customer/
Disallow: /customize/
Disallow: /newsletter/
Disallow: /poll/
Disallow: /review/
Disallow: /sendfriend/
Disallow: /tag/
Disallow: /wishlist/
Disallow: /catalog/product/gallery/# Files
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /error_log
Disallow: /install.php
Disallow: /LICENSE.html
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /STATUS.txt# Paths (no clean URLs)
#Disallow: /*.js$
#Disallow: /*.css$
Disallow: /*.php$
Disallow: /*?SID=

Come puoi vedere sopra, il file consente l’indicizzazione per la ricerca dell’immagine mentre non permette l’indicizzazione di alcune pagine vuote.

Questo previene alcune cartelle che di solito sono indesiderate nell’indice di una comune installazione di un negozio online Magento.

Ricorda che il file non esclude la maggiorparte dei parametri di ordinamento e di impaginazione poiche dò per scontato che  li sistemerai usando “rel prev” nella prossima attuazione e aggiungendo il meta “noindex, follow” nel resto dei parametri da aggiustare.

In alcuni casi potresti voler consentire alle recensioni di essere indicizzate. In questo caso  rimuovi la parte “Disallow: / recensione /” dal file robots.txt.

2. File robot.txt di Blueacorn

Questo è un esempio del sito portfolio:

User-agent: *
Disallow: /index.php/
Disallow: /*?
Disallow: /*.js$
Disallow: /*.css$
Disallow: /customer/
Disallow: /checkout/
Disallow: /js/
Disallow: /lib/
Disallow: /media/
Allow: /media/catalog/product/
Disallow: /*.php$
Disallow: /skin/
Disallow: /catalog/product/view/User-agent: Googlebot-Image
Disallow: /
Allow: /media/catalog/product/Sitemap: http://example.com/sitemap/sitemap.xml

Qui invece segue un altro esempio sempre da BlueAcorn leggermente diverso:

# Crawlers Setup
User-agent: *
Crawl-delay: 10# Allowable Index
Allow: /*?p=Allow: /media/# Directories
Disallow: /404/
Disallow: /app/
Disallow: /cgi-bin/
Disallow: /downloader/
Disallow: /includes/
Disallow: /js/
Disallow: /lib/
Disallow: /magento/
# Disallow: /media/
Disallow: /pkginfo/
Disallow: /report/
Disallow: /skin/
Disallow: /stats/
Disallow: /var/# Paths (clean URLs)
Disallow: /index.php/
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalog/product/view/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /control/
Disallow: /contacts/
Disallow: /customer/
Disallow: /customize/
Disallow: /newsletter/
Disallow: /poll/
Disallow: /review/
Disallow: /sendfriend/
Disallow: /tag/
Disallow: /wishlist/# Files
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /error_log
Disallow: /install.php
Disallow: /LICENSE.html
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /STATUS.txt# Paths (no clean URLs)
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*.php$
Disallow: /*?p=*&
Disallow: /*?SID=

Come puoi vedere sopra, loro permettono il parametro ?p ma non permettono in caso c’è un altro parametro usato nel frattempo con ?p. Questo approccio è abbastanza interessante poichè permette l’implementazione “rel prev next” ma non consente la combinazione con altri attributi. Personalmente preferisco la soluzione di questo problema con “noindex, follow” ma questo non è male.

3. File robot.txt di Groove Commerce

Questo è un esempio del sito portfolio di Groove Commerce:

# Groove Commerce Magento Robots.txt 05/2011
#
# robots.txt
#
# This file is to prevent the crawling and indexing of certain parts
# of your site by web crawlers and spiders run by sites like Yahoo!
# and Google. By telling these “robots” where not to go on your site,
# you save bandwidth and server resources.
#
# This file will be ignored unless it is at the root of your host:
# Used: http://example.com/robots.txt
# Ignored: http://example.com/site/robots.txt
#
# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/wc/robots.html
#
# For syntax checking, see:
# http://www.sxw.org.uk/computing/robots/check.html

# Website Sitemap
Sitemap: http://www.eckraus.com/sitemap.xml

# Crawlers Setup

# Directories
User-agent: *
Disallow: /404/
Disallow: /app/
Disallow: /cgi-bin/
Disallow: /downloader/
Disallow: /includes/
Disallow: /js/
Disallow: /lib/
Disallow: /magento/
Disallow: /pkginfo/
Disallow: /report/
Disallow: /skin/
Disallow: /stats/
Disallow: /var/
Disallow: /blog/

# Paths (clean URLs)
User-agent: *
Disallow: /index.php/
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalog/product/view/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /control/
Disallow: /contacts/
Disallow: /customer/
Disallow: /customize/
Disallow: /newsletter/
Disallow: /poll/
Disallow: /review/
Disallow: /sendfriend/
Disallow: /tag/
Disallow: /wishlist/

# Files
User-agent: *
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /error_log
Disallow: /install.php
Disallow: /LICENSE.html
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /STATUS.txt

# Paths (no clean URLs)
User-agent: *
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*.php$
Disallow: /*?p=*&
Disallow: /*?SID=

4. File robot.txt di Astrio (Prima Turnkeye)

Qui invece c’è un esempio dal portfolio di Astrio:

User-agent: *
Disallow: /*?
Disallow: /app/
Disallow: /catalog/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /customer/
Disallow: /downloader/
Disallow: /js/
Disallow: /lib/
Disallow: /pkginfo/
Disallow: /report/
Disallow: /skin/
Disallow: /tag/
Disallow: /review/
Disallow: /var/

Come puoi vedere, molte delle agenzie Magento hanno un approccio molto simile al file robots.txt, ma fa attenzione, prima di  copiare e incollare alla cieca qualsiasi codice nel tuo negozio, affidati alla tua agenzia.

Se hai bisogno della nostra consulenza, contattaci.

Ti è piaciuto questo articolo? Votalo!

Vuoi imparare meglio Magento?

Abbiamo preparato per te un Video corso di oltre 20h di formazione: dall'installazione alla configurazione. Dalla gestione prodotti, alla SEO on page, marketing e molto altro ancora!

Impara in fretta come creare e gestire un e-commerce con Magento, con l'esperienza degli esperti Magento.

Scopri di più

  • Daniela

    Salve, volevo chiedere se è possibile che queste indicazioni robots non
    vadano d’accordo con l’https, perchè il mio modello di robots.txt è
    basato su questi modelli che avete indicato, e da quando sono passata ad
    https l’80% delle pagine risultano bloccate dai robots. Pertanto mi chiedevo se
    c’è la possibilità che queste indicazioni valgano solo per l’http. Grazie!

    • Ciao Daniela, no non influisce. Dovresti però controllare che i redirect funzionino bene da http a https.

      • Daniela

        Sì apparentemente funzionano, a 2 mesi dal passaggio i link hanno status 200 su screamingfrog, anche il test di pagine campione sui robots della search console restituisce “consentito”. Li ricontrollo di nuovo comunque. Grazie Andrea.

  • Simone Cociancich

    Mi chiedo come abbia fatto “Astrio” diventare “Turnkeye” nel corso della traduzione.

Magento è un marchio registrato di Magento Inc. MagenTiamo è un progetto indipendente non affiliato direttamente dal progetto Magento o chi ne detiene il trademark.