Fórum

RE: [SEO]Gestión de múltiples robots.txt y sitemaps

thumbnail
Miguel P, modificado 15 Anos atrás.

[SEO]Gestión de múltiples robots.txt y sitemaps

Regular Member Postagens: 172 Data de Entrada: 27/04/05 Postagens Recentes
Hola a tod@s!

Usar varios sitemaps en escenarios con hosting compartido es fácil con las Herramientas para Webmasters de Google porque podemos decirle el nombre del sitemap, dar un nombre de sitemap distinto para cada site y listo, pero la cosa se complica para otros buscadores. El fichero robots.txt por suerte permite indicar el nombre del sitemap que debe ser usado para un site introduciendo esta línea:

Sitemap: http://www.TuSitio.com/sitemap.xml


Pero... ¿Cómo pongo un robots.txt para cada una de mis instancias en un mismo servidor?

No hace mucho estuve revisando el foro en busca de post relacionados con el uso del robots.txt y los sitemaps en entornos dónde se comparte el hosting y comprobé que más de uno está en la misma situación. El uso de un Sitemap-Index no permite hacer el mapeo para varios dominios de manera que tuvimos que buscar alternativas y parece que hemos dado con un método para tener más de un robots.txt en el que indicar el sitemap correspondiente para cada site, amén de las url's permidas/denegadas para los motores de búsqueda, el handicap está en que sólo se puede hacer uso de este método si se tiene acceso al httpd.conf de Apache.

Basándonos en los rewrite que se usan en algunos casos para temas de posicionamiento probamos una configuración que consiste en gestionar las peticiones del robots.txt, es decir, cuando un buscador llega a nuestro site y pide el robots.txt en apache le decimos que el robots.txt para ese site es robots_TuSite1.txt

1º Creamos el robots_TuSite1.txt con la línea para el sitemap que se desee usar (como pone más arriba). Este .txt tiene que estar en el raiz del war. Con tomcat: <instalación_del_tomcat>/tomcat/webapps/ROOT/robots_TuSite1.txt

2º Tocamos el httpd.conf

Lo que tenemos en el httpd.conf es algo parecido a esto:

[indent]

<virtualhost www.tusite1.com>
  .....
   RewriteEngine on
   RewriteCond %{REQUEST_URI} ^/robots.txt$ [NC]
   RewriteRule ^/(.*)$ http://www.TuSite1.com/robots_TuSite1.txt [R,L]
  ....
   <location>
    ....
    ....
   </location>
</virtualhost>
[/indent]

Las líneas importantes son las 3 del Rewrite. Hay que asegurarse que en el httpd.conf estamos 'importanto' el módulo del rewrite, para ello buscaremos la siguiente línea:

LoadModule rewrite_module modules/mod_rewrite.so


3º Reiniciar Apache.

Deberemos crear tantos robots_TuSiteN.txt como instancias con distinto dominio y deberemos modificar el apache para cada uno de los dominios que aparezcan en el httpd.conf.

Espero que os resulte de utilidad.
thumbnail
Jorge Ferrer, modificado 15 Anos atrás.

RE: [SEO]Gestión de múltiples robots.txt y sitemaps

Liferay Legend Postagens: 2871 Data de Entrada: 31/08/06 Postagens Recentes
Muy interesante Miguel Angel, gracias por compartir la información con todo el mundo.

¿Te animarías a incluirlo en el wiki en inglés? Te lo pongo fácil sólo tienes que seguir este enlace: Management of multiple sitemaps for increased SEO

Por cierto, ahora mismo estamos haciendo varias mejoras relacionadas con SEO, en particular relacionados con cambiar los titulos, descripción y keywords de la página dinámicamente.

¿Tienes alguna sugerencia relacionada con lo que comentas en este artículo para mejorar las funcionalidades de SEO de Liferay?
thumbnail
Miguel P, modificado 15 Anos atrás.

RE: [SEO]Gestión de múltiples robots.txt y sitemaps

Regular Member Postagens: 172 Data de Entrada: 27/04/05 Postagens Recentes
Dicho y hecho! Lo he traducido y he incluido capturas para el código. pido disculpas por anticipado por mi inglés! emoticon

metas dinámicos?? Quiero saber más!! emoticon

Pues respecto a este tema ... igual liferay podría hacer esta gestión a nivel interno, algo parecido a lo que hace con los urls amigables pero con una opción para los parámetros que se deseen asignar al robots.txt. No se hasta que punto es viable.

Otros temas SEO importantes que estuve viendo eran la indexación multi-idioma, parece ser efectiva con I18, y los sitemaps con urls amigables que ya he visto que está resuelto en la 5.1.2.

Un saludo!
thumbnail
Jorge Ferrer, modificado 15 Anos atrás.

RE: [SEO]Gestión de múltiples robots.txt y sitemaps

Liferay Legend Postagens: 2871 Data de Entrada: 31/08/06 Postagens Recentes
Hola Miguel,

Muy buen artículo. Una pregunta, con respecto a incorporar la gestión del robots.txt en Liferay, ¿puedes darme más detalles sobre qué habría que cambiar en Liferay? En concreto ¿Desde donde se administraría? ¿Cómo se publicaría esa información?

Respecto a los metas dinámicos estad atentos a los cambios en trunk e ireis viendo emoticon También publicaré una entrada en el blog cuando esté terminado.
thumbnail
Miguel P, modificado 15 Anos atrás.

RE: [SEO]Gestión de múltiples robots.txt y sitemaps

Regular Member Postagens: 172 Data de Entrada: 27/04/05 Postagens Recentes
Disculpad la demora en mi respuesta! (hasta arriba de trabajo!)

El ideal sería que Liferay procesara internamente tanto las peticiones del robots.txt como las del sitemap.xml para cada dominio, de este modo no sería necesario tocar apache y sería accesible para el cliente final sin necesidad de acceder por ftp al hosting.

Como liferay conoce el dominio asignado a la instancia creo que debería ser capaz de generar y escribir en raíz un robot_<dominio>.txt y un sitemap_<dominio>.xml sin mayor dificultad.

Una vez que estuvieran todas las páginas configuradas, la generación del sitemap podría activarse desde 'Sitemaps' en el portlet 'Comunidades' mediante un botón 'Generar'. Una vez generado el sitemap Liferay debería devolver www.dominio.com/sitemap_dominio.xml para las peticiones de www.dominio.com/sitemap.xml

En cuanto al robots.txt, dado que su configuración puede ser muy 'variopinta', pienso que lo mejor sería un botón que abra un FCKeditor desde el que introducir toda la configuración personalizada que se desee. En el momento que se haya guardado al menos una vez debería generar el robots_dominio.txt y resolver las peticiones de forma análoga a las de los sitemaps.

La pestaña 'Robots' con el botón podría estar en 'Configuración' dentro del portlet 'Administración de Empresa' o bien en el portlet 'Comunidades' en función del tipo de instalación que se tenga en producción. (Ver imágenes).

Hay mas historias con temas SEO como las confirmaciones de "propietario" de un site para Google Webmasters Tools o Yahoo Site Explorer o el reciente tag de urls 'canónicas' que sería interesante poder administrar sin necesidad de tocar los templates o accediendo al servidor, sobre todo para clientes finales que hacen sus pinitos en SEO o tienen un soporte ofrecido por terceros. Para todo esto sería tremendamente util un 'generador de metas' , por llamarlo de alguna manera. Algo que escriba sobre el <head> del portal_normal.vm tantos metas como nos de la gana.

Espero haber detallado lo suficiente.

Un saludo a tod@s!
thumbnail
Jorge Ferrer, modificado 15 Anos atrás.

RE: [SEO]Gestión de múltiples robots.txt y sitemaps

Liferay Legend Postagens: 2871 Data de Entrada: 31/08/06 Postagens Recentes
Hola Miguel,

Muchas gracias por las sugerencias. Según leía me han surgido algunas preguntas...

Respecto al sitemap, ¿como sugieres generarlo? ¿usando algún tipo de sistema que rastrea URLs? ¿Teneis ya hecho algo así (aunque sea offline) que podríais contribuir?

Respecto al robots, ¿qué relación tendría con la configuración que ya existe por página?

Por cierto, tienes que ver el nuevo panel de control, y cuando salga la versión 5.2.2 la nueva interfaz de configuración. Cuando lo hayas visto me cuentas que te ha parecido ;)
thumbnail
Miguel P, modificado 15 Anos atrás.

RE: [SEO]Gestión de múltiples robots.txt y sitemaps

Regular Member Postagens: 172 Data de Entrada: 27/04/05 Postagens Recentes
Hola Jorge!

Hay que ver que "mala" costumbre tienes de ponernos los dientes largos! emoticon

El sitemps ya lo genera Liferay en base a los parámetros de prioridad y frecuencia que se le dan desde 'Administrar páginas', faltaría que creara el .xml, lamentablente no tenemos nada hecho que pueda aplicarse en este sentido.

En cuanto al robots, la configuración que se puede añadir actualmente es genérica para todos los buscadores: index/noindex , follow/nofollow, all y none.

En un robots.txt además de poder especificar para cada motor de búsqueda y de manera independiente lo que debe o no debe indexar se puede detallar el sitemaps del site facilitanto este dato a todos los buscadores, no solo google o yahoo.

Por cierto! El enlace al wiki apunta al editor, este es el bueno : Management of multiple sitemaps for increased SEO
Julio Hurtado, modificado 11 Anos atrás.

RE: [SEO]Gestión de múltiples robots.txt y sitemaps

New Member Postagens: 3 Data de Entrada: 14/05/12 Postagens Recentes
yo tengo el liferay 6.0.6 + jboss, sin embargo el robots.txt lo tengo al siguiente nivel y no me funciona D:\LiferayIBK\jboss-5.1.0\server\default\deploy\ROOT.war.. me aparece el mensaje de

Estado
No encontrado

El recurso solicitado no ha sido encontrado.

http://192.168.1.164/web/guest/robots.txt

Gracias
thumbnail
Miguel Ángel Pau, modificado 11 Anos atrás.

RE: [SEO]Gestión de múltiples robots.txt y sitemaps

Regular Member Postagens: 172 Data de Entrada: 27/04/05 Postagens Recentes
Hola Julio,

Si \ROOT.war es el directorio raíz del portal deberías poder acceder al fichero robots.txt desde http://192.168.1.164/robots.txt o http://localhost:8080/robots.txt si estás haciendo las pruebas en la máquina dónde está el jboss con Liferay.

Cuando tengas el portal en producción la ruta "natural" a la que irán los motores de búsqueda es a la raíz del sitio web/portal.

Espero que te sirva de ayuda.

Saludos!!