Visualização combinada Visão plana Exibição em árvore
Tópicos [ Anterior | Próximo ]
toggle
Miguel Ángel Pau
[SEO]Gestión de múltiples robots.txt y sitemaps
27 de Janeiro de 2009 08:52
Resposta

Miguel Ángel Pau

Ranking: Regular Member

Mensagens: 157

Data de entrada: 26 de Abril de 2005

Mensagens recentes

Hola a tod@s!

Usar varios sitemaps en escenarios con hosting compartido es fácil con las Herramientas para Webmasters de Google porque podemos decirle el nombre del sitemap, dar un nombre de sitemap distinto para cada site y listo, pero la cosa se complica para otros buscadores. El fichero robots.txt por suerte permite indicar el nombre del sitemap que debe ser usado para un site introduciendo esta línea:

1Sitemap: http://www.TuSitio.com/sitemap.xml


Pero... ¿Cómo pongo un robots.txt para cada una de mis instancias en un mismo servidor?

No hace mucho estuve revisando el foro en busca de post relacionados con el uso del robots.txt y los sitemaps en entornos dónde se comparte el hosting y comprobé que más de uno está en la misma situación. El uso de un Sitemap-Index no permite hacer el mapeo para varios dominios de manera que tuvimos que buscar alternativas y parece que hemos dado con un método para tener más de un robots.txt en el que indicar el sitemap correspondiente para cada site, amén de las url's permidas/denegadas para los motores de búsqueda, el handicap está en que sólo se puede hacer uso de este método si se tiene acceso al httpd.conf de Apache.

Basándonos en los rewrite que se usan en algunos casos para temas de posicionamiento probamos una configuración que consiste en gestionar las peticiones del robots.txt, es decir, cuando un buscador llega a nuestro site y pide el robots.txt en apache le decimos que el robots.txt para ese site es robots_TuSite1.txt

1º Creamos el robots_TuSite1.txt con la línea para el sitemap que se desee usar (como pone más arriba). Este .txt tiene que estar en el raiz del war. Con tomcat: <instalación_del_tomcat>/tomcat/webapps/ROOT/robots_TuSite1.txt

2º Tocamos el httpd.conf

Lo que tenemos en el httpd.conf es algo parecido a esto:

 1
 2<VirtualHost www.TuSite1.com>
 3  .....
 4   RewriteEngine on
 5   RewriteCond %{REQUEST_URI} ^/robots.txt$ [NC]
 6   RewriteRule ^/(.*)$ http://www.TuSite1.com/robots_TuSite1.txt [R,L]
 7  ....
 8   <Location>
 9    ....
10    ....
11   </Location>
12</VirtualHost>


Las líneas importantes son las 3 del Rewrite. Hay que asegurarse que en el httpd.conf estamos 'importanto' el módulo del rewrite, para ello buscaremos la siguiente línea:

1LoadModule rewrite_module modules/mod_rewrite.so


3º Reiniciar Apache.

Deberemos crear tantos robots_TuSiteN.txt como instancias con distinto dominio y deberemos modificar el apache para cada uno de los dominios que aparezcan en el httpd.conf.

Espero que os resulte de utilidad.
Jorge Ferrer
RE: [SEO]Gestión de múltiples robots.txt y sitemaps
30 de Janeiro de 2009 04:40
Resposta

Jorge Ferrer

LIFERAY STAFF

Ranking: Liferay Legend

Mensagens: 2768

Data de entrada: 31 de Agosto de 2006

Mensagens recentes

Muy interesante Miguel Angel, gracias por compartir la información con todo el mundo.

¿Te animarías a incluirlo en el wiki en inglés? Te lo pongo fácil sólo tienes que seguir este enlace: Management of multiple sitemaps for increased SEO

Por cierto, ahora mismo estamos haciendo varias mejoras relacionadas con SEO, en particular relacionados con cambiar los titulos, descripción y keywords de la página dinámicamente.

¿Tienes alguna sugerencia relacionada con lo que comentas en este artículo para mejorar las funcionalidades de SEO de Liferay?
Miguel Ángel Pau
RE: [SEO]Gestión de múltiples robots.txt y sitemaps
30 de Janeiro de 2009 10:48
Resposta

Miguel Ángel Pau

Ranking: Regular Member

Mensagens: 157

Data de entrada: 26 de Abril de 2005

Mensagens recentes

Dicho y hecho! Lo he traducido y he incluido capturas para el código. pido disculpas por anticipado por mi inglés! emoticon

metas dinámicos?? Quiero saber más!! emoticon

Pues respecto a este tema ... igual liferay podría hacer esta gestión a nivel interno, algo parecido a lo que hace con los urls amigables pero con una opción para los parámetros que se deseen asignar al robots.txt. No se hasta que punto es viable.

Otros temas SEO importantes que estuve viendo eran la indexación multi-idioma, parece ser efectiva con I18, y los sitemaps con urls amigables que ya he visto que está resuelto en la 5.1.2.

Un saludo!
Jorge Ferrer
RE: [SEO]Gestión de múltiples robots.txt y sitemaps
1 de Fevereiro de 2009 02:32
Resposta

Jorge Ferrer

LIFERAY STAFF

Ranking: Liferay Legend

Mensagens: 2768

Data de entrada: 31 de Agosto de 2006

Mensagens recentes

Hola Miguel,

Muy buen artículo. Una pregunta, con respecto a incorporar la gestión del robots.txt en Liferay, ¿puedes darme más detalles sobre qué habría que cambiar en Liferay? En concreto ¿Desde donde se administraría? ¿Cómo se publicaría esa información?

Respecto a los metas dinámicos estad atentos a los cambios en trunk e ireis viendo emoticon También publicaré una entrada en el blog cuando esté terminado.
Miguel Ángel Pau
RE: [SEO]Gestión de múltiples robots.txt y sitemaps
25 de Fevereiro de 2009 04:59
Resposta

Miguel Ángel Pau

Ranking: Regular Member

Mensagens: 157

Data de entrada: 26 de Abril de 2005

Mensagens recentes

Disculpad la demora en mi respuesta! (hasta arriba de trabajo!)

El ideal sería que Liferay procesara internamente tanto las peticiones del robots.txt como las del sitemap.xml para cada dominio, de este modo no sería necesario tocar apache y sería accesible para el cliente final sin necesidad de acceder por ftp al hosting.

Como liferay conoce el dominio asignado a la instancia creo que debería ser capaz de generar y escribir en raíz un robot_<dominio>.txt y un sitemap_<dominio>.xml sin mayor dificultad.

Una vez que estuvieran todas las páginas configuradas, la generación del sitemap podría activarse desde 'Sitemaps' en el portlet 'Comunidades' mediante un botón 'Generar'. Una vez generado el sitemap Liferay debería devolver www.dominio.com/sitemap_dominio.xml para las peticiones de www.dominio.com/sitemap.xml

En cuanto al robots.txt, dado que su configuración puede ser muy 'variopinta', pienso que lo mejor sería un botón que abra un FCKeditor desde el que introducir toda la configuración personalizada que se desee. En el momento que se haya guardado al menos una vez debería generar el robots_dominio.txt y resolver las peticiones de forma análoga a las de los sitemaps.

La pestaña 'Robots' con el botón podría estar en 'Configuración' dentro del portlet 'Administración de Empresa' o bien en el portlet 'Comunidades' en función del tipo de instalación que se tenga en producción. (Ver imágenes).

Hay mas historias con temas SEO como las confirmaciones de "propietario" de un site para Google Webmasters Tools o Yahoo Site Explorer o el reciente tag de urls 'canónicas' que sería interesante poder administrar sin necesidad de tocar los templates o accediendo al servidor, sobre todo para clientes finales que hacen sus pinitos en SEO o tienen un soporte ofrecido por terceros. Para todo esto sería tremendamente util un 'generador de metas' , por llamarlo de alguna manera. Algo que escriba sobre el <head> del portal_normal.vm tantos metas como nos de la gana.

Espero haber detallado lo suficiente.

Un saludo a tod@s!
Anexo

Anexo

Anexos: robots1.jpg (92,4k), robots2.jpg (96,4k)
Jorge Ferrer
RE: [SEO]Gestión de múltiples robots.txt y sitemaps
25 de Fevereiro de 2009 09:30
Resposta

Jorge Ferrer

LIFERAY STAFF

Ranking: Liferay Legend

Mensagens: 2768

Data de entrada: 31 de Agosto de 2006

Mensagens recentes

Hola Miguel,

Muchas gracias por las sugerencias. Según leía me han surgido algunas preguntas...

Respecto al sitemap, ¿como sugieres generarlo? ¿usando algún tipo de sistema que rastrea URLs? ¿Teneis ya hecho algo así (aunque sea offline) que podríais contribuir?

Respecto al robots, ¿qué relación tendría con la configuración que ya existe por página?

Por cierto, tienes que ver el nuevo panel de control, y cuando salga la versión 5.2.2 la nueva interfaz de configuración. Cuando lo hayas visto me cuentas que te ha parecido ;)
Miguel Ángel Pau
RE: [SEO]Gestión de múltiples robots.txt y sitemaps
26 de Fevereiro de 2009 10:34
Resposta

Miguel Ángel Pau

Ranking: Regular Member

Mensagens: 157

Data de entrada: 26 de Abril de 2005

Mensagens recentes

Hola Jorge!

Hay que ver que "mala" costumbre tienes de ponernos los dientes largos! emoticon

El sitemps ya lo genera Liferay en base a los parámetros de prioridad y frecuencia que se le dan desde 'Administrar páginas', faltaría que creara el .xml, lamentablente no tenemos nada hecho que pueda aplicarse en este sentido.

En cuanto al robots, la configuración que se puede añadir actualmente es genérica para todos los buscadores: index/noindex , follow/nofollow, all y none.

En un robots.txt además de poder especificar para cada motor de búsqueda y de manera independiente lo que debe o no debe indexar se puede detallar el sitemaps del site facilitanto este dato a todos los buscadores, no solo google o yahoo.

Por cierto! El enlace al wiki apunta al editor, este es el bueno : Management of multiple sitemaps for increased SEO
Julio Hurtado
RE: [SEO]Gestión de múltiples robots.txt y sitemaps
15 de Maio de 2012 13:03
Resposta

Julio Hurtado

Ranking: New Member

Mensagens: 3

Data de entrada: 14 de Maio de 2012

Mensagens recentes

yo tengo el liferay 6.0.6 + jboss, sin embargo el robots.txt lo tengo al siguiente nivel y no me funciona D:\LiferayIBK\jboss-5.1.0\server\default\deploy\ROOT.war.. me aparece el mensaje de

Estado
No encontrado

El recurso solicitado no ha sido encontrado.

http://192.168.1.164/web/guest/robots.txt

Gracias
Miguel Ángel Pau
RE: [SEO]Gestión de múltiples robots.txt y sitemaps
16 de Maio de 2012 04:03
Resposta

Miguel Ángel Pau

Ranking: Regular Member

Mensagens: 157

Data de entrada: 26 de Abril de 2005

Mensagens recentes

Hola Julio,

Si \ROOT.war es el directorio raíz del portal deberías poder acceder al fichero robots.txt desde http://192.168.1.164/robots.txt o http://localhost:8080/robots.txt si estás haciendo las pruebas en la máquina dónde está el jboss con Liferay.

Cuando tengas el portal en producción la ruta "natural" a la que irán los motores de búsqueda es a la raíz del sitio web/portal.

Espero que te sirva de ayuda.

Saludos!!