Google indica a los webmasters que eliminen Noindex del Robots.txt

A partir del 1 de septiembre de 2019, Google dejará de admitir directivas no compatibles dentro de los archivos robots.txt relacionadas con la indexación. De modo que a partir de esa fecha, todas las directivas relacionadas con etiquetas “NoIndex” deberían eliminarse del robots.txt e implementarse correctamente.

Este movimiento se produce después de que Google publicase en su Blog central para webmasters la Especificación del Protocolo de Exclusión de Robots, presentando el REP como un estándar oficial de Internet para desarrolladores y webmasters en toda la web. Afirmaron que “los desarrolladores han interpretado el protocolo de manera algo diferente a lo largo de los años”, y luego describieron cómo el REP no se ha actualizado para satisfacer los requisitos modernos de Internet.

Por esta razón, Google ha trabajado con webmasters, motores de búsqueda y el autor original del REP para actualizar las reglas y aclarar una serie de puntos diferentes. Desde entonces, esto se envió al IETF (Grupo de trabajo de ingeniería de Internet) y parece estar pendiente de revisión.

Utilizando su experiencia con robots.txt, estos estándares propuestos han aclarado algunos puntos inciertos, particularmente en relación con la indexación. Las reglas son generalmente las mismas, pero Google afirma que la nueva aclaración “define esencialmente todos los escenarios indefinidos para el análisis y la coincidencia de robots.txt, y lo extiende para la web moderna”.

¿Cuáles son los nuevos puntos de especificación del protocolo de exclusión de robots?

Teniendo en cuenta lo anterior, Google ha enumerado lo siguiente como los puntos más notables del nuevo estándar propuesto:

  • Cualquier protocolo de transferencia basado en URL, no solo HTTP, puede usar robots.txt, incluidos GTP o CoAP
  • Habrá un nuevo tamaño máximo de archivo, que requerirá que los desarrolladores analicen al menos los primeros 500 kibibytes de un archivo robots.txt. Esto aliviará la tensión en los servidores y asegurará que las conexiones no estén abiertas durante largos períodos de tiempo.
  • Los propietarios de sitios web obtendrán una mayor flexibilidad para actualizar robots.txt mediante un nuevo tiempo de almacenamiento en caché máximo de 24 horas o un valor de directiva de caché. Esto garantiza que los rastreadores no sobrecarguen los sitios web.
  • En los casos en que el archivo robots.txt ya no esté disponible, Google o cualquier otro robot de rastreo no rastreará páginas no autorizadas previamente conocidas durante un período de tiempo razonable.

¿Cómo evito que Google rastree mi sitio?

Después de la notificación de Google a los webmasters de que deberían dejar de usar robots.txt para indexar las páginas, obviamente estarás preguntándote cómo debería no permitir el rastreo en su lugar. Afortunadamente, hay varias formas de hacerlo correctamente antes de la fecha límite del 1 de septiembre.

  • Agrega noindex a tus metaetiquetas de robots. Esto es compatible con los encabezados de respuesta HTML y HTTP.
  • Los códigos de estado HTTP 404 y 410 se pueden usar para eliminar las URL del índice una vez que estos códigos han sido procesados.
  • Protege con contraseña el contenido relacionado con la cuenta, la sección de pago o la de suscripción mediante una página de inicio de sesión. Esto generalmente eliminará estas URL del índice de Google.
  • Todavía puede usar robots.txt para evitar que una URL se indexe utilizando una regla de rechazo.
  • Elimina la URL con Search Console. Esto es rápido, simple y reduce el riesgo de error del webmaster.

No está claro si Google proporcionará una aclaración más directa antes de que el IETP publique los nuevos estándares, sin embargo, su información dada hasta ahora ha proporcionado a los webmasters un punto de partida para mejorar los archivos robots.txt.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *