Páginas Indexadas: Cómo Saber Cuántas Tienes

Imagen de Alberto Fernández - Consultor SEO Senior
Alberto Fernández - Consultor SEO Senior

Actualizado el: diciembre 1, 2025

11 min de lectura
Tabla de contenidos

Una de las primeras conversaciones que tengo con un nuevo cliente, casi siempre, gira en torno a esta pregunta: «Alberto, ¿cuántas páginas tiene mi web?». Y la respuesta suele generar un shock. El dueño de un ecommerce de Madrid me dirá «unas 500, que son mis productos», pero la realidad es que Google ve 15.000. O al revés, un bloguero de viajes cree tener 300 artículos y Google apenas conoce 80. La diferencia entre lo que crees que tienes y lo que Google realmente ve (y valora) es uno de los mayores agujeros por donde se escapa el potencial de tu SEO.

Llevo más de 10 años auditando webs de todos los tamaños, desde pequeños negocios en Chamberí hasta grandes portales nacionales, y te aseguro que el 90% de los sitios tienen un problema con su número de páginas. No se trata de tener más o menos, sino de tener las correctas. En este artículo voy a enseñarte, sin tecnicismos absurdos, cómo descubrir la verdad sobre tu web y qué hacer con esa información para que tu tráfico despegue de una vez por todas.

Lo que te llevarás de este artículo:

  • Por qué el «más es mejor» es un mito en SEO y cómo miles de páginas «basura» pueden estar matando tu visibilidad.
  • Los 3 métodos fiables para contar tus páginas, desde el más rápido hasta el más profesional (te diré cuál uso yo en mi día a día).
  • La diferencia real entre páginas rastreadas, indexadas y totales, explicado para que lo entiendas de una vez por todas.
  • Un checklist práctico para actuar si descubres que tienes un caos de URLs y no sabes por dónde empezar a limpiar.

¿Por qué es tan importante conocer el número real de tus páginas?

Antes de lanzarnos a contar, tienes que entender por qué esto es crucial. Muchos piensan que cuantas más páginas, más «grande» te ve Google y mejor. Error. Es uno de los mitos más dañinos del SEO. La verdad es que tener un montón de URLs inútiles es como intentar correr una maratón con una mochila llena de piedras. Te frena.

El problema del «index bloat» o la hinchazón del índice

El «index bloat» ocurre cuando tienes un número desproporcionado de páginas de baja calidad indexadas en Google. Hablo de páginas de filtros de búsqueda de un ecommerce, tags de un blog que no usa nadie, paginaciones infinitas, archivos de autor… Todas esas URLs que no aportan valor pero que Google tiene que procesar.

¿El resultado? Google diluye la autoridad de tu dominio entre miles de páginas débiles en lugar de concentrarla en las que de verdad importan: tus categorías, tus productos estrella o tus mejores artículos. Es una cuestión de foco.

Entendiendo tu presupuesto de rastreo

Google no tiene recursos infinitos. Asigna un «presupuesto de rastreo» (o crawl budget) a cada sitio web, que es, básicamente, el tiempo y los recursos que dedicará a revisar tus páginas. Si le haces perder el tiempo rastreando 10.000 URLs de filtros que no sirven para nada, es posible que no llegue a descubrir ese nuevo artículo brutal que has publicado o la nueva categoría de producto que quieres posicionar.

Optimizar el número de páginas reales y valiosas es decirle a Google: «Oye, no pierdas el tiempo por aquí, céntrate en esto que es lo bueno».

Detectando contenido de bajo valor (thin content)

Saber cuántas páginas tienes es el primer paso para detectar el thin content o contenido de baja calidad. Si tienes 2.000 URLs indexadas pero solo has escrito 150 artículos, tienes un problema. Esas páginas extra probablemente sean duplicados, contenido escaso o páginas sin valor que están dañando la percepción que Google tiene de la calidad general de tu sitio.

Métodos fiables para descubrir tus URLs (y los que no lo son tanto)

Vale, ya tienes claro el porqué. Ahora vamos al cómo. Hay varias formas de asomarse a las «tripas» de tu web, pero no todas son igual de fiables. Te las ordeno de menos a más precisa.

El comando `site:` en Google: una estimación, no una verdad absoluta

El método más rápido y conocido es ir a Google y buscar site:tudominio.com. Te devolverá un número aproximado de resultados. Ojo, y lo pongo en negrita: es una estimación. Nunca, jamás, tomes este número como la cifra real. A mí me sirve para tener una idea súper rápida, en 5 segundos, de la magnitud del sitio, pero nada más. A veces infla las cifras, otras se queda corto. Úsalo como un termómetro rápido, no como un análisis de sangre.

Google Search Console: tu fuente de la verdad

Aquí la cosa se pone seria. Google Search Console (GSC) es la herramienta gratuita de Google que te dice cómo ve tu sitio. Es tu canal de comunicación directo con el buscador. Dentro de GSC, en la sección «Páginas», verás dos datos clave: «Indexadas» y «No indexadas».

  • Páginas indexadas: Estas son las URLs que están en el índice de Google y pueden aparecer en los resultados de búsqueda. Este es el número más importante y el que más se acerca a la «realidad» según Google.
  • Páginas no indexadas: Aquí Google te dice qué páginas ha encontrado pero ha decidido no incluir en su índice, y te explica el porqué (bloqueadas por robots.txt, con etiqueta noindex, duplicadas, etc.).

La suma de ambas te da una idea muy precisa de todas las URLs que Google conoce de tu dominio. Para mí, GSC es la fuente de la verdad indispensable.

Herramientas de rastreo (crawlers): la visión completa

Si quieres el mapa completo de tu web, necesitas un crawler. Herramientas como Screaming Frog (mi favorita, tiene una versión gratuita para hasta 500 URLs) o Sitebulb actúan como un robot que recorre cada uno de los enlaces de tu web, de principio a fin. Te sacan un listado de TODAS las URLs accesibles, incluidas las que Google aún no ha descubierto.

Usar un crawler te permite encontrar problemas que GSC no siempre muestra, como las famosas «páginas huérfanas» (páginas que existen pero no están enlazadas desde ningún otro punto de tu web).

Tabla comparativa de métodos para contar páginas

Para que lo veas más claro, te he preparado una tabla resumen con mi opinión directa sobre cada método.

Método Fiabilidad Ideal para Mi opinión como SEO
Comando site: Baja Una estimación súper rápida en 10 segundos. ⭐⭐ Útil para un vistazo inicial, pero nunca para tomar decisiones.
Google Search Console Alta Entender qué páginas tiene Google en su índice y por qué. ⭐⭐⭐⭐⭐ Imprescindible. Es el dato oficial de Google. Si no lo usas, estás a ciegas.
Sitemap.xml Media Ver qué páginas le sugieres a Google que indexe. ⭐⭐⭐ Es una declaración de intenciones, pero no garantiza que Google las indexe todas.
Crawler (Screaming Frog) Muy Alta Una auditoría técnica completa para encontrar todas las URLs internas. ⭐⭐⭐⭐⭐ La herramienta profesional por excelencia. Te da el mapa completo de tu sitio.

He encontrado mis páginas, ¿y ahora qué? Pasos a seguir

Descubrir el número es solo el principio. La clave es qué haces con esa información. Lo más probable es que el número que te dé GSC o Screaming Frog no coincida con el que tenías en mente. No te asustes, es normal.

Analiza la discrepancia: ¿faltan o sobran páginas?

  • Si sobran páginas: Es el escenario más común. Seguramente tengas un problema de index bloat. La causa suelen ser parámetros de URL, filtros, tags, paginaciones… Toca identificar esas URLs de bajo valor y decidir qué hacer con ellas.
  • Si faltan páginas: Puede que tengas problemas de rastreo o de enlazado interno. Quizás tus artículos más importantes no están bien enlazados y Google no los encuentra, o alguna configuración técnica los está bloqueando.

Checklist para una limpieza de índice

Si has detectado que te sobran miles de URLs, aquí tienes un plan de acción rápido:

  1. Identifica los patrones de URLs «basura»: ¿Son todas URLs con el parámetro «?color=»? ¿Son tags del blog? Búscalas en tu crawler.
  2. Decide la estrategia: Para cada tipo de URL, decide qué hacer. Lo más común es:
    • Bloquear el rastreo en el archivo robots.txt si no quieres que Google ni siquiera acceda a ellas.
    • Añadir una etiqueta «noindex» si quieres que Google las visite pero no las incluya en su índice.
    • Usar una etiqueta canonical para indicar a Google cuál es la versión principal de un grupo de páginas duplicadas.
  3. Implementa los cambios: Aplica las directivas que has decidido.
  4. Monitoriza en GSC: Vigila el informe de «Páginas» en las siguientes semanas para asegurarte de que Google procesa tus cambios y el número de páginas indexadas se ajusta a lo que quieres.

Mi consejo final: calidad sobre cantidad

Si te tienes que quedar con una sola idea de este artículo, que sea esta: deja de obsesionarte con tener muchas páginas y empieza a obsesionarte con tener las mejores páginas posibles. Tu objetivo no es tener 10.000 URLs indexadas, es tener 300 URLs que sean brutales, que respondan perfectamente a lo que busca el usuario y que Google adore.

Conocer el número real de páginas de tu web es el primer paso para tomar el control de tu SEO técnico, optimizar tu presupuesto de rastreo y concentrar toda la fuerza de tu dominio en lo que de verdad te va a traer negocio. Ahora te toca a ti ponerte manos a la obra.

Dudas que siempre me preguntan sobre este tema

¿Por qué el número de `site:` no coincide con el de Google Search Console?

Porque cumplen funciones diferentes. El comando site: es una herramienta de búsqueda pública que ofrece una estimación muy aproximada y a veces «sucia» del índice. Google Search Console es tu herramienta de diagnóstico privada y te da los datos mucho más precisos y segmentados que Google usa internamente para gestionar tu sitio.

¿Tener muchas páginas es malo para el SEO?

No intrínsecamente. Amazon tiene millones de páginas y es un gigante del SEO. El problema no es el número, sino la calidad media de esas páginas. Es malo tener miles de páginas de baja calidad, duplicadas o inútiles, porque perjudican la percepción global de tu sitio y malgastan el presupuesto de rastreo.

¿Qué son las páginas huérfanas y cómo las encuentro?

Una página huérfana es una URL que existe en tu web pero que no tiene ningún enlace interno apuntando hacia ella. Google solo puede descubrirlas si están en un sitemap, pero los usuarios no pueden llegar a ellas navegando. La mejor forma de encontrarlas es usando un crawler como Screaming Frog y cruzando sus datos con los de tu sitemap y Google Analytics.

¿Todas las páginas de mi web deberían estar indexadas?

No, rotundamente no. Este es un error de principiante muy común. Páginas como el aviso legal, la política de privacidad, el carrito de la compra, los resultados de búsqueda internos o las páginas de acceso de clientes no aportan valor SEO y deberían llevar una etiqueta «noindex» para mantener limpio tu índice.

Imagen de Alberto Fernández
Alberto Fernández

Tabla de contenidos