Como Encontrar Todas as URLs de um Site: Ferramentas e Técnicas para SEO

Há muitas razões pelas quais você pode precisar encontrar todas as URLs em um site, mas seu objetivo exato determinará o que você está procurando. Por exemplo, você pode querer:

  • Identifique  cada URL indexada para analisar problemas como canibalização ou inchaço de índice
  • Colete  URLs atuais e históricos que o Google viu, especialmente para migrações de sites
  • Encontre  todos os 404 URLs para recuperar de erros pós-migração

Em cada cenário, uma única ferramenta não lhe dará tudo o que você precisa. Infelizmente, o Google Search Console não é exaustivo, e uma busca por “site:example.com” é limitada e difícil de extrair dados.

Neste post, mostrarei algumas ferramentas para criar sua lista de URLs e antes de desduplicar os dados usando uma planilha ou o Jupyter Notebook, dependendo do tamanho do seu site.

Mapas de sites antigos e exportações de rastreamento

Se você estiver procurando por URLs que desapareceram do site ativo recentemente, há uma chance de que alguém da sua equipe tenha salvado um arquivo de mapa do site ou uma exportação de rastreamento antes que as alterações fossem feitas. Se você ainda não fez isso, verifique esses arquivos; eles geralmente podem fornecer o que você precisa. Mas, se você está lendo isso, provavelmente não teve tanta sorte.

Arquivo.org

Arquivo.org

Archive.org é uma ferramenta inestimável para  tarefas de SEO , financiada por doações. Se você pesquisar um domínio e selecionar a opção “URLs”, poderá acessar até 10.000 URLs listadas.

No entanto, existem algumas limitações:

  • Limite de URL: você só pode recuperar até 10.000  URLs , o que é insuficiente para sites maiores.
  • Qualidade: Muitos URLs podem estar malformados ou fazer referência a arquivos de recursos (por exemplo, imagens ou scripts).
  • Nenhuma opção de exportação: Não há uma maneira integrada de exportar a lista.

Para contornar a falta de um botão de exportação, use um plugin de scraping de navegador como o Dataminer.io. No entanto, essas limitações significam que o Archive.org pode não fornecer uma solução completa para sites maiores. Além disso, o Archive.org não indica se o Google indexou uma URL — mas se o Archive.org a encontrou, há uma boa chance de que o Google também o tenha feito.

Moz Pro

Embora você normalmente use um  índice de links para encontrar sites externos com links para você, essas ferramentas também descobrem URLs no seu site no processo.

Como usar:
Exporte seus links de entrada no  Moz Pro para obter uma lista rápida e fácil de URLs de destino do seu site. Se você estiver lidando com um site enorme, considere usar a  API do Moz para exportar dados além do que é gerenciável no Excel ou no Planilhas Google.

É importante notar que o Moz Pro não confirma se URLs são indexadas ou descobertas pelo Google. No entanto, como a maioria dos sites aplica as mesmas  regras robots.txt aos bots do Moz como fazem com os do Google, esse método geralmente funciona bem como um proxy para  a capacidade de descoberta do Googlebot .

Console de Pesquisa do Google

O Google Search Console oferece diversas fontes valiosas para criar sua lista de URLs.

Relatórios de links:

Semelhante ao Moz Pro, a seção Links fornece listas exportáveis ​​de URLs de destino. Infelizmente, essas exportações são limitadas a  1.000 URLs cada. Você pode aplicar filtros para páginas específicas, mas como os filtros não se aplicam à exportação, talvez seja necessário confiar em ferramentas de scraping do navegador — limitadas a  500 URLs filtradas por vez. Não é o ideal.

Desempenho → Resultados da pesquisa:

Esta exportação fornece uma lista de páginas que recebem impressões de pesquisa. Embora a exportação seja limitada, você pode usar  a API do Google Search Console para conjuntos de dados maiores. Há também plugins gratuitos do Google Sheets que simplificam a extração de dados mais extensos.

Indexação → Relatório de páginas:

Esta seção fornece exportações filtradas por tipo de problema, embora também sejam limitadas em escopo.

Análise do Google

Análise do Google

O  relatório padrão  Engajamento → Páginas e telas no GA4 é uma excelente fonte para coletar URLs, com um limite generoso de  100.000 URLs .

Melhor ainda, você pode aplicar filtros para criar diferentes listas de URL, ultrapassando efetivamente o limite de 100k. Por exemplo, se você quiser exportar apenas URLs de blog, siga estas etapas:

Etapa 1: adicionar um segmento ao relatório

Etapa 2: Clique em “Criar um novo segmento”.

Etapa 3: Defina o segmento com um padrão de URL mais restrito, como URLs contendo /blog/

Observação: URLs encontrados no Google Analytics podem não ser descobertos pelo Googlebot ou indexados pelo Google, mas oferecem insights valiosos.

Arquivos de log do servidor

Arquivos de log de servidor ou CDN são talvez a ferramenta definitiva à sua disposição. Esses logs capturam uma lista exaustiva de cada caminho de URL consultado por usuários, Googlebot ou outros bots durante o período registrado.

Considerações:

  • Tamanho dos dados: os arquivos de log podem ser enormes, então muitos sites retêm apenas os dados das últimas duas semanas.
  • Complexidade: Analisar arquivos de log pode ser desafiador, mas há várias ferramentas disponíveis para simplificar o processo.

Combine e boa sorte

Depois de reunir URLs de todas essas fontes, é hora de combiná-las. Se seu site for pequeno o suficiente, use o Excel ou, para conjuntos de dados maiores, ferramentas como o Google Sheets ou o Jupyter Notebook. Garanta que todas as URLs estejam formatadas de forma consistente e, em seguida, de duplique a lista.

Fonte: Moz

A crianet tem especialistas para te atender, fale conosco.