Há muitas razões pelas quais você pode precisar encontrar todas as URLs em um site, mas seu objetivo exato determinará o que você está procurando. Por exemplo, você pode querer:
- Identifique cada URL indexada para analisar problemas como canibalização ou inchaço de índice
- Colete URLs atuais e históricos que o Google viu, especialmente para migrações de sites
- Encontre todos os 404 URLs para recuperar de erros pós-migração
Em cada cenário, uma única ferramenta não lhe dará tudo o que você precisa. Infelizmente, o Google Search Console não é exaustivo, e uma busca por “site:example.com” é limitada e difícil de extrair dados.
Neste post, mostrarei algumas ferramentas para criar sua lista de URLs e antes de desduplicar os dados usando uma planilha ou o Jupyter Notebook, dependendo do tamanho do seu site.
Mapas de sites antigos e exportações de rastreamento
Se você estiver procurando por URLs que desapareceram do site ativo recentemente, há uma chance de que alguém da sua equipe tenha salvado um arquivo de mapa do site ou uma exportação de rastreamento antes que as alterações fossem feitas. Se você ainda não fez isso, verifique esses arquivos; eles geralmente podem fornecer o que você precisa. Mas, se você está lendo isso, provavelmente não teve tanta sorte.
Arquivo.org

Archive.org é uma ferramenta inestimável para tarefas de SEO , financiada por doações. Se você pesquisar um domínio e selecionar a opção “URLs”, poderá acessar até 10.000 URLs listadas.
No entanto, existem algumas limitações:
- Limite de URL: você só pode recuperar até 10.000 URLs , o que é insuficiente para sites maiores.
- Qualidade: Muitos URLs podem estar malformados ou fazer referência a arquivos de recursos (por exemplo, imagens ou scripts).
- Nenhuma opção de exportação: Não há uma maneira integrada de exportar a lista.
Para contornar a falta de um botão de exportação, use um plugin de scraping de navegador como o Dataminer.io. No entanto, essas limitações significam que o Archive.org pode não fornecer uma solução completa para sites maiores. Além disso, o Archive.org não indica se o Google indexou uma URL — mas se o Archive.org a encontrou, há uma boa chance de que o Google também o tenha feito.
Moz Pro
Embora você normalmente use um índice de links para encontrar sites externos com links para você, essas ferramentas também descobrem URLs no seu site no processo.

Como usar:
Exporte seus links de entrada no Moz Pro para obter uma lista rápida e fácil de URLs de destino do seu site. Se você estiver lidando com um site enorme, considere usar a API do Moz para exportar dados além do que é gerenciável no Excel ou no Planilhas Google.
É importante notar que o Moz Pro não confirma se URLs são indexadas ou descobertas pelo Google. No entanto, como a maioria dos sites aplica as mesmas regras robots.txt aos bots do Moz como fazem com os do Google, esse método geralmente funciona bem como um proxy para a capacidade de descoberta do Googlebot .
Console de Pesquisa do Google
O Google Search Console oferece diversas fontes valiosas para criar sua lista de URLs.
Relatórios de links:

Semelhante ao Moz Pro, a seção Links fornece listas exportáveis de URLs de destino. Infelizmente, essas exportações são limitadas a 1.000 URLs cada. Você pode aplicar filtros para páginas específicas, mas como os filtros não se aplicam à exportação, talvez seja necessário confiar em ferramentas de scraping do navegador — limitadas a 500 URLs filtradas por vez. Não é o ideal.
Desempenho → Resultados da pesquisa:

Esta exportação fornece uma lista de páginas que recebem impressões de pesquisa. Embora a exportação seja limitada, você pode usar a API do Google Search Console para conjuntos de dados maiores. Há também plugins gratuitos do Google Sheets que simplificam a extração de dados mais extensos.
Indexação → Relatório de páginas:

Esta seção fornece exportações filtradas por tipo de problema, embora também sejam limitadas em escopo.
Análise do Google

O relatório padrão Engajamento → Páginas e telas no GA4 é uma excelente fonte para coletar URLs, com um limite generoso de 100.000 URLs .

Melhor ainda, você pode aplicar filtros para criar diferentes listas de URL, ultrapassando efetivamente o limite de 100k. Por exemplo, se você quiser exportar apenas URLs de blog, siga estas etapas:
Etapa 1: adicionar um segmento ao relatório
Etapa 2: Clique em “Criar um novo segmento”.

Etapa 3: Defina o segmento com um padrão de URL mais restrito, como URLs contendo /blog/

Observação: URLs encontrados no Google Analytics podem não ser descobertos pelo Googlebot ou indexados pelo Google, mas oferecem insights valiosos.
Arquivos de log do servidor
Arquivos de log de servidor ou CDN são talvez a ferramenta definitiva à sua disposição. Esses logs capturam uma lista exaustiva de cada caminho de URL consultado por usuários, Googlebot ou outros bots durante o período registrado.
Considerações:
- Tamanho dos dados: os arquivos de log podem ser enormes, então muitos sites retêm apenas os dados das últimas duas semanas.
- Complexidade: Analisar arquivos de log pode ser desafiador, mas há várias ferramentas disponíveis para simplificar o processo.
Combine e boa sorte
Depois de reunir URLs de todas essas fontes, é hora de combiná-las. Se seu site for pequeno o suficiente, use o Excel ou, para conjuntos de dados maiores, ferramentas como o Google Sheets ou o Jupyter Notebook. Garanta que todas as URLs estejam formatadas de forma consistente e, em seguida, de duplique a lista.
Fonte: Moz