· GEO · 12 min read
robots.txt GPTBot: Permitir ou Bloquear? Guia 2026 para GEO
robots.txt GPTBot em 2026: o framework de decisão para liberar ou bloquear cada crawler de IA — GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot e mais.
O que é o robots.txt GPTBot e por que ele virou decisão estratégica?
robots.txt GPTBot é a diretiva que você adiciona ao arquivo robots.txt do seu domínio para autorizar — ou bloquear — o crawler de treinamento da OpenAI. Em 2026, essa configuração deixou de ser técnica e passou a ser estratégica: a forma como você libera GPTBot, OAI-SearchBot e ChatGPT-User decide se sua marca aparece nas respostas do ChatGPT ou some delas. Este guia mostra como tomar essa decisão com método, não no instinto.
O cenário mudou rápido. A Cloudflare analisou o tráfego global de bots em maio de 2025 e mostrou que o GPTBot saltou de 5% para 30% de participação entre os crawlers de IA em 12 meses, com um crescimento bruto de 305% nas requisições. O ChatGPT-User cresceu 2.825% no mesmo período. Quem ainda configura robots.txt pensando só no Googlebot está deixando uma porta importante mal regulada.
Quais são todos os crawlers de IA que você precisa conhecer em 2026?
Antes de decidir o que bloquear, você precisa saber quem está batendo na sua porta. As três grandes IAs (OpenAI, Anthropic e Google) operam frotas de crawlers separadas, e cada bot tem um propósito distinto. Tratar tudo como “robô de IA” e bloquear em massa é o erro mais caro que vemos em auditorias de SEO para IA.
A tabela abaixo resume o estado atual, segundo a documentação oficial de cada empresa:
| Crawler | Empresa | Propósito | User-agent oficial |
|---|---|---|---|
| GPTBot | OpenAI | Treinamento de modelos | GPTBot/1.3 |
| OAI-SearchBot | OpenAI | Indexação para busca dentro do ChatGPT | OAI-SearchBot/1.3 |
| ChatGPT-User | OpenAI | Buscas em tempo real disparadas por usuário | ChatGPT-User/1.0 |
| OAI-AdsBot | OpenAI | Validação de landing pages de anúncios | OAI-AdsBot/1.0 |
| ClaudeBot | Anthropic | Treinamento de modelos | ClaudeBot |
| Claude-User | Anthropic | Acessos disparados por usuário no Claude | Claude-User |
| Claude-SearchBot | Anthropic | Indexação para busca do Claude | Claude-SearchBot |
| Google-Extended | Permissão de uso do conteúdo no Gemini | Google-Extended | |
| PerplexityBot | Perplexity | Indexação para busca | PerplexityBot/1.0 |
| Meta-ExternalAgent | Meta | Treinamento e busca da Meta AI | Meta-ExternalAgent |
Três detalhes que mudam a sua decisão:
- GPTBot e OAI-SearchBot são bots distintos. Bloquear GPTBot não bloqueia OAI-SearchBot. Conforme a documentação oficial da OpenAI, cada um tem regra própria no
robots.txt. Se você bloquear o GPTBot achando que tirou o ChatGPT do seu site, você se enganou. - Google-Extended não é um crawler. É um token de permissão. O Googlebot continua rastreando seu site para o Google Search; o
Google-Extendedapenas sinaliza se aquele conteúdo já rastreado pode ou não ser usado para treinar Gemini e Vertex AI, segundo o anúncio do Google ao Search Engine Land em setembro de 2023. - A frota da Anthropic agora é tripla. Em outubro de 2025, a Anthropic publicou na Privacy Center a separação entre ClaudeBot (treinamento), Claude-User (fetch de usuário) e Claude-SearchBot (busca). Antes disso, muitos sites bloqueavam só o ClaudeBot e perdiam a chance de aparecer na busca do Claude, sem perceber.
Bloquear GPTBot afeta meu ranking no Google ou nas IAs?
Resposta curta: bloquear GPTBot não tira você do Google e não tira você dos rankings. Mas pode tirar sua marca do conjunto de fontes que o ChatGPT consulta para treinamento — e, se você confundir GPTBot com OAI-SearchBot, pode tirar você dos resultados de busca dentro do ChatGPT também.
A distinção importa porque dita estratégia. Veja como cada decisão impacta a visibilidade:
- Bloquear apenas GPTBot: sua página continua acessível para OAI-SearchBot (busca do ChatGPT em tempo real) e ChatGPT-User (fetch direto). Você apenas impede que o conteúdo seja consumido para treinar futuros modelos.
- Bloquear OAI-SearchBot: você sai dos resultados de busca dentro do ChatGPT. É exatamente o contrário do que toda marca brasileira que faz GEO quer. Se a sua estratégia é virar fonte recomendada, bloquear OAI-SearchBot é tiro no pé.
- Bloquear ChatGPT-User: quando um usuário pede ao ChatGPT para “abrir essa URL”, a IA não consegue. Você se torna inacessível em consultas que mencionam diretamente sua marca.
- Bloquear Google-Extended: seu conteúdo continua no Google Search, mas não é usado para treinar o Gemini. O ranking não muda; a memória de longo prazo do Gemini sobre sua marca, sim.
A mecânica de citação reforça o ponto. Quando o ChatGPT responde uma pergunta complexa sobre seu mercado, o modelo combina conhecimento aprendido no treinamento (GPTBot) com resultados da busca em tempo real (OAI-SearchBot). Marcas que só aparecem em uma das duas frentes têm probabilidade reduzida de virarem fonte citada — e, na prática, perdem para concorrentes que mantêm os dois canais abertos.
Permitir ou bloquear: qual é a decisão certa para sua marca?
Não existe resposta universal. Existe um framework de decisão. Em consultorias de GEO no Brasil, aplicamos quatro critérios para definir o que cada cliente deve fazer no robots.txt:
1. Seu negócio depende de tráfego pago para o conteúdo? Editores de notícia, sites com paywall e conteúdo premium têm receita atrelada à página vista. Para esses, bloquear o GPTBot faz sentido — aparece nas listas de mídias que o fizeram em 2024 e 2025: New York Times, Guardian, CNN, Reuters, Washington Post, Bloomberg, segundo levantamento do Search Engine Land. A análise da Cloudflare de junho de 2025 mostrou 312 domínios da rede com Disallow: / para GPTBot, contra apenas 61 com permissão explícita.
2. Seu negócio depende de geração de leads ou autoridade B2B? Aqui a recomendação inverte. Se o ChatGPT recomenda você como solução para o problema do seu cliente potencial, você ganha cada vez que esse usuário pergunta. Bloquear GPTBot reduz a chance de virar referência citada. Para SaaS, agências, consultorias e serviços B2B, o cálculo costuma fechar em manter aberto.
3. Seu conteúdo é único e replicado em outros lugares? Conteúdo proprietário (estudos originais, dados internos, metodologias batizadas) gera vantagem competitiva quando aprendido pelas IAs. Conteúdo replicado de fornecedores, documentação técnica de produto e fichas de e-commerce têm menos a perder com bloqueio e menos a ganhar com permissão.
4. Você já tem volume suficiente para virar fonte? GEO funciona em camadas. Marcas com Domain Authority abaixo de 25 e poucos backlinks raramente são citadas mesmo com tudo aberto. Para essas, a prioridade não é mexer no robots.txt — é construir conteúdo answer-first, schema markup e llms.txt. Bloquear ou liberar muda pouco no curto prazo.
A nossa recomendação padrão para marcas brasileiras de B2B, SaaS, e-commerce de marca própria e prestadores de serviço é: liberar OAI-SearchBot, ChatGPT-User, Claude-SearchBot, Claude-User e PerplexityBot; permitir GPTBot e ClaudeBot a menos que haja motivo contratual ou regulatório para bloquear; manter Google-Extended liberado. Essa configuração maximiza chance de citação sem perda no Google.
Como configurar o robots.txt para GPTBot, OAI-SearchBot e ChatGPT-User na prática?
A configuração técnica é simples. Os erros aparecem nos detalhes — sintaxe, ordem das regras e User-agent errado. Siga esta sequência de cinco passos:
Passo 1 — Localize o arquivo robots.txt. Ele fica na raiz do domínio, em https://seusite.com.br/robots.txt. Se não existe, crie um arquivo de texto plano com esse nome no diretório público da sua hospedagem. Em sites Astro, Next.js, WordPress e Shopify, o caminho exato muda — mas o arquivo é sempre na raiz pública.
Passo 2 — Defina sua matriz de decisão. Liste os crawlers em uma planilha simples e marque “permitir” ou “bloquear” para cada um, usando o framework da seção anterior. Documente o motivo de cada escolha. Em três meses você vai querer revisar — e vai esquecer por que tomou cada decisão.
Passo 3 — Escreva as diretivas com a sintaxe correta. Cada bot precisa do bloco próprio. Não junte vários User-agent em um único Disallow. Modelo recomendado para uma empresa B2B brasileira que quer maximizar GEO sem proteger conteúdo proprietário:
# Crawlers de busca tradicional — sempre permitir
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# Treinamento de IA — decisão por crawler
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Google-Extended
Allow: /
# Busca dentro das IAs — sempre permitir para GEO
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: Claude-User
Allow: /
User-agent: PerplexityBot
Allow: /
# Sitemap obrigatório
Sitemap: https://seusite.com.br/sitemap.xmlQuer bloquear o treinamento mas permitir busca? Troque os blocos Allow: / de GPTBot, ClaudeBot e Google-Extended por Disallow: / e mantenha o restante igual.
Passo 4 — Suba o arquivo e force o reprocessamento. A OpenAI tipicamente honra mudanças em até 24 horas, segundo a documentação publicada no help center. O Google pega a atualização no próximo crawl do Googlebot — geralmente em 2 a 7 dias. A Anthropic não publica um SLA explícito.
Passo 5 — Adicione o llms.txt na raiz. O robots.txt controla acesso; o llms.txt descreve seu conteúdo para a IA encontrar o que importa quando o acesso é permitido. Os dois trabalham juntos. Veja nosso guia técnico de llms.txt para o passo a passo.
Quais são os erros mais comuns ao configurar robots.txt para IA?
Em auditorias de GEO feitas em sites brasileiros nos últimos doze meses, sete erros aparecem com frequência. Confira a sua configuração contra esta lista:
- Bloquear
User-agent: *achando que isso afeta só IAs. O wildcard atinge Googlebot, Bingbot e qualquer crawler legítimo. Você sai do Google. Use sempre o nome exato do bot que quer bloquear. - Bloquear GPTBot e esquecer OAI-SearchBot. A marca vira invisível para treinamento mas continua sendo encontrada na busca do ChatGPT. Mistura de objetivos. Decida o que você quer e aplique nos dois bots de forma coerente.
- Confundir Google-Extended com Googlebot. Já vimos sites que adicionaram
User-agent: Google-ExtendedcomDisallow: /achando que estavam bloqueando o Google. Não estavam — só estavam impedindo o uso do conteúdo no Gemini. O Googlebot continua rastreando normalmente. - Achar que o
robots.txtimpede acesso de fato. Ele é uma instrução voluntária. Crawlers legítimos respeitam. A Cloudflare publicou em agosto de 2024 análise documentando que a Perplexity usa user-agents furtivos quando oPerplexityBoté bloqueado, ignorando orobots.txtdeclarado. Se a proteção precisa ser real, use bloqueio em nível de firewall (WAF) ou validação por faixas de IP oficiais. - Esquecer das faixas de IP oficiais. OpenAI publica os ranges em
openai.com/gptbot.json,openai.com/searchbot.jsoneopenai.com/chatgpt-user.json. Para sites de alto tráfego, validar IP é a única forma de ter certeza sobre quem é o crawler real e quem é alguém se passando por ele. - Não revisar a configuração quando um novo bot aparece. A Anthropic adicionou Claude-SearchBot em 2025; a OpenAI adicionou OAI-AdsBot em 2025. Se seu
robots.txtfoi escrito em 2024, ele provavelmente tem buracos. Reveja a cada seis meses, no mínimo. - Documentar a regra só no arquivo. O
robots.txtmostra o estado atual, não o porquê. Mantenha um documento interno (ou os comentários#no próprio arquivo) explicando por que cada bot está permitido ou bloqueado. Quando o time muda, esse contexto é o que evita que o próximo dev reverta sua decisão sem entender.
Como validar se sua configuração está funcionando?
Subir o arquivo é metade do trabalho. A outra metade é confirmar que ele está sendo lido corretamente. Três checagens rápidas resolvem 90% dos casos:
Verificação 1 — Acesso público. Abra https://seusite.com.br/robots.txt no navegador. Se aparecer 404, o arquivo está no lugar errado. Se aparecer 403, há permissão de servidor bloqueando — corrija no Apache/Nginx/Vercel antes de qualquer outra coisa.
Verificação 2 — Validador do Google Search Console. A ferramenta de teste de robots.txt do GSC ainda funciona para verificar sintaxe. Não cobre todos os bots de IA, mas pega erros básicos de formato que afetariam GPTBot e companhia da mesma forma que afetam Googlebot.
Verificação 3 — Logs de servidor. Filtre os logs do Nginx/Apache pelos user-agents GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, PerplexityBot. Se você liberou e está vendo zero requisições em 30 dias, há um problema — provavelmente bloqueio de WAF ou regras de Cloudflare antigas. Se você bloqueou e ainda vê requisições, confira o user-agent exato que aparece no log; pode ser um bot que você não conhecia.
Para marcas que querem ir além e medir o impacto real da decisão de robots.txt no número de citações em ChatGPT, Gemini e Perplexity, recomendamos uma auditoria de GEO completa — ela cruza configuração técnica, share of voice nas IAs e oportunidades de citação por consulta.
O próximo passo: revise seu robots.txt esta semana
Configurar o robots.txt GPTBot é uma decisão pequena com consequência grande. Marcas brasileiras que tratam essa configuração como técnica perdem para concorrentes que tratam como estratégia. A boa notícia: o ajuste leva 30 minutos. A má notícia: nove em cada dez sites brasileiros que auditamos têm pelo menos um erro da lista da seção anterior.
Se você quer um diagnóstico do estado atual da sua configuração — robots.txt, llms.txt, schema markup e share of voice nas IAs — fale com a gente. Faça seu diagnóstico GEO gratuito e receba em uma semana o relatório com as três mudanças prioritárias do seu site.
FAQ: robots.txt e crawlers de IA
Bloquear GPTBot prejudica meu SEO no Google? Não. GPTBot e Googlebot são crawlers de empresas distintas. Bloquear o GPTBot afeta apenas o consumo de conteúdo pela OpenAI para treinamento. Seu ranking no Google permanece inalterado.
Qual a diferença entre GPTBot e OAI-SearchBot? GPTBot rastreia conteúdo para treinar futuros modelos da OpenAI. OAI-SearchBot indexa páginas para a função de busca em tempo real do ChatGPT. São bots diferentes, com regras independentes no robots.txt. Bloquear um não bloqueia o outro.
Em quanto tempo a OpenAI respeita uma mudança no meu robots.txt? Aproximadamente 24 horas, segundo a documentação publicada no help center da OpenAI. Para outros crawlers, o prazo varia entre 1 e 7 dias.
Bloquear ChatGPT-User é necessário? Em quase todos os casos, não. ChatGPT-User só acessa seu site quando um usuário pede explicitamente para o ChatGPT abrir uma URL ou fazer uma busca. Bloquear esse bot tira você de consultas que mencionam diretamente sua marca.
O Perplexity respeita o robots.txt? Parcialmente. A Cloudflare publicou em agosto de 2024 análise documentando que, quando o PerplexityBot declarado é bloqueado, a empresa utiliza um user-agent genérico imitando um navegador comum. Para bloqueio real, é necessário validar por faixa de IP oficial (https://www.perplexity.com/perplexitybot.json) ou usar WAF.
Preciso bloquear todos os crawlers de IA para proteger meu conteúdo proprietário? Não. Bloqueio em massa é raramente a resposta certa. Para conteúdo realmente sensível, a proteção correta é login + paywall + bloqueio em nível de firewall, não robots.txt. Para conteúdo público, libere os bots de busca (OAI-SearchBot, Claude-SearchBot, PerplexityBot) e decida caso a caso sobre os de treinamento.
O que é Google-Extended e devo bloquear? Google-Extended é um token de permissão, não um crawler. Ele controla se o conteúdo já rastreado pelo Googlebot pode ser usado para treinar Gemini e Vertex AI. Para marcas que querem aparecer no Gemini como fonte recomendada, mantê-lo permitido é o caminho.
Onde encontro a lista oficial de IPs do GPTBot? A OpenAI publica em https://openai.com/gptbot.json, https://openai.com/searchbot.json e https://openai.com/chatgpt-user.json. Esses endpoints retornam JSON atualizado com os ranges atuais de IP.