A OpenAI, desenvolvedora do ChatGPT, publicou em agosto de 2023 as primeiras informações sobre o seu rastreador: o GPTBot.
A partir dessas informações, os gerenciadores de sites poderão impedir que o crawler rastreie suas páginas e as use na criação de respostas.
A empresa, que vem sendo alvo de críticas (e, em alguns casos, até mesmo sanções legais) devido ao uso irrestrito de conteúdo disponível na web para a produção de novos textos, dá o primeiro passo rumo a uma utilização mais transparente da inteligência artificial generativa.
Afinal, o que é o GPTBot?
GPTBot é o nome do rastreador (ou crawler) da OpenAI. Trata-se de uma ferramenta de varredura que, mediante à solicitação do usuário (prompt) verifica páginas na web para escrever uma resposta (output) que corresponda ao pedido.
Por meio da tecnologia de inteligência artificial generativa, é possível obter respostas inéditas e até mesmo criar conteúdo do zero. Contudo, essas respostas têm uma origem: as milhões de páginas criadas por pessoas e disponibilizadas na web até hoje.
Ou seja, embora as LLMs (Large Language Models) sejam capazes de escrever informações de uma forma diferente, ainda são baseadas em artigos de terceiros. O que, para muitos profissionais e órgãos reguladores, é considerado plágio.
Devido à sua recência, ainda há muitas discussões sobre o tema, tanto pelos direitos autorais do autor original, muitas vezes sequer referenciado no ChatGPT, quanto pelo seu potencial de criação de notícias falsas ou desatualizadas. O mesmo é válido para ferramentas similares como o novo Bing e o Google Bard.
O que é um crawler?
Crawler, em português, significa rastreador. Os rastreadores dos mecanismos de pesquisa tradicionais são antigos conhecidos dos profissionais de SEO.
O Google possui o Googlebot, o Bing possui o Bingbot. Agora, o ChatGPT abre as portas do GPTBot, que tem uma função idêntica à dos demais buscadores.
Os crawlers são responsáveis pelo primeiro dos três processos básicos de análise, que são:
- Crawling (Rastreamento): o bot varre a web em busca de páginas que correspondam à dúvida do usuário
- Indexing (Indexação): o bot avalia os elementos de página e armazena as páginas em seu banco de dados
- Serving (Classificação): o bot classifica as páginas na SERP com base em mais de 200 fatores de ranqueamento, em ordem hierárquica de importância.
Ou seja, os crawlers são responsáveis pelo rastreamento das páginas. São, comumente, também chamados de spiders.
Isso facilita a visualização em uma analogia simples, em que a world wide web (rede mundial de computadores) é uma teia que conecta todas as páginas da internet.
As spiders (aranhas) são lançadas pelo bot a cada vez que um usuário realiza uma busca. Elas são responsáveis por identificar novas páginas, mas também observar fatores de ranqueamento on-page, backlinks e outros fatores de ranqueamento.
Quando retornam ao bot, elas entregam essas informações para que sejam armazenadas e, posteriormente, classificadas de acordo com o algoritmo do buscador.
É claro que esses processos não são percebidos pelo usuário, mas facilitam o entendimento de um motor de pesquisa.
Como funciona o GPTBot?
O GPTBot funciona como um radar de respostas. Quando um usuário solicita algo ao ChatGPT, o bot realiza a varredura da web em seu banco de dados, composto por páginas criadas na web.
Até o GPT-3, lançado em 2022, seu arquivo continha apenas páginas criadas até 2021 e, por essa razão, muitas das respostas estavam desatualizadas. Contudo, com os novos aportes e investimentos na companhia, especula-se que atualmente haja atualizações regulares.
Ao varrer e identificar essas páginas (ou conjuntos de páginas), as ferramentas de LLM criam respostas “inéditas” com base nos conteúdos encontrados. Se por um lado isso faz brilhar os olhos de criadores de conteúdo, por outro também representa uma ameaça, já que há a possibilidade de erros.
O que o GPTBot representa para administradores de sites?
Para que os crawlers possam rastrear uma página, é preciso uma autorização do administrador do site. Na linguagem HTML, os conteúdos são marcados por tags <index> ou <noindex>.
Ocorre que, na maior parte dos casos, os CMSs já criam padrões que permitem o rastreamento e indexação das páginas. Afinal, é a forma mais comum de os usuários chegarem até aquela página: por meio dos mecanismos de busca.
Contudo, caso o webmaster deseje evitar essa ação, é possível. A grande novidade do GPTBot é justamente essa: a possibilidade de barrar a varredura de suas páginas, evitando que sejam utilizadas para a criação de respostas automáticas no ChatGPT.
Como impedir que o GPTBot rastreie as páginas de um site?
Para impedir que as suas páginas sejam rastreadas pelo GPTBot, é preciso acessar os robots.txt (um arquivo mãe de qualquer website) e adicionar a seguinte etiqueta:
User-agent: GPTBot
Disallow: /
Naturalmente, também é possível desativá-lo em páginas específicas, como blog posts ou landing pages, por exemplo.
Se você gostou deste artigo, assine a nossa newsletter para receber outras informações sobre o universo de marketing de conteúdo e SEO diretamente na sua caixa de entrada.