Tudo o que você precisa saber sobre captcha (e sua relação com a coleta de dados)

Imagem de reCAPTCHA

Podemos afirmar, sem qualquer sombra de dúvida, que você já se deparou com Captchas em algum momento das suas atividades na internet.

Aliás, podemos ir mais além: você lida com Captchas frequentemente, ainda que às vezes isso não seja sequer comunicado a você de maneira direta.

Mas você sabe o que é um Captcha? Como essa tecnologia foi criada e porque ela se tornou tão onipresente nos dias de hoje?

Descubra as respostas para essas perguntas, e muitas outras, neste artigo.

O que significa Captcha?

A palavra Captcha é, na verdade, um acrônimo. Em inglês, ela significa “Completely Automated Public Turing test to tell Computers and Humans Apart”, o que traduz-se para “Teste Turing público completamente automatizado para diferenciar computadores e humanos”.

Ou seja, é uma ferramenta que tem como objetivo identificar se quem está visitando um determinado site é um humano ou um bot. Se o teste comprovar que o visitante é humano, a entrada é liberada.

Se, por outro lado, o teste identificar que a solicitação vem de um robô, o acesso ao site é imediatamente bloqueado.

Um ponto importante: é falso afirmar que todo uso de bot é malicioso. A verdade é bem diferente disso.

A coleta automatizada de dados, realizada por bots chamados de web crawlers, é um desses usos legítimos. A coleta de dados é parte importante do mercado global de big data que deve alcançar uma valorização de 70 bilhões de dólares até o final de 2022.

Com essa informação em mente, o Captcha está lá para proteger a informação e por vezes diminuir a necessidade de maiores recursos computacionais para manter servidores, uma vez que o tráfego automatizado será reduzido.

Que ameaças o Captcha pode combater?

Conforme explicamos acima, o Captcha funciona de maneira a impedir o uso de bots em sites, mesmo que esses usos sejam legítimos e respaldados pela lei.

Algumas das ameaças mais comuns que o Captcha combate são:

  • Compras online em massa: é o ato de usar bots para comprar produtos e ingressos em grandes quantidades para provocar escassez e, em seguida, revendê-los a preços elevados.
  • Comentários falsos: sabe aqueles comentários em sites ou páginas de produtos que não parecem ter sido escritos por humanos? É exatamente isso.
  • Spam: e-mails de spam, aquele tipo de propaganda que ninguém gosta, têm a existência dificuldade com o uso de Captchas.
  • Sequestro de contas: é quando hackers tomam posse de contas, de e-mail, redes sociais ou qualquer outra, e impedem a recuperação pelo dono real.

Como um teste Captcha é ativado?

É muito comum, hoje em dia, que sites possuam sistemas em ação para determinar se a origem de uma visita é de um humano ou de um bot.

Caso esses sistemas identifiquem alguma atividade suspeita da parte do usuário, um teste Captcha é imediatamente apresentado para que a suspeita seja sanada. Todo esse processo, por vezes, é completamente invisível ao usuário, conforme veremos mais adiante.

Tipos mais comuns

Não existe um só tipo de Captcha. Existem tantos, na verdade, que selecionamos para você os que são mais utilizados atualmente e como cada um deles funciona.

  • reCAPTCHA: esse é, provavelmente, o tipo de Captcha de uso mais amplo hoje em dia. É mantido pelo Google e possui diferentes versões que são abordadas em detalhes mais adiante.
  • FunCaptcha: a palavra “fun”, em inglês, significa diversão. Aqui, a chave está em utilizar atividades visuais divertidas como testes.
  • Captcha matemático: exige que o usuário solucione um problema matemático simples para provar que é humano.
  • Captcha em texto: exibe uma mistura de letras e números em diferentes formatos e níveis de visibilidade para que o usuário os identifique.
  • Captcha temporal: identifica o tempo que o usuário leva para preencher informações num formulário, por exemplo, para identificar se trata-se de um humano ou de um robô.
  • Captcha de identificação de imagens: pode solicitar que o usuário uma determinada imagem em meio a outras similares, ou então que ele identifique um objeto ou ideia presente em imagens, entre outras variações.
  • Honeypot Captcha: voltado para o combate de preenchimento automático de formulários, esse tipo de Captcha visa criar um campo invisível a humanos e que não deve ser preenchido. Se ele for preenchido, indica que aquele usuário é, na verdade, um bot.

O reCAPTCHA em detalhes

Lançado em 2007 e criado pelo cientista da computação Luis von Ahn em conjunto com outros desenvolvedores, o reCAPTCHA funcionava, inicialmente, por meio da transcrição de palavras apresentadas de maneira distorcida ou riscada.

O reCAPTCHA foi adquirido pelo Google em 2009 e, logo em seguida, algumas importantes mudanças foram feitas.

A primeira grande mudança após a aquisição aconteceu em 2012. Ainda em sua primeira versão, o reCAPTCHA passou a apresentar, além de palavras, imagens retiradas do Google Street View.

A segunda versão do reCAPTCHA, chamada de No CAPTCHA reCAPTCHA, veio em 2013. Foi o início do processo, da parte do Google, de identificar bots por meio da análise comportamental do usuário.

Um dos pontos positivos dessa versão, para usuários, é que se a ferramenta identificá-los como “baixo risco”, tudo que ele precisa fazer é marcar uma caixinha confirmando que não é um robô.

Em 2017, com os avanços do Google no campo da análise comportamental permitiu o surgimento do reCAPTCHA “invisível”, que funciona 100% nos bastidores e que não exige nenhuma ação da parte do usuário.

Como contornar Captchas para coletar dados

Muito embora o Captcha tenha sido criado para evitar atividades maliciosas, a verdade é que existem sim razões perfeitamente legais para contornar esse tipo de teste.

Soluções que envolvem Inteligência Artificial têm se mostrado cada vez mais eficazes quando o assunto é contornar ou solucionar Captchas de maneira automatizada.

É possível, por exemplo, fazer uso de Machine Learning (Aprendizado de Máquina) ou de redes neurais artificiais para resolver Captchas em texto ou em imagens, dois dos tipos mais comuns de testes.

Outra solução é a personificação de navegadores.

Há, ainda, empresas especializadas no fornecimento de serviços voltados para a quebra de Captchas, conforme veremos no próximo tópico.

Fornecedores de quebra de Captcha

Confira, agora, uma lista com alguns dos principais fornecedores de quebra de Captcha atualmente.

  • Anti-captcha: possui fácil integração com APIs, número ilimitado de envios simultâneos e um tempo médio de 10 segundos para resolução de testes.
  • Death By Captcha: tem uma taxa de sucesso entre 95% e 100% e tempo de resposta médio de 15 segundos.
  • CapMonster: propõe uma solução automática de resolução de Captchas, o que permite tornar o serviço pelo menos duas vezes mais rápido do que soluções manuais.

A sua jornada não termina aqui

Agora que você já expandiu os seus conhecimentos sobre Captcha e compreendeu a importância de soluções de quebra de Captcha para que a coleta automatizada de dados aconteça sem gargalos, que tal dar o próximo passo?

Aqui na Crawly, desenvolvemos tecnologia de ponta para coleta automatizada e em tempo real de dados em sites de e-commerce, dados de veículos, imobiliários, de portais públicos e muito mais.

Venha conversar com um de nossos especialistas!