45 termos essenciais sobre tudo que circula o mundo do big data

Big Data é um termo que, na verdade, serve de guarda-chuva para englobar muitos outros termos relacionados que, apesar de importantes, não estão no dia a dia de todas as pessoas.

Pensando nisso, criamos esta lista com 45 termos relacionados a Big Data para você expandir os seus conhecimentos e consultar sempre que precisar.

Sentiu falta de alguma palavra? Entre em contato! A lista abaixo está em constante expansão e será ótimo ter a sua ajuda para torná-la numa fonte de informações ainda mais robusta e útil.

Big Data: nome dado aos grandes volumes de dados disponíveis na internet e que aumentam a cada segundo. A IDC estima que, até 2025, o volume de dados do mundo inteiro alcançará a marca de 175 zettabytes. Para colocar esse tamanho em perspectiva, se você tentasse fazer o download de um arquivo de 175 zettabytes, demoraria cerca de 1.8 bilhão de anos.

Data Mining (mineração de dados): é o processo de extração de informações a partir de grandes volumes de dados em busca de padrões e informações valiosas.

Machine Learning (Aprendizado de Máquina): trata-se de algoritmos computacionais capazes de aprimorarem-se automaticamente por meio de experiência e por uso de dados.

Web crawler: são robôs digitais rastreadores que cumprem a função de realizar a varredura em sites ou em bancos de dados digitais mais rápido do que qualquer ser humano. São capazes de entregar e atualizar informações com alto nível de precisão em tempo real.

Web scraper: robôs digitais capazes de coletar dados mais específicos que os web crawlers. De maneira semelhante aos web crawlers, também capturam dados em alta velocidade e com elevados níveis de precisão, tornando a automação da coleta de dados completa e relevante aos propósitos das empresas.

Price Scraping: é a extração de dados sobre preços de produtos em sites de ecommerce. Pode ser feito em tempo real com o uso de web scrapers.

Captcha: um tipo de desafio cognitivo que é usado principalmente como uma ferramenta anti-spam. Sabe aqueles testes que aparecem em alguns sites pedindo para você identificar veículos, semáforos ou faixas de pedestre? Esse é um exemplo de Captcha.

Proxy: refere-se a servidores proxy, que são utilizados na coleta automatizada de dados para evitar que os bots sejam bloqueados ao solicitar informações aos sites de onde os dados serão coletados.

Inteligência Artificial (IA): são sistemas capazes de imitar a inteligência humana na execução de tarefas. A IA possui uma variedade de usos práticos no dia a dia, como em ferramentas de busca, anúncios online, sistemas de recomendação de conteúdo, assistentes virtuais, reconhecimento facial, filtragem de spam e veículos autônomos.

Data Engineering (engenharia de dados): é a atividade que envolve, entre outras coisas, a coleta, tradução e validação de dados para posterior análise.

Data Science (ciência de dados): um conjunto de estratégias, ferramentas e processos utilizados para obtenção de insights precisos e de qualidade a partir de informações do Big Data. Com ela, empresas podem identificar oportunidades mais rapidamente e descobrir talentos valiosos, além de conquistar e reter mais clientes, entre outras vantagens.

Data Analytics (análise de dados): é o processo de analisar dados em busca de informações úteis para os objetivos da organização. É uma atividade que precisa levar em conta detalhes como metadados, as dependências entre dados e as relações entre os dados e o mundo real.

Data Driven (orientado a dados): refere-se a organizações que baseiam-se rotineiramente em dados no processo de tomada de decisões. Empresas que tomam decisões orientadas por dados têm mais receita, atendem melhor aos anseios dos clientes e tornam-se mais lucrativas.

Python: é uma linguagem de programação de alto nível lançada em 1991. É utilizada no desenvolvimento de web crawlers e também na criação de aplicações de IA.

ETL (extract, transform, load): a sigla refere-se ao processo de extrair, transformar e carregar dados de múltiplas fontes e armazená-los em seguida.

SQL: sigla para Structured Query Language, ou Linguagem de Consulta Estruturada em português. É uma linguagem de pesquisa declarativa utilizada por bancos de dados.

CSV: é um formato de arquivo em que os dados são separados por vírgulas.

JSON: JavaScript Object Notation ou, em português, Notação de Objetos JavaScript. É um dos formatos mais comuns para entrega de dados estruturados após realizado o trabalho de coleta e raspagem.

API: Application Programming Interface, ou interfaces de programação de aplicações, são essenciais para que a comunicação entre duas aplicações diferentes se estabeleça, possibilitando a troca de informações entre elas e também a coleta de dados por parte de bots.

Data Lake: é um repositório capaz de armazenar tanto dados estruturados quanto não estruturados. Serve para reunir, num local unificado e de fácil acesso, as diversas informações nos mais diferentes formatos que as organizações coletam para ajudar a guiar suas estratégias e decisões.

Pântano de dados (data swamp): é um data lake sem controle de qualidade e repleto de dados desorganizados e não-estruturados.

Cloud Computing (computação em nuvem): é a tecnologia que permite o acesso a serviços de computação de maneira remota, através da internet. Pode ser utilizada para analisar dados, armazenamento de dados e para fazer backups, entre outros usos.

Algoritmo: na ciência da computação, trata-se de uma sequência de ações ou instruções que visam encontrar a solução para um determinado problema.

Data Transformation (transformação de dados): é o processo de converter dados de um formato (ou estrutura) para outro.

Data Warehouse: é um sistema de gerenciamento de dados que agrega dados de diferentes fontes e vai além, oferecendo suporte a atividades como análise e mineração de dados.

Processamento de linguagem natural (PLN): área da computação que ajuda computadores a compreender melhor a linguagem humana.

No-SQL: são sistemas de gerenciamento de bancos de dados que não fazem uso, ou então que não usam somente, as as tabelas relacionais que são mais comumente utilizadas.

Software-as-a-Service (SaaS): em português, traduz-se como “software como serviço” e trata-se da disponibilização de serviços de software pela internet. Exemplos de SaaS são serviços como Google Drive, Dropbox, Slack, Salesforce e Mailchimp.

Dados Estruturados: são dados que estão em conformidade com um determinado modelo de dados pré-estabelecido. Esse tipo de dado também possui estrutura bem definida e pode ser acessado com facilidade por pessoas ou programas.

Dados Não-Estruturados: são dados que não possuem um modelo de dados pré-definido, ou seja, que não estão organizados de forma pré-definida. Podem ser textos, vídeos, e-mails, fotos, arquivos de áudio ou páginas da internet.

Data Center: é um centro de dados, local em que são realizados serviços como armazenamento, gestão, backup e recuperação de dados, entre outros.

LGPD: é a Lei Geral de Proteção de Dados, que entrou em vigor em 2018 e alterou dois artigos do Marco Civil da Internet.

GDPR: General Data Protection Regulation, ou Regulação Geral de Proteção de Dados. É a regulamentação da União Europeia acerca de proteção de dados e privacidade. Foi estabelecida em 2016 e, em 2018, tornou-se aplicável.

IoT: sigla para Internet of Things (Internet das Coisas). Refere-se a objetos como TVs, relógios e carros que possuem acesso à internet e geram novos dados constantemente.

Business Intelligence: traduzido para português como Inteligência de Mercado, é um conceito diretamente relacionado à coleta e ao estudo de dados, que gera ganhos significativos de mercado para empresas de todos os segmentos.

RPA: Robotic Process Automation, ou Automação Robótica de Processos. É o processo de automatizar, com o uso de robôs virtuais, atividades repetitivas dentro de uma empresa.

Open Data: é a ideia de que alguns dados devem existir de forma compartilhada, dentro de um ecossistema de dados e de forma segura. Um exemplo prático é o open banking.

Metadados: trata-se da definição ou a descrição referente a dados específicos.

Precificação inteligente: é um tipo de precificação baseado em estatísticas e algoritmos que utilizam informações atualizadas sobre vendas, custos, visita e estoque, entre outros.

Dados acionáveis: são dados que, após coletados e tratados, são efetivamente utilizados para definir com precisão os próximos passos a serem tomados pela empresa.

JSON: acrônimo de JavaScript Object Notation, trata-se de um padrão de troca rápida e simples de dados.

Limpeza de dados: nome dado ao processo de remoção de dados corrompidos, incompletos ou duplicados.

Agregação de dados: é o nome do processo em que bases de dados são compiladas e em seguida combinadas para posterior processamento.

Governança de dados: é um conjunto de práticas e soluções relacionadas ao gerenciamento e uso de dados. A ideia da governança é extrair o máximo de valor dos dados de maneira a beneficiar uma organização.

Hiperautomação: é a combinação de ferramentas de Inteligência Artificial e RPA, entre outras, com o objetivo de automatizar toda e qualquer tarefa de cunho repetitivo desempenhada por uma organização.

Aqui na Crawly, dados são a nossa especialidade. Realizamos coleta de dados em condição crítica, automação de processos complexos e processamento de informações robustas, tudo com tecnologia de ponta.

Gostou do conteúdo e quer implementar soluções estado da arte de big data na sua organização? Entre em contato conosco!

45 termos de Big Data para ter na ponta da língua

Outras publicações

Agentes de IA na Automação de Processos: Da RPA à APA

Desafios Éticos na Implementação de Agentes de IA: Privacidade e Transparência

Avanços na Regulação de Agentes de IA: Implicações para Empresas e Desenvolvedores