data science
Revista da ESPM
| setembro/outubrode 2014
54
Mitos e verdades
O “big” do
big data
se traduz no volume. Ordens de gran-
deza como a que nos acostumamos para representar o
tamanho de nossos arquivos e informações na internet,
comomegabytes (1milhãodebytes) ougigabytes (1bilhão
de bytes), já não representammais as escalas que condi-
cionamas informaçõesnaerado
big data
.Nãoé raro falar-
mos empetabytes (1milhão de gigabytes) oumesmo em
exabytes (mil petabytes) para representar implantações
de projetos envolvendo
big data
emgrandes corporações
noBrasil e nomundo, voltados aosmais diversosmerca-
dos, como o de varejo supermercadista, de prospecção
deminério e petróleo ou ainda para a previsão demicro-
clima. Estima-se que em2020 tenhamos 35,2 zettabytes
(ou 35.200 exabytes) de informações no universo digital,
segundo números da EMC, uma das gigantes do setor de
armazenamento e processamento de dados.
Outra perspectiva do
big data
é a velocidade. Aliada ao
grande volume de informações que transita atualmente
na internet, hojeavelocidadede tráfegoé impressionante.
UmlevantamentodaQmee, referente a2013, sabe-seque
em apenas umminuto a rede mundial movimenta 204
milhões de e-mails, mais de 2 milhões de consultas no
google.com, 278 mil tweets, 1,8 milhão de curtidas no
Facebook e 72novas horas de vídeo são disponibilizadas
no YouTube. Pouca coisa, não?
Mas a característica que diferencia a velocidade no
mundo do
big data
não é seu aumento, e sim sua capa-
cidade de ser cada vez mais assíncrona e
real time
. Em
outras palavras, não conseguimosmais controlar a velo-
cidade com que as informações trafegam. No contexto
em que precisamos tomar decisões com rapidez, para
que isso gere valor para as organizações, a velocidade
não controlada traz umgrande desafio para osmodelos
analíticos — eles precisam se reinventar permanente-
mente para se manteremúteis.
Que valor tem para uma pessoa estimar como estará
o trânsito na avenida Paulista, na cidade de São Paulo,
às 17 horas, se essa estimativa for obtida somente às 19
horas?Ou estimar cincominutos depois se o uso do car-
tão de crédito emuma transação de compra fora do país
deve realmente estar sendo realizado pelo portador do
cartão ou se é uma fraude? Precisamos obter a melhor
estimativa possível sobre a informação nomomento em
que ela está acontecendo.
Modelos tradicionais de previsão tendema se tornar
lentos se considerarmos volumes muitíssimo grandes
de dados. E é aí que o
big data analytics
surge como nova
grande força nas organizações — como analisar de forma
coerente e rápida informações emtempo real e emquan-
tidade não controlada. Afrouxamos um pouco a con-
fiança nas estimativas tradicionais para ganharmos,
significativamente, emdesempenho— e isso representa,
realmente, um valor para as organizações.
Uma terceira perspectiva do
big data
é a variedade.
De 80% a 90% dos dados da internet não são estrutura-
dos — páginas “www” em formatoHTML ou XML, dados
de
clickstream
, fotos, imagens, vídeos, textos em lingua-
gemnatural, mapas etc. Tipicamente, informações cole-
tadas a todo instante por radares de trânsito, sensores
de clima, câmeras de segurança, além de comentários
e posts de redes sociais. Essas informações contem-
plam um panorama riquíssimo de significados para as
empresas, que pode ser apropriado a vários contextos:
avaliar como está a reputação de umamarca a partir de
shutterstock
latinstock