Background Image
Table of Contents Table of Contents
Previous Page  54 / 176 Next Page
Information
Show Menu
Previous Page 54 / 176 Next Page
Page Background

data science

Revista da ESPM

| setembro/outubrode 2014

54

Mitos e verdades

O “big” do

big data

se traduz no volume. Ordens de gran-

deza como a que nos acostumamos para representar o

tamanho de nossos arquivos e informações na internet,

comomegabytes (1milhãodebytes) ougigabytes (1bilhão

de bytes), já não representammais as escalas que condi-

cionamas informaçõesnaerado

big data

.Nãoé raro falar-

mos empetabytes (1milhão de gigabytes) oumesmo em

exabytes (mil petabytes) para representar implantações

de projetos envolvendo

big data

emgrandes corporações

noBrasil e nomundo, voltados aosmais diversosmerca-

dos, como o de varejo supermercadista, de prospecção

deminério e petróleo ou ainda para a previsão demicro-

clima. Estima-se que em2020 tenhamos 35,2 zettabytes

(ou 35.200 exabytes) de informações no universo digital,

segundo números da EMC, uma das gigantes do setor de

armazenamento e processamento de dados.

Outra perspectiva do

big data

é a velocidade. Aliada ao

grande volume de informações que transita atualmente

na internet, hojeavelocidadede tráfegoé impressionante.

UmlevantamentodaQmee, referente a2013, sabe-seque

em apenas umminuto a rede mundial movimenta 204

milhões de e-mails, mais de 2 milhões de consultas no

google.com, 278 mil tweets, 1,8 milhão de curtidas no

Facebook e 72novas horas de vídeo são disponibilizadas

no YouTube. Pouca coisa, não?

Mas a característica que diferencia a velocidade no

mundo do

big data

não é seu aumento, e sim sua capa-

cidade de ser cada vez mais assíncrona e

real time

. Em

outras palavras, não conseguimosmais controlar a velo-

cidade com que as informações trafegam. No contexto

em que precisamos tomar decisões com rapidez, para

que isso gere valor para as organizações, a velocidade

não controlada traz umgrande desafio para osmodelos

analíticos — eles precisam se reinventar permanente-

mente para se manteremúteis.

Que valor tem para uma pessoa estimar como estará

o trânsito na avenida Paulista, na cidade de São Paulo,

às 17 horas, se essa estimativa for obtida somente às 19

horas?Ou estimar cincominutos depois se o uso do car-

tão de crédito emuma transação de compra fora do país

deve realmente estar sendo realizado pelo portador do

cartão ou se é uma fraude? Precisamos obter a melhor

estimativa possível sobre a informação nomomento em

que ela está acontecendo.

Modelos tradicionais de previsão tendema se tornar

lentos se considerarmos volumes muitíssimo grandes

de dados. E é aí que o

big data analytics

surge como nova

grande força nas organizações — como analisar de forma

coerente e rápida informações emtempo real e emquan-

tidade não controlada. Afrouxamos um pouco a con-

fiança nas estimativas tradicionais para ganharmos,

significativamente, emdesempenho— e isso representa,

realmente, um valor para as organizações.

Uma terceira perspectiva do

big data

é a variedade.

De 80% a 90% dos dados da internet não são estrutura-

dos — páginas “www” em formatoHTML ou XML, dados

de

clickstream

, fotos, imagens, vídeos, textos em lingua-

gemnatural, mapas etc. Tipicamente, informações cole-

tadas a todo instante por radares de trânsito, sensores

de clima, câmeras de segurança, além de comentários

e posts de redes sociais. Essas informações contem-

plam um panorama riquíssimo de significados para as

empresas, que pode ser apropriado a vários contextos:

avaliar como está a reputação de umamarca a partir de

shutterstock

latinstock