Big Data: A nova Fronteira da Inovação

No dia a dia, a sociedade gera cerca de 15 petabytes de informações sobre as suas operações comerciais e financeiras, bem como sobre clientes e fornecedores. Um volume impressionante de dados também circula nas mídias sociais e nos dispositivos móveis. Outro volume, tão impressionante quanto, é gerado pelo número cada vez maior de sensores e outros equipamentos embutidos no mundo físico, como rodovias, automóveis, aeronaves, máquinas robóticas, entre outros. Um único segundo de vídeo em alta definição gera 2.000 vezes mais bytes que uma página de texto. Capturar, manusear e analisar esse imenso volume de dados é um grande desafio.


Aí é que entra um assunto que começa a despertar atenção: o chamado Big Data. O termo se refere aos bancos de dados de tamanho significativamente maior que os que usualmente conhecemos. Além disso, as tecnologias atuais não se mostram muito adequadas para manuseá-los. É claro que é uma definição bastante subjetiva e móvel, pois um certo tamanho considerado grande pode se tornar pequeno em poucos anos. Hoje, os nossos discos backup em casa trabalham com o volume em terabyte. Os grandes bancos de dados já estão na escala dos petabytes.

Tratar analiticamente esses dados pode gerar grandes benefícios para a sociedade e para as empresas. Recentemente, a McKinsey Global Institute publicou um relatório muito interessante sobre o potencial econômico do uso do Big data, chamado de “Big Data: The Next frontier for innovation, competition and productivity”.

O Big Data já se espalha por todos os setores da economia. Um estudo mostrou que em 2009 cada empresa americana com mais de mil funcionários armazenava, em média, mais do que 200 terabytes de dados. E, em alguns setores, o volume médio chegava a um petabyte.

O uso de Big Data já começa a se mostrar como um fator diferenciador no cenário de negócios. Alguns casos citados no relatório da McKinsey mostram que algumas empresas conseguiram substanciais vantagens competitivas explorando de forma analítica e em tempo hábil um imenso volume de dados. O Big Data trabalha duas palavras-chave: uma é volume (são bancos de dados de grandes volumes) e a outra é velocidade (o manuseio e o tratamento analítico têm que ser feito muito rapidamente. Em alguns casos, até mesmo em tempo real). Isso se dá pela abrangência de dados que podem ser manuseados. Um Data Warehouse tradicional acumula dados obtidos dos sistemas transacionais como os ERP. Esses sistemas registram as operações efetuadas pelas empresas, como uma venda, por exemplo. Mas eles não registram informações sobre transações que não ocorreram, ainda que de algum modo estejam refletidas nas discussões sobre a empresa e seus produtos nas mídias sociais. A empresa também pode registrar diversas informações com a digitalização das conversas mantidas pelos clientes com os call centers e pelas imagens do movimento nas lojas registradas em vídeo. Essas informações, geralmente não estruturadas, já estão disponíveis, e o que o conceito de Big Data faz é integrá-las de forma a gerar um volume mais abrangente de informações, que permita à empresa tomar decisões cada vez mais baseadas em fatos e não apenas em amostragens e intuição.

Claro que ainda existem grandes desafios pela frente. Um deles é a tecnologia para manusear rapidamente esse imenso volume de dados. Existem algumas tecnologias orientadas a tratar volumes muito grandes, como Hadoop e os sistemas de bancos de dados específicos, como o Cassandra – sistema Open Source utilizado hoje pelo Facebook, pelo Twitter e pelo Reddit, que precisam tratar com muita velocidade imensos volumes de dados de forma distribuída. Seu maior ambiente operacional lida mais de 100 terabytes em um cluster de 150 servidores. Outra tecnologia interessante é um appliance voltado a tratar grandes bases de dados, como a Netezza, recentemente adquirida pela IBM.

Outra tecnologia que tem muito espaço para crescer no área de Big Data é denominada stream computing. A IBM recentemente anunciou o InfoSphere Streams, baseado em um projeto de pesquisas da IBM Research, chamado de System S. O paper do então System S pode ser visto neste link (pdf).

A ideia de stream computing traz um novo paradigma, além de ser fantástica. No modelo de data mining tradicional, uma empresa filtra dados dos seus vários sistemas e, após criar um data warehouse, dispara “queries”. Na prática, faz-se garimpagem em cima de dados estáticos, que não refletem o momento, mas sim o contexto de horas, dias ou mesmo semanas atrás. Com o stream computing, essa garimpagem é efetuada em tempo real. Em vez de disparar queries em cima de uma base de dados estática, coloca-se uma corrente contínua de dados (streaming data) atravessando um conjunto de queries.

Podemos pensar em inúmeras aplicações, sejam elas em finanças, saúde e até mesmo manufatura. Vamos ver este último exemplo: um projeto em desenvolvimento com uma empresa de fabricação de semicondutores monitora em tempo real o processo de detecção e classificação de falhas. Com o stream computing, as falhas nos chips sendo fabricados são detectadas em minutos, e não horas, ou mesmo semanas. Os wafers defeituosos podem ser reprocessados e, mais importante ainda, pode-se fazer ajustes em tempo real nos próprios processos de fabricação.

Do ponto de vista arquitetural, o stream processing é uma evolução do paradigma inventado na IBM pelo System R nos anos 70 e 80, no qual o R indicava “relacional”, ou bancos de dados relacionais, em que o objetivo era coletar os dados num banco e usar queries para processá-los mais tarde.
A principal mudança conceitual proposta pelo InfoSphere Streams está na ideia de se processar os dados à medida que ele são gerados. Um exemplo são as transações de cartões de crédito criadas nos pontos de venda com o intuito de, por exemplo, bloquear transações classificadas como fraudulentas em tempo real.

Naturalmente, a quantidade crescente de dados disponíveis em tempo real (streams de dados) vem aumentando rapidamente. No mercado financeiro transacionado pelas bolsas de valores, já atingimos a marca de mais de um milhão de transações por segundo. Portanto, o modelo de construção de aplicações para processamento de dados dessa natureza também tem que evoluir de modo que se possa acomodar tanto a quantidade, quanto a natureza desses dados, assim como a distribuição da carga de trabalho associada aos sofisticados algoritmos necessários para a análise e classificação desses dados.
Está claro que novas oportunidades de negócios são possíveis, devido à capacidade de processamento das informações em tempo real de dados disponíveis de sensores de localização, como etiquetas de rádio-frequência (RFID), de GPS disponível em telefones celulares, de sensores em carros, entre outros. Enfim, o potencial é quase inesgotável.

Além das tecnologias de tratamento analítico de dados, são necessárias evoluções significativas na maneira de se visualizar os dados. É um campo que tem demandado muita pesquisa.

Mas temos outros desafios além da tecnologia: a escassez de profissionais qualificados para tratar analiticamente as informações geradas por essas imensas bases de dados. Um artigo interessante, que foi publicado recentemente pelo Wall Street Journal – edição brasileira – aponta esse problema. O artigo “MBAs agora preparam mineiros de dados” pode ser acessado por este link. 

O artigo diz que diante do fluxo crescente de dados da internet e outras fontes eletrônicas, muitas empresas começaram a procurar gerentes que saibam interpretar os números usando uma prática em expansão: a análise de dados, também conhecida como inteligência empresarial. Mas encontrar profissionais qualificados tem se mostrado difícil. Em razão disso, nos próximos meses várias faculdades americanas, como a Faculdade de Pós-graduação em Administração da Universidade Fordham e a Faculdade de Administração Kelley, da Universidade de Indiana, oferecerão disciplinas eletivas e cursos de extensão e mestrados em análise de dados; outros cursos e programas do tipo foram lançados no ano passado.

A IBM, que desde 2005 já investiu mais de US$ 14 bilhões para comprar empresas de análise de dados, como a Coremetrics e a Netezza Corp., criou uma parceria com mais de 200 faculdades americanas, incluindo a Fordham, para oferecer treinamento e cursos nesse segmento. A análise de dados já foi considerada tarefa de especialistas em matemática, ciência e tecnologia da informação (TI), mas diante da enxurrada de dados da internet e de outras fontes, as empresas demandam agora profissionais capazes tanto de analisar informações, como também de ajudar as empresas a resolver problemas e criar estratégias.