Big Data: como lidar com a diversidade de formatos?

Neste momento, está ocorrendo em São Paulo a Campus Party Brasil 2016, evento de tecnologia que reúne comunidades com interesses tão diversos como entretenimento e desenvolvimento de ferramentas e uso da internet para transformação social. É considerado o evento de tecnologia mais importante do país, propiciando um ambiente de troca de conhecimentos e divulgação de inovações. Lendo sobre o evento, lembrei de um vídeo recente, publicado pelo TEDx New York, onde o cientista de dados Ben Wellington fala sobre o potencial de uso do Big Data para transformação social e a necessidade de alguma padronização no formato dos dados para o pleno aproveitamento das informações disponíveis.

Vídeo 1 – Como nós achamos o pior lugar para estacionar em New York usando Big Data

Fonte: TEDx New York

 

No Vídeo 1, Ben cita inúmeros exemplos de insights que ele obteve a partir de dados disponibilizados por órgãos da prefeitura de New York, dentro de um projeto de visibilidade e Open Data iniciado pelo prefeito Bloomberg. No entanto, ele faz críticas à falta de padronização de dados e o uso excessivo da extensão Portable Document Format (pdf) na divulgação de informações que poderiam ser disponibilizadas em Excel ou no formato Comma-Separated Values (csv), o que dificulta a extração e análise de informações.

Este é, sem dúvidas, um grande desafio para o uso do Big Data na tomada de decisão empresarial. Apesar de estarem disponíveis, os dados só passam a ter valor quando transformados em informações relevantes e disponibilizados para os tomadores de decisão. Surge, pois, três grandes desafios ao lidar com a complexidade dos fluxos de informação, que requer a análise e interpretação de uma quantidade cada vez maior de informações (volume), oriundas de fontes e em formatos distintos (variedade) e a disponibilização praticamente em tempo real para um grande número de envolvidos (velocidade).

Dentre estes desafios, hoje a principal dificuldade parece ser trabalhar e cruzar dados nos mais diferentes formatos, como textos, data base, planilhas, áudio, vídeo, transações financeiras, registros de medidores e sensores, entre outros. Grande parte destes dados não está em formato numérico, o que exige novas e sofisticadas ferramentas de análise, com poucas empresas capazes de utilizá-las consistentemente. Assim, fica o reforço ao apelo de Ben para que se avance na construção de regras para a padronização das informações e o desejo de que a Campus Party seja um sucesso e novos robôs de busca e análise de informações possam ser criados para nos ajudar a avançar no uso do Big Data.

 

Referência

<https://www.ted.com/talks/ben_wellington_how_we_found_the_worst_place_to_park_in_new_york_city_using_big_data?language=pt-br>

<https://pt.wikipedia.org/wiki/Campus_Party_Brasil>

HILBERT, M.; LÓPEZ, P. The World’s Technological Capacity to Store, Communicate, and Compute Information. Science Magazine, v. 332, n. 6025, p. 60–65, 2011.

MANYIKA, J.; CHUI, M.; BROWN, B.; et al. Big data : The next frontier for innovation, competition and Productivity. McKinsey Global Institute, páginas 1–137, 2011.

 

1 responder

Trackbacks & Pingbacks

  1. […] Ainda inspirado pela Campus Party Brasil 2016, comecei a divagar e a imaginar possíveis caminhos para o uso da tecnologia em Supply Chain Management no futuro. Obviamente, o uso de tecnologia já é uma realidade em nossa área e a grande maioria das empresas não conseguiria lidar com a complexidade de suas operações sem o uso de ferramentas tecnológicas. No entanto, há indícios suficientes para acreditarmos que estamos muito próximos de uma revolução provocada pela Internet of Things (IoT) e a Nanotecnologia. […]

Os comentários estão fechados.