Last modified: 2015-08-27
Abstract
A visualização de dados é uma área interdisciplinar em forte expansão a partir do avanço no processo de informatização trazido pelas mídias digitais e que se propõe a contribuir com a organização do pensamento frente à avalanche de dados da contemporaneidade. Trata de situações em que dados quantificáveis, mas não necessariamente numéricos ou visualizáveis, configuram uma representação visual (MANOVICH, 2004), visando amplificar a cognição (CARD, 2004).
Como qualquer nova disciplina, a visualização de dados tem passado por diversas fases (CARD, 2004) não necessariamente sucessivas. A primeira foi uma fase exploratória, onde investigaram-se os limites e as capacidades da disciplina. O segundo momento foi de caracterização, onde criaram-se taxonomias, desenvolveram-se e empregaram-se métodos de organização próprios e específicos. O recente surgimento de ferramentas automáticas de visualização de dados sugere o desdobramento de uma terceira etapa. Com as novas ferramentas automáticas pode-se escolher ou inserir dados e eleger o formato desejado dentre opções sugeridas.
Neste trabalho, de natureza exploratória, investigaremos as principais características e potencialidades das ferramentas automáticas de visualização de dados, analisando os formatos de representação oferecidos e sua relação com os conjuntos de dados empregados, seus custos e plataformas, vantagens e limitações, de forma a obter uma maior compreensão do atual estágio de desenvolvimento da visualização de informações, campo que tem se mostrado relevante na observação de tendências e padrões na sociedade contemporânea.
Procedimentos metodológicos
O primeiro momento desta pesquisa foi voltado para o estabelecimento de uma classificação das representações visuais, de modo a colaborar na análise das ferramentas de visualização.
Autores como Lohse et al. (1994), Bertin (2011), Tufte (1997, 1998, 2001 e 2010) e Herr et al. (2010) estabeleceram diferentes taxonomias de acordo com a época das suas pesquisas. Trabalhando a partir de sistemáticas estabelecidas anteriormente, Engelhard (2002) empregou dois critérios para a classificação de representações gráficas. Em primeiro lugar dividiu-as em estrutura sintática e informação. A estrutura sintática é a forma com que os dados são organizados e a informação são os dados presentes em cada representação. Além disso, as representações gráficas poderiam ser divididas em primárias, que trabalham com apenas um tipo de dado, e híbridas, que podem empregar dois ou mais tipos de dados. No primeiro grupo foram incluídos mapas, imagens, gráficos estatísticos, gráficos temporais, diagrama de links, diagrama de agrupamento, tabelas e símbolos. Já as representações híbridas compreendem mapas estatísticos, mapas de rede, mapas de rede estatísticos, gráficos temporais estatísticos, diagramas de redes estatísticos e diagramas de rede temporais.
Após o estudo de cada categoria constatamos que algumas não eram de interesse para esta pesquisa pois se tratavam de representações gráficas não relacionadas à visualizações de dados, como imagens, tabelas e símbolos. Já a aproximação entre os diagramas de rede temporais, os diagramas de estatísticos temporais e os diagramas de rede, nos levou a condensar as representações gráficas entre as duas últimas. Deste modo, estabelecemos nove grupos de representações gráficas, listados a seguir:
Mapas: visualizações em que a estrutura sintática baseia-se em um espaço físico ou em áreas geográficas, podendo ser uma representação literal ou figurada do espaço.
Gráficos estatísticos: estruturas voltadas para a representação de quantidades.
Gráficos temporais: tem como objetivo evidenciar a passagem de tempo (dados temporais) geralmente de forma metafórica já que a passagem de tempo é representada por uma distância física. A forma mais comum deste tipo de visualização são as linhas do tempo.
Diagramas de rede: representações gráficas que tem como objetivo evidenciar as relações existentes entre dados através de ligações.
Mapas estatísticos: representações que empregam dados numéricos e geográficos em uma mesma visualização.
Mapas de rede: representações que utilizam dados geográficos, com algum tipo de relação entre eles.
Gráficos temporais estatísticos: empregam ao mesmo tempo dados temporais e numéricos.
Fluxogramas ou diagramas de rede estatísticos: atendem a dados de teor numérico que também possuem algum tipo de relação entre si. São utilizados para representar transformações desses dados ao longo do tempo.
Mapas de rede estatísticos: podem trabalhar ao mesmo tempo com dados numéricos, geográficos e relacionados.
Tendo estabelecido as categorias para as visualizações, fizemos um amplo levantamento exploratório das ferramentas automáticas de visualização disponíveis na web.
No total foram detectadas 119 ferramentas. Em um primeiro levantamento, acessamos os sites de cada ferramenta com o objetivo de identificar características próprias de cada uma delas. Foi montada uma tabela onde se listou a existência de versão gratuita ou de teste, seu custo de aquisição, a forma como se apresenta ao usuário (plataforma), a caraterística de acabamento do produto final, além dos tipos de visualizações de dados que poderiam ser criados a partir de quais conjuntos de dados.
Em relação ao acabamento do produto, verificamos que algumas ferramentas ofereciam a possibilidade de criar visualizações completas. As demais, poderiam realizar apenas uma parte do processo. Do total, 71 ferramentas deste tipo foram designadas como ferramentas auxiliares.
Em relação à forma como as ferramentas se apresentam ao usuário, observamos três diferentes grupos de plataformas: softwares, bibliotecas e sites. Os softwares são programas ou aplicativos que necessitam de instalação e configuração para o seu funcionamento. As bibliotecas são conjuntos de instruções que são instaladas dentro de outros programas com o objetivo de facilitar a execução de uma tarefa. De maneira geral, ambas requerem um maior período de aprendizado e conhecimentos prévios de programação. Já os sites são páginas na internet que permitem ao usuário criar diretamente a sua visualização de dados. Das 119 ferramentas pesquisadas, 36 eram softwares, 67 eram bibliotecas e apenas 16 eram sites.
Resultados
Por estarmos interessados na utilização das ferramentas como um facilitador para a criação de visualizações de informações decidimos focar apenas nos sites que permitissem uso gratuito e que entregassem como produto final uma visualização completa. Este tipo de ferramenta deveria poder ser utilizada por uma pessoa leiga, sem nenhum conhecimento prévio de linguagem de programação. Finalmente, observamos que algumas das ferramentas analisadas eram capazes de produzir visualizações empregando apenas conteúdos anteriormente disponíveis no seu banco de dados. Essas últimas, embora pudessem gerar representações úteis, foram descartadas pela limitação do seu escopo de dados. Deste modo, das 119 ferramentas selecionadas inicialmente, foram escolhidas apenas 8 para serem analisadas em detalhe e testadas em relação à sua usabilidade. A seguir, descreveremos brevemente cada uma delas.
CartoDB trabalha com dados geográficos, quantitativos e relacionados, para produzir cartografias. Pode ser paga ou não, dependendo do volume de dados importado. Trabalha com tabelas em formatos .CSV, .KML, .XLX, .SHP ou JSON.
Dipity objetiva a criação de linhas do tempo através da organização de dados relativos a conteúdos e períodos de tempo coletados na internet. Permite ao usuário criar, compartilhar e colaborar através de uma linha do tempo interativa que pode conter vídeos, imagens, textos, links, informações geográficas ou áudios.
Fusion Table está em desenvolvimento pelo Google e tem como objetivo ajudar os usuários a organizarem e visualizarem seus dados. Ao importar os dados o programa abre diversas abas, respectivamente para a tabela importada, cartões (divisões e relacionamento de dados criados pela ferramenta) e para a visualização. Desta forma o programa consegue reconhecer quais os tipos de visualização que podem ser criadas.
Many Eyes é uma ferramenta produzida pela IBM que funciona ao mesmo tempo como fórum e ferramenta para a visualização de dados numéricos e temporais. O principal objetivo do site é permitir coletar, visualizar e analisar dados em conjunto com outros usuários.
Open Heat Map funciona com dados geográficos sem oferecer muitas opções de layout.
Quadrigram é uma ferramenta com versões gratuita e paga produzida a partir da linguagem D3 e que é capaz de atuar com dados geográficos, numéricos, relacionados e temporais. Permite a importação de tabelas nos formatos .CVS e .XLSX e oferece algumas visualizações previamente definidas. A ferramenta possui ainda um editor de texto e permite a criação de formas, possibilitando a inclusão de legendas e layouts diferenciados.
RAW é uma ferramenta que objetiva ajudar o usuário a criar visualizações simples para o uso no dia a dia. Trabalha com dados numéricos, relacionados e temporais e oferece algumas visualizações de acordo com o conjunto de dados.
VIDI emprega dados numéricos, geográficos e/ou temporais. O usuário pode selecionar qual dos três tipos de dados deseja dar ênfase, gerando uma lista de possíveis visualizações de dados que podem ser criadas a partir desses dados. É possível realizar modificações estéticas na visualização final.
Discussão
A presente investigação indicou que apesar da ampla gama de ferramentas disponíveis para a criação de visualizações, apenas um pequeno número permite o desenvolvimento efetivo de representações a partir de dados do usuário. Destas, aproximadamente um quarto encontram-se diretamente relacionadas à grandes empresas, como Google e IBM, sinalizando que há ainda um grande espaço para o desenvolvimento de novas ferramentas. No atual estado de desenvolvimento, as ferramentas mostraram-se como importantes auxiliares no design de visualizações, inclusive permitindo a exportação em formatos passíveis de customização posterior.
Keywords
References
BOUNFORD, T. Digital diagrams: Effective design and presentation of statistical information. New York: Watson-Guptill Publications, 2000.
CAIRO, A. El Arte Funcional. Infografia y visualización de información. Madrid: Alamut, 2011.
CARD, Stuart. Foreword. In: WARE, Collin. Information Visualization. Perception for Design. CA: Elsevier, 2004
RIBECCA, Severino. Data Visualization Catalogue. Disponível em: <http://www.datavizcatalogue.com> Acesso em 15/mar/2015.
ENGELHARD, J. Language of Graphics: A framework for the analysis of syntax and meaning inn maps, charts and diagram. 197 f. Tese. Faculdade de Ciências, Universidade de Amsterdã, Amsterdã. Downloaded from UvA-DARE, the institutional repository of the University of Amsterdam (UvA), 2002.
HEER,J.; BOSTOCK,M.; OGIEVETSKY,V. A tour through the visualization zoo. Communications of the ACM, 53(6). 2010.
KOSMINSKY, D.; ESPERANÇA, C.; PUPO, P. R. J. N.; NASCIMENTO, G. P. L. Visualização da nova realidade Brasileira. P&D 2012.
LIMA, M. 2011. Visual Complexity. Mapping Patterns of Information. New York: Princeton Architectural Press.
LOHSE, G.L., K. Biolisi, N. Walker, and H.H. Rueter (1994). A classification of visual representations. Communications of the ACM, 37 (12), pp. 36-49.
MANOVICH, Lev. (2010) What is visualization? Disponível em http://manovich.net/blog/wpcontent/uploads/ 2010/10/manovich_visualization_2010.doc. Acesso em 26/jan/2011.
MANOVICH, L. Visualização de dados como uma nova abstração e anti-sublime. In: LEÃO, Lucia. Derivas: cartografias do ciberespaço. São Paulo: Annablume, Senac, 2004.
TUFTE, Edward. 2001. The Visual Display of Quantitative Information. Connecticut: Graphic Press.
___________. 2010. Beautiful Evidence. Connecticut: Graphic Press.
___________. 1997. Visual Explanations. Connecticut: Graphic Press.
___________. 1998. Envisioning Information. Connecticut: Graphic Press.
YAU, N. Data Points: Visualization that means something. Indianapolis, John Wiley & Sons, 2013