Blog

Dicas sobre Design e Visualização de dados para QlikView

Quando usar escalas logarítmica e aritmética

Quando dados são representados graficamente, pode-se usar basicamente dois tipos de escalas: aritmética (ou linear) ou logarítmica. Usar uma ou outra pode alterar completamente a forma de um gráfico e consequentemente fazer você tirar conclusões diferentes.

Escala aritmética (linear)

Na escala aritmética (usada na maioria dos gráficos), a distância entre as marcas na escala equivale ao mesmo valor absoluto. Na figura abaixo, a distância é sempre de 100.000 (100K, 200K, 300K, etc.).

escala-linear-qlikview

Escala logarítmica

Na escala logarítmica, a distância entre as marcas na escala equivale à mesma proporção. Na figura abaixo, a distância é sempre de 10x o valor anterior (100, 1.000, 10.000, etc.).

escala-logaritmica-qlikview

A situação mais comum onde a escala logarítmica é benéfica é quando a amostragem de dados ou a amplitude dos valores em um gráfico é muito grande. Nesses casos, uma porção considerável de dados pode estar visualmente “achatada”, dificultando a leitura, como na situação acima. Perceba que na primeira figura (escala aritmética) a análise sobre a linha azul (despesas do departamento de finanças de uma empresa fictícia) fica prejudicada, o que não ocorre na escala logarítmica. Como neste exemplo estamos fazendo uma leitura de tendência (por isso o gráfico de linhas e não de barras), faz todo o sentido manter a escala em log, pois dessa maneira estamos facilitando a leitura das variações percentuais (sem deixar de dar o valor absoluto, tanto no eixo Y quanto no hover das linhas).

No exemplo abaixo, os dois gráficos mostram a mesma informação: O PIB dos Estados Unidos (linha azul) e o endividamento do governo (linha vermelha) desde 1940. O primeiro gráfico usa escala aritmética e o segundo, logarítmica.

escala-logaritmica-aritmetica-comparacao-visualizacao-de-dados

Fonte: http://blog.bissantz.com/

Comparando os dois gráficos, podemos tirar algumas conclusões rápidas:

  1. É quase impossível tirar muita informação dos primeiros 25 anos na escala linear. Os maiores valores no fim do gráfico acabam dominando os menores valores no começo, o que torna a análise das primeiras décadas praticamente inútil.
  2. A escala logarítmica mostra que a maior ascensão na dívida aconteceu nos anos 40. De 1944 até 1948, a dívida foi maior do que o PIB. De 1948 adiante, o PIB foi sempre maior do que a dívida.
  3. Na escala linear, entre os anos de 1965 e 1983, a impressão que se tem é de que o PIB cresceu mais rapidamente do que a dívida. Entretanto, a escala logarítmica deixa claro que o crescimento dos dois foi praticamente o mesmo naquele período.
  4. De 1983 a 1993, a percepção é inversa. Apesar de a diferença entre as linhas ter diminuído, a escala linear mostra as linhas quase em paralelo. Enquanto o PIB subiu 90%, a dívida triplicou neste período. A escala logarítmica deixa essa comparação mais evidente.

É importante ressaltar que, caso seja necessário usar escala logarítmica, não opte por gráfico de barras, pois as barras são interpretadas pelo seu comprimento: uma barra com o dobro do comprimento passa a ideia de ter o dobro do valor, o que provavelmente não será verdade numa escala logarítmica. Use Dot Plot (igual ao gráfico de barras, mas com a marcação de um ponto ao invés da barra) para análises de categorias, já que a leitura é feita em relação a posição no eixo X ou Y, e não pelo comprimento, como em barras. Se o gráfico for para análise temporal logarítmica, prefira linhas ao invés de barras, pelo mesmo motivo.

Então por que, afinal, os gráficos usados para analisar o desempenho de ações em bolsas de valores têm sempre escala logarítmica?

Simples. Porque os analistas buscam por desempenhos percentuais: não importa tanto se a ação variou de R$ 1,00 para R$ 2,00 num dia, mas sim se o ganho (ou a perda) foi de 10%, 50% ou 100%.

No QlikView, um simples “checkbox” ativando a escala logarítmica pode fazer toda a diferença para a leitura dos dados. Portanto, tenha em mente que se o objetivo é medir a variação percentual, e principalmente, quando aliado a isso você tem uma amostra de dados muito ampla, prefira a escala logarítmica.