Trabalhando com representações
gráficas em estatística,
é muito comum nós nos perguntarmos qual
gráfico que eu vou trabalhar, o que é melhor,
qual que é a melhor situação, onde é
que eu aplico tais gráficos diferentes,
rosca, pizza, que é o gráfico de setor,
histograma, gráfico de barra,
linha de tendência, polígono de frequência,
que vai ser uma junção de gráfico de barra
com linha de tendência,
existem várias coisas onde nós podemos
permear e trabalhar em cima disso.
E, agora, vamos falar de
duas classes de gráficos
comumente utilizadas no meio
estatístico, que é o gráfico de setor,
que nós conhecemos
como gráfico de pizza,
aquele gráfico redondinho, onde nós
dividimos, normalmente, por porcentagens
e assim por diante, e também o histograma,
que tem a ver com a distribuição estatística,
então eu tenho que calcular
a frequência, distribuir isso em barras,
e ali ordeno as minhas classes
em ordem crescente
para ver como é que está
a distribuição dos meus dados.
Diz que, se os dados se aproximam
de uma distribuição gaussiana,
que nós chamamos
de distribuição normal,
a tendência é que o maior número
de frequência bata ali na média,
é quando nós plotamos
a tendência ali.
Então, vamos analisar um pouquinho
os dois tipos de gráfico
para ver como é que nós
trabalhamos com eles visualmente,
tentamos entender alguma
aplicação e assim por diante.
Então, vem comigo aqui.
Temos aqui a criação, por exemplo,
utilizando a linguagem Python,
de um gráfico de setor, onde nós
definimos valores e rótulos, está certo?
Então, 10 para o A, 20 para o B,
30 para o C, 40 para o D, 50 para o E.
Então, nós dividimos aqui
proporcionalmente.
Veja que o E é maior, porque ele
recebe a maior quantidade aqui.
Então, o gráfico de setor é
comum para nós, por exemplo,
calcularmos em classes as porcentagens deles,
nós colocarmos rótulo e assim por diante.
Então, tem até uma variação
aqui embaixo, por exemplo,
do gráfico de setor
utilizando porcentagens.
Então, nós só mudamos aqui
um parâmetro de autoporcentagem,
onde, aquilo que estava aqui em cima,
eu consiga distribuir em porcentagem.
Então, você fala assim: "olha, cinco
grupos analisados, grupo A, B, C, D e E,
33.3% representam o grupo E",
então ele é a maioria,
por exemplo, se fosse quantidade
de pessoas, seria a maioria,
seguido do grupo D, grupo C,
B e terminando pelo grupo A.
Então, isso aqui é muito importante,
é um tipo de gráfico bem específico,
não é legal nós trabalharmos com muitas
subdivisões, porque ele fica muito poluído,
mas ele é interessante para nós
termos noção de densidade
e vermos qual que é, por exemplo,
a maior porcentagem.
É muito interessante nós
utilizarmos esse gráfico de setor,
porque, através dos setores,
nós conseguimos ver.
Óbvio que o olho humano, dependendo
se as porcentagens são muito próximas,
a área, visualmente falando
para os nossos olhos,
talvez não seja algo
tão distinguível assim.
Ou seja, nós não conseguiríamos
diferenciar duas classes diferentes,
o que pode ser um problema, então
nós temos que tomar muito cuidado
com o tipo de gráfico para não
cometer esse tipo de erro.
Então, a diferença é que esse
aqui só tem o âmbito visual,
é legal nós colocarmos um rótulo
para nós termos, numericamente,
uma noção do que está acontecendo.
E, seguindo, aqui nós temos um histograma
onde nós pegamos, por exemplo,
uma distribuição de dados, onde eu
pego aqui um tipo de distribuição,
aqui eu utilizei uma distribuição
randômica do tipo normal, está certo?
Normal por quê?
Distribuição normal é
uma distribuição gaussiana,
se nós colocarmos uma linha de tendência
aqui, ele vai ter uma curva diferenciada,
se eu fizer, por exemplo,
um "plt.plot" nos dados,
chegar aqui e trabalhar com uma cor
vermelha, por exemplo,
nós vamos trabalhar aqui
com um tipo de distribuição.
Óbvio que agora ele colocou os plots
um pouquinho diferentes, propriamente dito,
e ele colocou agora em uma aleatoriedade,
ele transformou tudo.
Então, eu vou comentar
essa linha de código
só para nós não perdermos
o que fizemos anteriormente.
Ah, e vou travar
uma aleatoriedade também
para nós não sairmos com mudanças
bruscas no nosso cenário.
Então, eu vou trabalhar aqui
com o 42, por exemplo,
nós temos aqui
uma distribuição específica.
Isso aqui é uma funçãozinha computacional
que pode nos ajudar muito, bastante,
porque nós temos aqui
algumas possibilidades.
E veja que, colocando o cursor
aqui na tela, apareceu um pop-up,
onde nós temos uma janelinha onde
ele explica, aqui dentro dessa função,
como é que eu poderia trabalhar,
alguns parâmetros diferentes,
ele dá uma documentação,
um overview geral dessa função aqui.
Então, além dos dados, eu poderia,
por exemplo, colocar aqui:
qual é o range, densidade,
se ele é acumulativo, está certo?
Qual que é o tipo de histograma, que pode
ser barra, pode ser outros tipos.
A orientação, vertical, eu posso
trocar isso aqui para a horizontal.
Existe uma série de coisas
aqui que eu posso trabalhar,
transformação logarítmica,
entre outras coisas, então aqui.
Só que isso aqui diferencia,
por exemplo, de um gráfico de barra,
onde as barras são separadas.
Aqui, a ideia é ser junto mesmo,
então nós temos umas barras unidas
onde nós só pegamos
o contorno das barras,
porque o mais importante para nós é
sabermos onde a quantidade bate na classe.
Então, por exemplo, nós sabemos
que na distribuição uniforme aqui de -3,
vamos ver assim, um pouco
para lá de -3 até 4,
nós temos uma distribuição que dá
aproximadamente no 0, que seria o meio.
Então, a média, a mediana e a moda,
aproximadamente, dessa distribuição,
são iguais, se nós fossemos
calcular teoricamente falando aqui.
Então, o histograma é utilizado para nós
analisarmos distribuições estatísticas,
para nós sabermos se a distribuição é
normal, de Poisson e assim por diante,
diferente desse gráfico anterior aqui
onde tem outros resultados específicos.
E as distribuições são várias,
Poisson, normal, Bernoulli,
binomial, tem vários
tipos de distribuição
e, na verdade, aqui não interessa
qual é o tipo de distribuição,
o mais importante é que eu
consigo plotar histograma
para todas as distribuições possíveis.
Então, veja que agora trabalhamos
com mais duas classes de gráficos,
ou seja, entendemos um pouquinho
mais onde nós podemos aplicar isso.
Só que, novamente, é
relativo ao seu problema.
Então, se você quiser utilizar isso
em um contexto econômico
ou em um contexto, por exemplo, de análise
ambiental, em uma inteligência artificial,
em um algoritmo de aprendizado
de máquina,
isso pode depender muito
do que você quer fazer,
e aqui tem várias
possibilidades.
E falando em várias possibilidades,
isso pode impactar diretamente
com aquilo que você é proposto a fazer.
Então estude, procure bastante
aplicação, utilize um recurso gráfico
ou a própria programação,
como nós vimos,
para que esse estudo
seja cada vez mais eficaz
e que as aplicações se tornem
cada vez mais fáceis.