-
Trabalhando com representações
gráficas em estatística,
-
é muito comum nós nos perguntarmos qual
gráfico que eu vou trabalhar, o que é melhor,
-
qual que é a melhor situação, onde é
que eu aplico tais gráficos diferentes,
-
rosca, pizza, que é o gráfico de setor,
histograma, gráfico de barra,
-
linha de tendência, polígono de frequência,
que vai ser uma junção de gráfico de barra
-
com linha de tendência,
-
existem várias coisas onde nós podemos
permear e trabalhar em cima disso.
-
E, agora, vamos falar de
duas classes de gráficos
-
comumente utilizadas no meio
estatístico, que é o gráfico de setor,
-
que nós conhecemos
como gráfico de pizza,
-
aquele gráfico redondinho, onde nós
dividimos, normalmente, por porcentagens
-
e assim por diante, e também o histograma,
que tem a ver com a distribuição estatística,
-
então eu tenho que calcular
a frequência, distribuir isso em barras,
-
e ali ordeno as minhas classes
em ordem crescente
-
para ver como é que está
a distribuição dos meus dados.
-
Diz que, se os dados se aproximam
de uma distribuição gaussiana,
-
que nós chamamos
de distribuição normal,
-
a tendência é que o maior número
de frequência bata ali na média,
-
é quando nós plotamos
a tendência ali.
-
Então, vamos analisar um pouquinho
os dois tipos de gráfico
-
para ver como é que nós
trabalhamos com eles visualmente,
-
tentamos entender alguma
aplicação e assim por diante.
-
Então, vem comigo aqui.
-
Temos aqui a criação, por exemplo,
utilizando a linguagem Python,
-
de um gráfico de setor, onde nós
definimos valores e rótulos, está certo?
-
Então, 10 para o A, 20 para o B,
30 para o C, 40 para o D, 50 para o E.
-
Então, nós dividimos aqui
proporcionalmente.
-
Veja que o E é maior, porque ele
recebe a maior quantidade aqui.
-
Então, o gráfico de setor é
comum para nós, por exemplo,
-
calcularmos em classes as porcentagens deles,
nós colocarmos rótulo e assim por diante.
-
Então, tem até uma variação
aqui embaixo, por exemplo,
-
do gráfico de setor
utilizando porcentagens.
-
Então, nós só mudamos aqui
um parâmetro de autoporcentagem,
-
onde, aquilo que estava aqui em cima,
eu consiga distribuir em porcentagem.
-
Então, você fala assim: "olha, cinco
grupos analisados, grupo A, B, C, D e E,
-
33.3% representam o grupo E",
então ele é a maioria,
-
por exemplo, se fosse quantidade
de pessoas, seria a maioria,
-
seguido do grupo D, grupo C,
B e terminando pelo grupo A.
-
Então, isso aqui é muito importante,
é um tipo de gráfico bem específico,
-
não é legal nós trabalharmos com muitas
subdivisões, porque ele fica muito poluído,
-
mas ele é interessante para nós
termos noção de densidade
-
e vermos qual que é, por exemplo,
a maior porcentagem.
-
É muito interessante nós
utilizarmos esse gráfico de setor,
-
porque, através dos setores,
nós conseguimos ver.
-
Óbvio que o olho humano, dependendo
se as porcentagens são muito próximas,
-
a área, visualmente falando
para os nossos olhos,
-
talvez não seja algo
tão distinguível assim.
-
Ou seja, nós não conseguiríamos
diferenciar duas classes diferentes,
-
o que pode ser um problema, então
nós temos que tomar muito cuidado
-
com o tipo de gráfico para não
cometer esse tipo de erro.
-
Então, a diferença é que esse
aqui só tem o âmbito visual,
-
é legal nós colocarmos um rótulo
-
para nós termos, numericamente,
uma noção do que está acontecendo.
-
E, seguindo, aqui nós temos um histograma
onde nós pegamos, por exemplo,
-
uma distribuição de dados, onde eu
pego aqui um tipo de distribuição,
-
aqui eu utilizei uma distribuição
randômica do tipo normal, está certo?
-
Normal por quê?
-
Distribuição normal é
uma distribuição gaussiana,
-
se nós colocarmos uma linha de tendência
aqui, ele vai ter uma curva diferenciada,
-
se eu fizer, por exemplo,
um "plt.plot" nos dados,
-
chegar aqui e trabalhar com uma cor
vermelha, por exemplo,
-
nós vamos trabalhar aqui
com um tipo de distribuição.
-
Óbvio que agora ele colocou os plots
um pouquinho diferentes, propriamente dito,
-
e ele colocou agora em uma aleatoriedade,
ele transformou tudo.
-
Então, eu vou comentar
essa linha de código
-
só para nós não perdermos
o que fizemos anteriormente.
-
Ah, e vou travar
uma aleatoriedade também
-
para nós não sairmos com mudanças
bruscas no nosso cenário.
-
Então, eu vou trabalhar aqui
com o 42, por exemplo,
-
nós temos aqui
uma distribuição específica.
-
Isso aqui é uma funçãozinha computacional
que pode nos ajudar muito, bastante,
-
porque nós temos aqui
algumas possibilidades.
-
E veja que, colocando o cursor
aqui na tela, apareceu um pop-up,
-
onde nós temos uma janelinha onde
ele explica, aqui dentro dessa função,
-
como é que eu poderia trabalhar,
alguns parâmetros diferentes,
-
ele dá uma documentação,
um overview geral dessa função aqui.
-
Então, além dos dados, eu poderia,
por exemplo, colocar aqui:
-
qual é o range, densidade,
se ele é acumulativo, está certo?
-
Qual que é o tipo de histograma, que pode
ser barra, pode ser outros tipos.
-
A orientação, vertical, eu posso
trocar isso aqui para a horizontal.
-
Existe uma série de coisas
aqui que eu posso trabalhar,
-
transformação logarítmica,
entre outras coisas, então aqui.
-
Só que isso aqui diferencia,
por exemplo, de um gráfico de barra,
-
onde as barras são separadas.
-
Aqui, a ideia é ser junto mesmo,
então nós temos umas barras unidas
-
onde nós só pegamos
o contorno das barras,
-
porque o mais importante para nós é
sabermos onde a quantidade bate na classe.
-
Então, por exemplo, nós sabemos
que na distribuição uniforme aqui de -3,
-
vamos ver assim, um pouco
para lá de -3 até 4,
-
nós temos uma distribuição que dá
aproximadamente no 0, que seria o meio.
-
Então, a média, a mediana e a moda,
aproximadamente, dessa distribuição,
-
são iguais, se nós fossemos
calcular teoricamente falando aqui.
-
Então, o histograma é utilizado para nós
analisarmos distribuições estatísticas,
-
para nós sabermos se a distribuição é
normal, de Poisson e assim por diante,
-
diferente desse gráfico anterior aqui
onde tem outros resultados específicos.
-
E as distribuições são várias,
Poisson, normal, Bernoulli,
-
binomial, tem vários
tipos de distribuição
-
e, na verdade, aqui não interessa
qual é o tipo de distribuição,
-
o mais importante é que eu
consigo plotar histograma
-
para todas as distribuições possíveis.
-
Então, veja que agora trabalhamos
com mais duas classes de gráficos,
-
ou seja, entendemos um pouquinho
mais onde nós podemos aplicar isso.
-
Só que, novamente, é
relativo ao seu problema.
-
Então, se você quiser utilizar isso
em um contexto econômico
-
ou em um contexto, por exemplo, de análise
ambiental, em uma inteligência artificial,
-
em um algoritmo de aprendizado
de máquina,
-
isso pode depender muito
do que você quer fazer,
-
e aqui tem várias
possibilidades.
-
E falando em várias possibilidades,
-
isso pode impactar diretamente
com aquilo que você é proposto a fazer.
-
Então estude, procure bastante
aplicação, utilize um recurso gráfico
-
ou a própria programação,
como nós vimos,
-
para que esse estudo
seja cada vez mais eficaz
-
e que as aplicações se tornem
cada vez mais fáceis.