WEBVTT 00:00:07.707 --> 00:00:12.491 Trabalhando com representações gráficas em estatística, 00:00:12.491 --> 00:00:17.443 é muito comum nós nos perguntarmos qual gráfico que eu vou trabalhar, o que é melhor, 00:00:17.443 --> 00:00:21.991 qual que é a melhor situação, onde é que eu aplico tais gráficos diferentes, 00:00:21.991 --> 00:00:27.744 rosca, pizza, que é o gráfico de setor, histograma, gráfico de barra, 00:00:27.744 --> 00:00:33.588 linha de tendência, polígono de frequência, que vai ser uma junção de gráfico de barra 00:00:33.588 --> 00:00:34.562 com linha de tendência, 00:00:34.562 --> 00:00:40.783 existem várias coisas onde nós podemos permear e trabalhar em cima disso. 00:00:40.783 --> 00:00:44.884 E, agora, vamos falar de duas classes de gráficos 00:00:44.884 --> 00:00:48.054 comumente utilizadas no meio estatístico, que é o gráfico de setor, 00:00:48.054 --> 00:00:49.513 que nós conhecemos como gráfico de pizza, 00:00:49.513 --> 00:00:54.512 aquele gráfico redondinho, onde nós dividimos, normalmente, por porcentagens 00:00:54.512 --> 00:01:00.261 e assim por diante, e também o histograma, que tem a ver com a distribuição estatística, 00:01:00.261 --> 00:01:04.762 então eu tenho que calcular a frequência, distribuir isso em barras, 00:01:04.762 --> 00:01:09.141 e ali ordeno as minhas classes em ordem crescente 00:01:09.141 --> 00:01:12.786 para ver como é que está a distribuição dos meus dados. 00:01:12.786 --> 00:01:16.460 Diz que, se os dados se aproximam de uma distribuição gaussiana, 00:01:16.460 --> 00:01:18.693 que nós chamamos de distribuição normal, 00:01:18.693 --> 00:01:23.981 a tendência é que o maior número de frequência bata ali na média, 00:01:23.981 --> 00:01:26.124 é quando nós plotamos a tendência ali. 00:01:26.124 --> 00:01:28.967 Então, vamos analisar um pouquinho os dois tipos de gráfico 00:01:28.967 --> 00:01:31.752 para ver como é que nós trabalhamos com eles visualmente, 00:01:31.752 --> 00:01:34.156 tentamos entender alguma aplicação e assim por diante. 00:01:34.156 --> 00:01:36.080 Então, vem comigo aqui. 00:01:36.080 --> 00:01:40.183 Temos aqui a criação, por exemplo, utilizando a linguagem Python, 00:01:40.183 --> 00:01:45.750 de um gráfico de setor, onde nós definimos valores e rótulos, está certo? 00:01:45.750 --> 00:01:51.359 Então, 10 para o A, 20 para o B, 30 para o C, 40 para o D, 50 para o E. 00:01:51.359 --> 00:01:54.236 Então, nós dividimos aqui proporcionalmente. 00:01:54.236 --> 00:01:58.541 Veja que o E é maior, porque ele recebe a maior quantidade aqui. 00:01:58.541 --> 00:02:01.938 Então, o gráfico de setor é comum para nós, por exemplo, 00:02:01.938 --> 00:02:07.928 calcularmos em classes as porcentagens deles, nós colocarmos rótulo e assim por diante. 00:02:07.928 --> 00:02:11.082 Então, tem até uma variação aqui embaixo, por exemplo, 00:02:11.082 --> 00:02:15.887 do gráfico de setor utilizando porcentagens. 00:02:15.887 --> 00:02:20.049 Então, nós só mudamos aqui um parâmetro de autoporcentagem, 00:02:20.049 --> 00:02:24.230 onde, aquilo que estava aqui em cima, eu consiga distribuir em porcentagem. 00:02:24.230 --> 00:02:31.331 Então, você fala assim: "olha, cinco grupos analisados, grupo A, B, C, D e E, 00:02:31.331 --> 00:02:35.683 33.3% representam o grupo E", então ele é a maioria, 00:02:35.683 --> 00:02:38.847 por exemplo, se fosse quantidade de pessoas, seria a maioria, 00:02:38.847 --> 00:02:43.492 seguido do grupo D, grupo C, B e terminando pelo grupo A. 00:02:43.492 --> 00:02:47.199 Então, isso aqui é muito importante, é um tipo de gráfico bem específico, 00:02:47.199 --> 00:02:51.848 não é legal nós trabalharmos com muitas subdivisões, porque ele fica muito poluído, 00:02:51.848 --> 00:02:55.712 mas ele é interessante para nós termos noção de densidade 00:02:55.712 --> 00:02:58.849 e vermos qual que é, por exemplo, a maior porcentagem. 00:02:58.849 --> 00:03:01.773 É muito interessante nós utilizarmos esse gráfico de setor, 00:03:01.773 --> 00:03:04.923 porque, através dos setores, nós conseguimos ver. 00:03:04.923 --> 00:03:09.915 Óbvio que o olho humano, dependendo se as porcentagens são muito próximas, 00:03:09.915 --> 00:03:12.562 a área, visualmente falando para os nossos olhos, 00:03:12.562 --> 00:03:16.509 talvez não seja algo tão distinguível assim. 00:03:16.509 --> 00:03:20.841 Ou seja, nós não conseguiríamos diferenciar duas classes diferentes, 00:03:20.841 --> 00:03:24.285 o que pode ser um problema, então nós temos que tomar muito cuidado 00:03:24.285 --> 00:03:27.765 com o tipo de gráfico para não cometer esse tipo de erro. 00:03:27.765 --> 00:03:31.733 Então, a diferença é que esse aqui só tem o âmbito visual, 00:03:31.733 --> 00:03:33.265 é legal nós colocarmos um rótulo 00:03:33.265 --> 00:03:38.054 para nós termos, numericamente, uma noção do que está acontecendo. 00:03:38.054 --> 00:03:42.726 E, seguindo, aqui nós temos um histograma onde nós pegamos, por exemplo, 00:03:42.726 --> 00:03:48.937 uma distribuição de dados, onde eu pego aqui um tipo de distribuição, 00:03:48.937 --> 00:03:53.219 aqui eu utilizei uma distribuição randômica do tipo normal, está certo? 00:03:53.219 --> 00:03:54.711 Normal por quê? 00:03:54.711 --> 00:03:57.306 Distribuição normal é uma distribuição gaussiana, 00:03:57.306 --> 00:04:01.954 se nós colocarmos uma linha de tendência aqui, ele vai ter uma curva diferenciada, 00:04:01.954 --> 00:04:09.536 se eu fizer, por exemplo, um "plt.plot" nos dados, 00:04:09.536 --> 00:04:13.856 chegar aqui e trabalhar com uma cor vermelha, por exemplo, 00:04:14.992 --> 00:04:18.116 nós vamos trabalhar aqui com um tipo de distribuição. 00:04:18.116 --> 00:04:22.247 Óbvio que agora ele colocou os plots um pouquinho diferentes, propriamente dito, 00:04:22.247 --> 00:04:25.858 e ele colocou agora em uma aleatoriedade, ele transformou tudo. 00:04:25.858 --> 00:04:28.706 Então, eu vou comentar essa linha de código 00:04:28.706 --> 00:04:31.862 só para nós não perdermos o que fizemos anteriormente. 00:04:31.862 --> 00:04:35.065 Ah, e vou travar uma aleatoriedade também 00:04:35.065 --> 00:04:42.383 para nós não sairmos com mudanças bruscas no nosso cenário. 00:04:42.383 --> 00:04:45.000 Então, eu vou trabalhar aqui com o 42, por exemplo, 00:04:45.000 --> 00:04:48.734 nós temos aqui uma distribuição específica. 00:04:48.734 --> 00:04:53.615 Isso aqui é uma funçãozinha computacional que pode nos ajudar muito, bastante, 00:04:53.615 --> 00:04:57.878 porque nós temos aqui algumas possibilidades. 00:04:57.878 --> 00:05:01.859 E veja que, colocando o cursor aqui na tela, apareceu um pop-up, 00:05:01.859 --> 00:05:05.650 onde nós temos uma janelinha onde ele explica, aqui dentro dessa função, 00:05:05.650 --> 00:05:08.416 como é que eu poderia trabalhar, alguns parâmetros diferentes, 00:05:08.416 --> 00:05:13.135 ele dá uma documentação, um overview geral dessa função aqui. 00:05:13.135 --> 00:05:16.906 Então, além dos dados, eu poderia, por exemplo, colocar aqui: 00:05:16.906 --> 00:05:21.311 qual é o range, densidade, se ele é acumulativo, está certo? 00:05:21.311 --> 00:05:25.978 Qual que é o tipo de histograma, que pode ser barra, pode ser outros tipos. 00:05:25.978 --> 00:05:29.947 A orientação, vertical, eu posso trocar isso aqui para a horizontal. 00:05:29.947 --> 00:05:33.879 Existe uma série de coisas aqui que eu posso trabalhar, 00:05:33.879 --> 00:05:39.144 transformação logarítmica, entre outras coisas, então aqui. 00:05:39.144 --> 00:05:43.110 Só que isso aqui diferencia, por exemplo, de um gráfico de barra, 00:05:43.110 --> 00:05:44.601 onde as barras são separadas. 00:05:44.601 --> 00:05:48.561 Aqui, a ideia é ser junto mesmo, então nós temos umas barras unidas 00:05:48.561 --> 00:05:51.515 onde nós só pegamos o contorno das barras, 00:05:51.515 --> 00:05:57.389 porque o mais importante para nós é sabermos onde a quantidade bate na classe. 00:05:57.389 --> 00:06:02.588 Então, por exemplo, nós sabemos que na distribuição uniforme aqui de -3, 00:06:02.588 --> 00:06:06.936 vamos ver assim, um pouco para lá de -3 até 4, 00:06:06.936 --> 00:06:10.150 nós temos uma distribuição que dá aproximadamente no 0, que seria o meio. 00:06:10.150 --> 00:06:15.252 Então, a média, a mediana e a moda, aproximadamente, dessa distribuição, 00:06:15.252 --> 00:06:21.219 são iguais, se nós fossemos calcular teoricamente falando aqui. 00:06:21.219 --> 00:06:25.404 Então, o histograma é utilizado para nós analisarmos distribuições estatísticas, 00:06:25.404 --> 00:06:29.488 para nós sabermos se a distribuição é normal, de Poisson e assim por diante, 00:06:29.488 --> 00:06:35.404 diferente desse gráfico anterior aqui onde tem outros resultados específicos. 00:06:35.404 --> 00:06:42.262 E as distribuições são várias, Poisson, normal, Bernoulli, 00:06:42.262 --> 00:06:45.086 binomial, tem vários tipos de distribuição 00:06:45.086 --> 00:06:48.654 e, na verdade, aqui não interessa qual é o tipo de distribuição, 00:06:48.654 --> 00:06:51.013 o mais importante é que eu consigo plotar histograma 00:06:51.013 --> 00:06:54.036 para todas as distribuições possíveis. 00:06:54.036 --> 00:06:57.654 Então, veja que agora trabalhamos com mais duas classes de gráficos, 00:06:57.654 --> 00:07:02.256 ou seja, entendemos um pouquinho mais onde nós podemos aplicar isso. 00:07:02.256 --> 00:07:05.055 Só que, novamente, é relativo ao seu problema. 00:07:05.055 --> 00:07:08.763 Então, se você quiser utilizar isso em um contexto econômico 00:07:08.763 --> 00:07:14.426 ou em um contexto, por exemplo, de análise ambiental, em uma inteligência artificial, 00:07:14.426 --> 00:07:16.275 em um algoritmo de aprendizado de máquina, 00:07:16.275 --> 00:07:19.448 isso pode depender muito do que você quer fazer, 00:07:19.448 --> 00:07:22.889 e aqui tem várias possibilidades. 00:07:22.889 --> 00:07:25.298 E falando em várias possibilidades, 00:07:25.298 --> 00:07:30.735 isso pode impactar diretamente com aquilo que você é proposto a fazer. 00:07:30.735 --> 00:07:36.198 Então estude, procure bastante aplicação, utilize um recurso gráfico 00:07:36.198 --> 00:07:38.460 ou a própria programação, como nós vimos, 00:07:38.460 --> 00:07:41.463 para que esse estudo seja cada vez mais eficaz 00:07:41.463 --> 00:07:45.513 e que as aplicações se tornem cada vez mais fáceis.