WEBVTT 00:00:07.707 --> 00:00:12.681 Trabalhando com representações gráficas em estatística, 00:00:12.681 --> 00:00:17.653 é muito comum nós nos perguntarmos qual gráfico que eu vou trabalhar, o que é melhor, 00:00:17.653 --> 00:00:22.091 qual que a melhor situação, onde é que eu aplico tais gráficos diferentes, 00:00:22.091 --> 00:00:27.904 rosca, pizza, que é o gráfico do setor, histograma, gráfico de barra, 00:00:27.904 --> 00:00:33.698 linha de tendência, polígono de frequência que vai ser uma junção de gráfico de barra 00:00:33.698 --> 00:00:34.772 com linha de tendência, 00:00:34.772 --> 00:00:41.113 existem várias coisas onde nós podemos permear e trabalhar em cima disso. 00:00:41.113 --> 00:00:45.084 E, agora, vamos falar de duas classes de gráficos 00:00:45.084 --> 00:00:48.254 comumente utilizadas no meio estatístico, que é o gráfico de setor, 00:00:48.254 --> 00:00:49.723 que nós conhecemos como gráfico de pizza, 00:00:49.723 --> 00:00:54.712 aquele gráfico redondinho onde nós dividimos, normalmente, por porcentagens 00:00:54.712 --> 00:01:00.501 e assim por diante, e também o histograma que tem a ver com a distribuição estatística, 00:01:00.501 --> 00:01:04.432 então eu tenho que calcular frequência, distribuir isso em barras 00:01:04.432 --> 00:01:09.311 e ali ordeno as minhas classes em ordem crescente 00:01:09.311 --> 00:01:12.916 para ver como é que está a distribuição dos meus dados. 00:01:12.916 --> 00:01:16.620 Diz que se os dados se aproximam de uma distribuição gaussiana, 00:01:16.620 --> 00:01:18.473 que nós chamamos de distribuição normal, 00:01:18.473 --> 00:01:24.071 a tendência é que o maior número de frequência bata ali na média, 00:01:24.071 --> 00:01:26.364 é quando nós plotamos a tendência ali. 00:01:26.364 --> 00:01:29.167 Então, vamos analisar um pouquinho os dois tipos de gráfico 00:01:29.167 --> 00:01:31.952 para ver como é que nós trabalhamos com eles visualmente, 00:01:31.952 --> 00:01:34.216 tentamos entender alguma aplicação e assim por diante. 00:01:34.216 --> 00:01:36.642 Então, vem comigo aqui. 00:01:36.642 --> 00:01:40.413 Temos aqui a criação, por exemplo, utilizando a linguagem Python, 00:01:40.413 --> 00:01:46.020 de um gráfico de setor, onde nós definimos valores e rótulos, está certo? 00:01:46.020 --> 00:01:51.559 Então, 10 para o A, 20 para o B, 30 para o C, 40 para o D, 50 para o E. 00:01:51.559 --> 00:01:54.396 Então, nós dividimos aqui proporcionalmente. 00:01:54.396 --> 00:01:58.701 Veja que o E é maior, porque ele recebe a maior quantidade aqui. 00:01:58.701 --> 00:02:02.038 Então, o gráfico de setor é comum para nós, por exemplo, 00:02:02.038 --> 00:02:08.078 calcularmos em classes as porcentagens deles, nós colocarmos rótulo e assim por diante. 00:02:08.078 --> 00:02:11.282 Então, tem até uma variação aqui embaixo, por exemplo, 00:02:11.282 --> 00:02:16.087 do gráfico de setor utilizando porcentagens. 00:02:16.087 --> 00:02:20.259 Então, nós só mudamos aqui um parâmetro de autoporcentagem, 00:02:20.259 --> 00:02:24.530 onde, aquilo que estava aqui em cima, eu consiga distribuir em porcentagem. 00:02:24.530 --> 00:02:30.871 Então você fala assim: "olha, cinco grupos analisados grupo A, B, C, D e E, 00:02:30.871 --> 00:02:35.843 33.3% representam o grupo E, então ele é a maioria, 00:02:35.843 --> 00:02:39.047 por exemplo, se fosse quantidade de pessoas, seria a maioria 00:02:39.047 --> 00:02:43.752 seguido do grupo D, grupo C, B e terminando pelo grupo A. 00:02:43.752 --> 00:02:47.389 Então, isso daqui é muito importante, é um tipo de gráfico bem específico, 00:02:47.389 --> 00:02:52.028 não é legal nós trabalharmos com muitas subdivisões, porque ele fica muito poluído, 00:02:52.028 --> 00:02:55.932 mas ele é interessante para nós termos noção de densidade aqui 00:02:55.932 --> 00:02:59.069 e vermos qual que é, por exemplo, a maior porcentagem. 00:02:59.069 --> 00:03:01.973 É muito interessante nós utilizarmos esse gráfico do setor, 00:03:01.973 --> 00:03:05.143 porque através dos setores nós conseguimos ver. 00:03:05.143 --> 00:03:10.115 Óbvio que o olho humano, dependendo se as porcentagens são muito próximas, 00:03:10.115 --> 00:03:12.752 a área, visualmente falando para os nossos olhos, 00:03:12.752 --> 00:03:16.689 talvez não seja algo tão distinguível assim. 00:03:16.689 --> 00:03:21.161 Ou seja, nós não conseguiríamos diferenciar duas classes diferentes, 00:03:21.161 --> 00:03:24.465 o que pode ser um problema, então nós temos que tomar muito cuidado 00:03:24.465 --> 00:03:27.935 com o tipo de gráfico para não cometer esse tipo de erro. 00:03:27.935 --> 00:03:31.973 Então, a diferença é que esse aqui só tem o âmbito visual, 00:03:31.973 --> 00:03:33.475 é legal nós colocarmos um rótulo 00:03:33.475 --> 00:03:38.314 para nós termos numericamente uma noção do que está acontecendo. 00:03:38.314 --> 00:03:42.986 E, seguindo, aqui nós temos um histograma onde nós pegamos, por exemplo, 00:03:42.986 --> 00:03:49.037 uma distribuição de dados, onde eu pego aqui um tipo de distribuição, 00:03:49.037 --> 00:03:53.459 que aqui eu utilizei, uma distribuição randômica do tipo normal, está certo? 00:03:53.459 --> 00:03:54.891 Normal por quê? 00:03:54.891 --> 00:03:57.436 Distribuição normal é uma distribuição gaussiana, 00:03:57.436 --> 00:04:02.174 se nós colocarmos uma linha de tendência aqui, ele vai ter uma curva diferenciada, 00:04:02.174 --> 00:04:09.126 se eu fizer, por exemplo, um "plt.plot" nos dados, 00:04:09.126 --> 00:04:13.710 chegar aqui e trabalhar com uma cor vermelha, por exemplo, 00:04:15.222 --> 00:04:18.326 nós vamos trabalhar aqui com o tipo de distribuição. 00:04:18.326 --> 00:04:22.497 Óbvio que agora ele colocou os plots um pouquinho diferentes, propriamente dito, 00:04:22.497 --> 00:04:26.068 e ele colocou agora em uma aleatoriedade, ele transformou tudo. 00:04:26.068 --> 00:04:28.026 Então, eu vou comentar essa linha de código 00:04:28.026 --> 00:04:31.982 só para nós não perdermos o que fizemos anteriormente. 00:04:31.982 --> 00:04:35.245 Ah, e vou travar uma aleatoriedade também 00:04:35.245 --> 00:04:42.553 para nós não sairmos com mudanças bruscas no nosso cenário. 00:04:42.553 --> 00:04:45.190 Então, eu vou trabalhar aqui com o 42, por exemplo, 00:04:45.190 --> 00:04:48.894 nós temos aqui uma distribuição específica. 00:04:48.894 --> 00:04:53.825 Isso aqui é uma funçãozinha computacional que pode nos ajudar muito, bastante aqui, 00:04:53.825 --> 00:04:58.138 porque nós temos aqui algumas possibilidades. 00:04:58.138 --> 00:05:02.009 E veja que, colocando o cursor aqui na tela, apareceu um pop-up, 00:05:02.009 --> 00:05:05.880 onde nós temos uma janelinha onde ele explica, aqui dentro dessa função, 00:05:05.880 --> 00:05:08.616 como é que eu poderia trabalhar, alguns parâmetros diferentes, 00:05:08.616 --> 00:05:13.355 ele dá uma documentação, um overview geral dessa função aqui. 00:05:13.355 --> 00:05:17.026 Então, além dos dados, eu poderia, por exemplo, colocar aqui: 00:05:17.026 --> 00:05:21.531 qual é o range, densidade, se ele é acumulativo, está certo? 00:05:21.531 --> 00:05:26.108 Qual que é o tipo de histograma, que pode ser barra, pode ser outros tipos. 00:05:26.108 --> 00:05:30.107 A orientação, vertical, posso trocar isso aqui para a horizontal. 00:05:30.107 --> 00:05:34.079 Existe uma série de coisas aqui que eu posso trabalhar, 00:05:34.079 --> 00:05:39.284 transformação logarítmica, entre outras coisas, então aqui. 00:05:39.284 --> 00:05:42.910 Só que isso daqui diferencia, por exemplo, de um gráfico de barra, 00:05:42.910 --> 00:05:44.891 onde as barras são separadas. 00:05:44.891 --> 00:05:48.841 Aqui, a ideia é ser junto mesmo, então nós temos umas barras unidas 00:05:48.841 --> 00:05:51.665 onde nós só pegamos o contorno das barras, 00:05:51.665 --> 00:05:57.639 porque o mais importante para nós é sabermos onde a quantidade bate na classe. 00:05:57.639 --> 00:06:02.778 Então, por exemplo, nós sabemos que na distribuição uniforme aqui de -3, 00:06:02.778 --> 00:06:07.116 vamos ver assim, um pouco para lá de -3 até 4, 00:06:07.116 --> 00:06:10.320 nós temos uma distribuição que dá aproximadamente no 0, que seria o meio. 00:06:10.320 --> 00:06:15.062 Então, a média, a mediana e a moda, aproximadamente dessa distribuição, 00:06:15.062 --> 00:06:21.399 são iguais, se nós fossemos calcular teoricamente falando aqui. 00:06:21.399 --> 00:06:25.604 Então, o histograma é utilizado para nós analisarmos distribuições estatísticas, 00:06:25.604 --> 00:06:29.708 para nós sabermos se a distribuição é normal, de Poisson e assim por diante, 00:06:29.708 --> 00:06:34.832 diferente desse gráfico anterior aqui onde tem outros resultados específicos. 00:06:35.982 --> 00:06:41.922 E as distribuições são várias, Poisson, normal, Bernoulli, 00:06:41.922 --> 00:06:45.326 binomial, tem vários tipos de distribuição 00:06:45.326 --> 00:06:48.630 e, na verdade, aqui não interessa qual é o tipo de distribuição, 00:06:48.630 --> 00:06:51.133 o mais importante é que eu consigo plotar histograma 00:06:51.133 --> 00:06:54.236 para todas as distribuições possíveis. 00:06:54.236 --> 00:06:57.874 Então, veja que agora trabalhamos com mais duas classes de gráficos, 00:06:57.874 --> 00:07:02.446 ou seja, entendemos um pouquinho mais onde nós podemos aplicar isso. 00:07:02.446 --> 00:07:05.215 Só que, novamente, é relativo ao seu problema. 00:07:05.215 --> 00:07:08.953 Então, se você quiser utilizar isso em um contexto econômico 00:07:08.953 --> 00:07:14.026 ou em um contexto, por exemplo, de análise ambiental, em uma inteligência artificial, 00:07:14.026 --> 00:07:16.495 em um algoritmo de aprendizado de máquina, 00:07:16.495 --> 00:07:19.598 isso pode depender muito do que você quer fazer, 00:07:19.598 --> 00:07:23.369 e aqui tem várias possibilidades. 00:07:23.369 --> 00:07:25.438 E falando em várias possibilidades, 00:07:25.438 --> 00:07:30.945 isso pode impactar diretamente com aquilo que você é proposto a fazer. 00:07:30.945 --> 00:07:36.408 Então estude, procure bastante aplicação, utilize um recurso gráfico 00:07:36.408 --> 00:07:38.620 ou a própria programação, como nós vimos, 00:07:38.620 --> 00:07:41.623 para que esse estudo seja cada vez mais eficaz 00:07:41.623 --> 00:07:45.795 e que as aplicações se tornem cada vez mais fáceis.