1 00:00:07,707 --> 00:00:12,681 Trabalhando com representações gráficas em estatística, 2 00:00:12,681 --> 00:00:17,653 é muito comum nós nos perguntarmos qual gráfico que eu vou trabalhar, o que é melhor, 3 00:00:17,653 --> 00:00:22,091 qual que a melhor situação, onde é que eu aplico tais gráficos diferentes, 4 00:00:22,091 --> 00:00:27,904 rosca, pizza, que é o gráfico do setor, histograma, gráfico de barra, 5 00:00:27,904 --> 00:00:33,698 linha de tendência, polígono de frequência que vai ser uma junção de gráfico de barra 6 00:00:33,698 --> 00:00:34,772 com linha de tendência, 7 00:00:34,772 --> 00:00:41,113 existem várias coisas onde nós podemos permear e trabalhar em cima disso. 8 00:00:41,113 --> 00:00:45,084 E, agora, vamos falar de duas classes de gráficos 9 00:00:45,084 --> 00:00:48,254 comumente utilizadas no meio estatístico, que é o gráfico de setor, 10 00:00:48,254 --> 00:00:49,723 que nós conhecemos como gráfico de pizza, 11 00:00:49,723 --> 00:00:54,712 aquele gráfico redondinho onde nós dividimos, normalmente, por porcentagens 12 00:00:54,712 --> 00:01:00,501 e assim por diante, e também o histograma que tem a ver com a distribuição estatística, 13 00:01:00,501 --> 00:01:04,432 então eu tenho que calcular frequência, distribuir isso em barras 14 00:01:04,432 --> 00:01:09,311 e ali ordeno as minhas classes em ordem crescente 15 00:01:09,311 --> 00:01:12,916 para ver como é que está a distribuição dos meus dados. 16 00:01:12,916 --> 00:01:16,620 Diz que se os dados se aproximam de uma distribuição gaussiana, 17 00:01:16,620 --> 00:01:18,473 que nós chamamos de distribuição normal, 18 00:01:18,473 --> 00:01:24,071 a tendência é que o maior número de frequência bata ali na média, 19 00:01:24,071 --> 00:01:26,364 é quando nós plotamos a tendência ali. 20 00:01:26,364 --> 00:01:29,167 Então, vamos analisar um pouquinho os dois tipos de gráfico 21 00:01:29,167 --> 00:01:31,952 para ver como é que nós trabalhamos com eles visualmente, 22 00:01:31,952 --> 00:01:34,216 tentamos entender alguma aplicação e assim por diante. 23 00:01:34,216 --> 00:01:36,642 Então, vem comigo aqui. 24 00:01:36,642 --> 00:01:40,413 Temos aqui a criação, por exemplo, utilizando a linguagem Python, 25 00:01:40,413 --> 00:01:46,020 de um gráfico de setor, onde nós definimos valores e rótulos, está certo? 26 00:01:46,020 --> 00:01:51,559 Então, 10 para o A, 20 para o B, 30 para o C, 40 para o D, 50 para o E. 27 00:01:51,559 --> 00:01:54,396 Então, nós dividimos aqui proporcionalmente. 28 00:01:54,396 --> 00:01:58,701 Veja que o E é maior, porque ele recebe a maior quantidade aqui. 29 00:01:58,701 --> 00:02:02,038 Então, o gráfico de setor é comum para nós, por exemplo, 30 00:02:02,038 --> 00:02:08,078 calcularmos em classes as porcentagens deles, nós colocarmos rótulo e assim por diante. 31 00:02:08,078 --> 00:02:11,282 Então, tem até uma variação aqui embaixo, por exemplo, 32 00:02:11,282 --> 00:02:16,087 do gráfico de setor utilizando porcentagens. 33 00:02:16,087 --> 00:02:20,259 Então, nós só mudamos aqui um parâmetro de autoporcentagem, 34 00:02:20,259 --> 00:02:24,530 onde, aquilo que estava aqui em cima, eu consiga distribuir em porcentagem. 35 00:02:24,530 --> 00:02:30,871 Então você fala assim: "olha, cinco grupos analisados grupo A, B, C, D e E, 36 00:02:30,871 --> 00:02:35,843 33.3% representa o grupo E, então ele é a maioria, 37 00:02:35,843 --> 00:02:39,047 por exemplo, se fosse quantidade de pessoas, seria a maioria 38 00:02:39,047 --> 00:02:43,752 seguido do grupo D, grupo C, B e terminando pelo grupo A. 39 00:02:43,752 --> 00:02:47,389 Então, isso daqui é muito importante, é um tipo de gráfico bem específico, 40 00:02:47,389 --> 00:02:52,028 não é legal nós trabalharmos com muitas subdivisões, porque ele fica muito poluído, 41 00:02:52,028 --> 00:02:55,932 mas ele é interessante para nós termos noção de densidade aqui 42 00:02:55,932 --> 00:02:59,069 e vermos qual que é, por exemplo, a maior porcentagem. 43 00:02:59,069 --> 00:03:01,973 É muito interessante nós utilizarmos esse gráfico do setor, 44 00:03:01,973 --> 00:03:05,143 porque através dos setores nós conseguimos ver. 45 00:03:05,143 --> 00:03:10,115 Óbvio que o olho humano, dependendo se as porcentagens são muito próximas, 46 00:03:10,115 --> 00:03:12,752 a área, visualmente falando para os nossos olhos, 47 00:03:12,752 --> 00:03:16,689 talvez não seja algo tão distinguível assim. 48 00:03:16,689 --> 00:03:21,161 Ou seja, nós não conseguiríamos diferenciar duas classes diferentes, 49 00:03:21,161 --> 00:03:24,465 o que pode ser um problema, então nós temos que tomar muito cuidado 50 00:03:24,465 --> 00:03:27,935 com o tipo de gráfico para não cometer esse tipo de erro. 51 00:03:27,935 --> 00:03:31,973 Então, a diferença é que esse aqui só tem o âmbito visual, 52 00:03:31,973 --> 00:03:33,475 é legal nós colocarmos um rótulo 53 00:03:33,475 --> 00:03:38,314 para nós termos numericamente uma noção do que está acontecendo. 54 00:03:38,314 --> 00:03:42,986 E, seguindo, aqui nós temos um histograma onde nós pegamos, por exemplo, 55 00:03:42,986 --> 00:03:49,037 uma distribuição de dados, onde eu pego aqui um tipo de distribuição, 56 00:03:49,037 --> 00:03:53,459 que aqui eu utilizei, uma distribuição randômica do tipo normal, está certo? 57 00:03:53,459 --> 00:03:54,891 Normal por quê? 58 00:03:54,891 --> 00:03:57,436 Distribuição normal é uma distribuição gaussiana, 59 00:03:57,436 --> 00:04:02,174 se nós colocarmos uma linha de tendência aqui, ele vai ter uma curva diferenciada, 60 00:04:02,174 --> 00:04:09,126 se eu fizer, por exemplo, um "plt.plot" nos dados, 61 00:04:09,126 --> 00:04:13,710 chegar aqui e trabalhar com uma cor vermelha, por exemplo, 62 00:04:15,222 --> 00:04:18,326 nós vamos trabalhar aqui com o tipo de distribuição. 63 00:04:18,326 --> 00:04:22,497 Óbvio que agora ele colocou os plots um pouquinho diferentes, propriamente dito, 64 00:04:22,497 --> 00:04:26,068 e ele colocou agora em uma aleatoriedade, ele transformou tudo. 65 00:04:26,068 --> 00:04:28,026 Então, eu vou comentar essa linha de código 66 00:04:28,026 --> 00:04:31,982 só para nós não perdermos o que fizemos anteriormente. 67 00:04:31,982 --> 00:04:35,245 Ah, e vou travar uma aleatoriedade também 68 00:04:35,245 --> 00:04:42,553 para nós não sairmos com mudanças bruscas no nosso cenário. 69 00:04:42,553 --> 00:04:45,190 Então, eu vou trabalhar aqui com o 42, por exemplo, 70 00:04:45,190 --> 00:04:48,894 nós temos aqui uma distribuição específica. 71 00:04:48,894 --> 00:04:53,825 Isso aqui é uma funçãozinha computacional que pode nos ajudar muito, bastante aqui, 72 00:04:53,825 --> 00:04:58,138 porque nós temos aqui algumas possibilidades. 73 00:04:58,138 --> 00:05:01,942 E veja que colocando um cursor aqui na tela irá aparecer um popup 74 00:05:02,009 --> 00:05:05,880 aonde nós temos aqui uma janelinha onde ele explica aqui dentro dessa função, 75 00:05:05,880 --> 00:05:08,616 como é que eu poderia trabalhar alguns parâmetros diferentes. 76 00:05:08,616 --> 00:05:13,322 Ele dá uma documentação overview geral dessa função aqui. 77 00:05:13,355 --> 00:05:17,026 Então, além dos dados, eu poderia, por exemplo colocar aqui 78 00:05:17,026 --> 00:05:21,531 qual é o de densidade, se ele acumulativo tá certo? 79 00:05:21,531 --> 00:05:24,167 Qual que é o tipo de histograma que pode ser barra? 80 00:05:24,167 --> 00:05:27,605 Pode ser outros tipos orientação vertical? 81 00:05:27,638 --> 00:05:30,107 Posso trocar isso daqui para a horizontal? 82 00:05:30,107 --> 00:05:34,012 Existe uma série de coisas aqui que eu posso trabalhar na 83 00:05:34,079 --> 00:05:35,814 transformação logarítmica, 84 00:05:35,814 --> 00:05:39,184 entre outras coisas, então aqui. 85 00:05:39,284 --> 00:05:41,754 Só que isso daqui diferencia, por exemplo, 86 00:05:41,754 --> 00:05:44,891 de um gráfico de barras onde as barras são separadas. 87 00:05:44,891 --> 00:05:46,693 Aqui a ideia ser junto mesmo. 88 00:05:46,693 --> 00:05:51,565 Então a gente tem umas barras unidas onde a gente só pega o contorno das barras, 89 00:05:51,665 --> 00:05:54,669 porque o mais importante para a gente a gente saber aonde 90 00:05:54,835 --> 00:05:57,639 a quantidade bate na classe. 91 00:05:57,639 --> 00:06:02,711 Então, por exemplo, a gente sabe que na distribuição uniforme aqui de -3, 92 00:06:02,778 --> 00:06:07,016 vamos ver assim um pouco pra lá de -3 até quatro. 93 00:06:07,116 --> 00:06:10,320 Nós temos uma distribuição que dá aproximadamente no zero, que seria o meio. 94 00:06:10,320 --> 00:06:15,793 Então a média, a mediana é a moda aproximadamente dessa distribuição é 95 00:06:15,859 --> 00:06:17,061 igual. 96 00:06:17,061 --> 00:06:21,299 Se a gente fosse calcular teoricamente falando aqui, 97 00:06:21,399 --> 00:06:22,233 então o histograma 98 00:06:22,233 --> 00:06:25,604 ele é utilizado para a gente analisar a distribuição estatísticas, 99 00:06:25,604 --> 00:06:29,608 para a gente saber se a distribuição é normal de Poisson e assim por diante. 100 00:06:29,708 --> 00:06:35,882 Diferente desse gráfico anterior, aqui onde tem outros resultados específicos 101 00:06:35,982 --> 00:06:38,085 e as distribuições são várias 102 00:06:38,085 --> 00:06:41,822 Poisson normal Bernoulli 103 00:06:41,922 --> 00:06:45,326 A binomial tem vários tipos de distribuição 104 00:06:45,326 --> 00:06:48,630 que na verdade aqui não interessa qual é o tipo de distribuição. 105 00:06:48,630 --> 00:06:49,731 O mais importante é que 106 00:06:49,731 --> 00:06:54,169 eu consigo plotar histograma para todas as distribuições possíveis. 107 00:06:54,236 --> 00:06:57,774 Então veja que agora trabalhamos com mais duas classes de gráficos, 108 00:06:57,874 --> 00:07:02,379 ou seja, entendemos um pouquinho mais onde a gente pode aplicar isso. 109 00:07:02,446 --> 00:07:05,215 Só que novamente a relativa o seu problema. 110 00:07:05,215 --> 00:07:08,953 Então, se você quiser utilizar isso num contexto econômico 111 00:07:08,953 --> 00:07:12,323 ou num contexto, por exemplo, a análise ambiental 112 00:07:12,424 --> 00:07:16,495 numa inteligência artificial ou no algoritmo de aprendizado de máquina, 113 00:07:16,495 --> 00:07:19,498 isso pode depender muito do que você quer fazer. 114 00:07:19,598 --> 00:07:23,303 E aqui tem várias possibilidades. 115 00:07:23,369 --> 00:07:25,438 E falando em várias possibilidades, 116 00:07:25,438 --> 00:07:30,878 isso pode impactar diretamente com aquilo que você está proposto a fazer. 117 00:07:30,945 --> 00:07:34,816 Então estude, procure bastante a aplicação, 118 00:07:34,882 --> 00:07:38,520 utilize um recurso gráfico ou a própria programação, como nós vimos, 119 00:07:38,620 --> 00:07:41,623 para que esse estudo seja cada vez mais eficaz 120 00:07:41,623 --> 00:07:45,795 e que as aplicações se tornem cada vez mais fáceis de.