1 00:00:07,707 --> 00:00:12,681 Trabalhando com representações gráficas em estatística, 2 00:00:12,681 --> 00:00:17,653 é muito comum nós nos perguntarmos qual gráfico que eu vou trabalhar, o que é melhor, 3 00:00:17,653 --> 00:00:22,091 qual que a melhor situação, onde é que eu aplico tais gráficos diferentes, 4 00:00:22,091 --> 00:00:27,904 rosca, pizza, que é o gráfico do setor, histograma, gráfico de barra, 5 00:00:27,904 --> 00:00:33,698 linha de tendência, polígono de frequência que vai ser uma junção de gráfico de barra 6 00:00:33,698 --> 00:00:34,772 com linha de tendência, 7 00:00:34,772 --> 00:00:41,113 existem várias coisas onde nós podemos permear e trabalhar em cima disso. 8 00:00:41,113 --> 00:00:45,084 E, agora, vamos falar de duas classes de gráficos 9 00:00:45,084 --> 00:00:48,254 comumente utilizadas no meio estatístico, que é o gráfico de setor, 10 00:00:48,254 --> 00:00:49,723 que nós conhecemos como gráfico de pizza, 11 00:00:49,723 --> 00:00:54,712 aquele gráfico redondinho onde nós dividimos, normalmente, por porcentagens 12 00:00:54,712 --> 00:01:00,501 e assim por diante, e também o histograma que tem a ver com a distribuição estatística, 13 00:01:00,501 --> 00:01:04,432 então eu tenho que calcular frequência, distribuir isso em barras 14 00:01:04,432 --> 00:01:09,311 e ali ordeno as minhas classes em ordem crescente 15 00:01:09,311 --> 00:01:12,916 para ver como é que está a distribuição dos meus dados. 16 00:01:12,916 --> 00:01:16,620 Diz que se os dados se aproximam de uma distribuição gaussiana, 17 00:01:16,620 --> 00:01:18,473 que nós chamamos de distribuição normal, 18 00:01:18,473 --> 00:01:24,071 a tendência é que o maior número de frequência bata ali na média, 19 00:01:24,071 --> 00:01:26,364 é quando nós plotamos a tendência ali. 20 00:01:26,364 --> 00:01:29,167 Então, vamos analisar um pouquinho os dois tipos de gráfico 21 00:01:29,167 --> 00:01:31,952 para ver como é que nós trabalhamos com eles visualmente, 22 00:01:31,952 --> 00:01:34,216 tentamos entender alguma aplicação e assim por diante. 23 00:01:34,216 --> 00:01:36,642 Então, vem comigo aqui. 24 00:01:36,642 --> 00:01:40,413 Temos aqui a criação, por exemplo, utilizando a linguagem Python, 25 00:01:40,413 --> 00:01:46,020 de um gráfico de setor, onde nós definimos valores e rótulos, está certo? 26 00:01:46,020 --> 00:01:51,559 Então, 10 para o A, 20 para o B, 30 para o C, 40 para o D, 50 para o E. 27 00:01:51,559 --> 00:01:54,396 Então, nós dividimos aqui proporcionalmente. 28 00:01:54,396 --> 00:01:58,701 Veja que o E é maior, porque ele recebe a maior quantidade aqui. 29 00:01:58,701 --> 00:02:02,038 Então, o gráfico de setor é comum para nós, por exemplo, 30 00:02:02,038 --> 00:02:08,078 calcularmos em classes as porcentagens deles, nós colocarmos rótulo e assim por diante. 31 00:02:08,078 --> 00:02:11,282 Então, tem até uma variação aqui embaixo, por exemplo, 32 00:02:11,282 --> 00:02:16,087 do gráfico de setor utilizando porcentagens. 33 00:02:16,087 --> 00:02:20,259 Então, nós só mudamos aqui um parâmetro de autoporcentagem, 34 00:02:20,259 --> 00:02:24,530 onde, aquilo que estava aqui em cima, eu consiga distribuir em porcentagem. 35 00:02:24,530 --> 00:02:30,871 Então você fala assim: "olha, cinco grupos analisados grupo A, B, C, D e E, 36 00:02:30,871 --> 00:02:35,843 33.3% representam o grupo E, então ele é a maioria, 37 00:02:35,843 --> 00:02:39,047 por exemplo, se fosse quantidade de pessoas, seria a maioria 38 00:02:39,047 --> 00:02:43,752 seguido do grupo D, grupo C, B e terminando pelo grupo A. 39 00:02:43,752 --> 00:02:47,389 Então, isso daqui é muito importante, é um tipo de gráfico bem específico, 40 00:02:47,389 --> 00:02:52,028 não é legal nós trabalharmos com muitas subdivisões, porque ele fica muito poluído, 41 00:02:52,028 --> 00:02:55,932 mas ele é interessante para nós termos noção de densidade aqui 42 00:02:55,932 --> 00:02:59,069 e vermos qual que é, por exemplo, a maior porcentagem. 43 00:02:59,069 --> 00:03:01,973 É muito interessante nós utilizarmos esse gráfico do setor, 44 00:03:01,973 --> 00:03:05,143 porque através dos setores nós conseguimos ver. 45 00:03:05,143 --> 00:03:10,115 Óbvio que o olho humano, dependendo se as porcentagens são muito próximas, 46 00:03:10,115 --> 00:03:12,752 a área, visualmente falando para os nossos olhos, 47 00:03:12,752 --> 00:03:16,689 talvez não seja algo tão distinguível assim. 48 00:03:16,689 --> 00:03:21,161 Ou seja, nós não conseguiríamos diferenciar duas classes diferentes, 49 00:03:21,161 --> 00:03:24,465 o que pode ser um problema, então nós temos que tomar muito cuidado 50 00:03:24,465 --> 00:03:27,935 com o tipo de gráfico para não cometer esse tipo de erro. 51 00:03:27,935 --> 00:03:31,973 Então, a diferença é que esse aqui só tem o âmbito visual, 52 00:03:31,973 --> 00:03:33,475 é legal nós colocarmos um rótulo 53 00:03:33,475 --> 00:03:38,314 para nós termos numericamente uma noção do que está acontecendo. 54 00:03:38,314 --> 00:03:42,986 E, seguindo, aqui nós temos um histograma onde nós pegamos, por exemplo, 55 00:03:42,986 --> 00:03:49,037 uma distribuição de dados, onde eu pego aqui um tipo de distribuição, 56 00:03:49,037 --> 00:03:53,459 que aqui eu utilizei, uma distribuição randômica do tipo normal, está certo? 57 00:03:53,459 --> 00:03:54,891 Normal por quê? 58 00:03:54,891 --> 00:03:57,436 Distribuição normal é uma distribuição gaussiana, 59 00:03:57,436 --> 00:04:02,174 se nós colocarmos uma linha de tendência aqui, ele vai ter uma curva diferenciada, 60 00:04:02,174 --> 00:04:09,126 se eu fizer, por exemplo, um "plt.plot" nos dados, 61 00:04:09,126 --> 00:04:13,710 chegar aqui e trabalhar com uma cor vermelha, por exemplo, 62 00:04:15,222 --> 00:04:18,326 nós vamos trabalhar aqui com o tipo de distribuição. 63 00:04:18,326 --> 00:04:22,497 Óbvio que agora ele colocou os plots um pouquinho diferentes, propriamente dito, 64 00:04:22,497 --> 00:04:26,068 e ele colocou agora em uma aleatoriedade, ele transformou tudo. 65 00:04:26,068 --> 00:04:28,026 Então, eu vou comentar essa linha de código 66 00:04:28,026 --> 00:04:31,982 só para nós não perdermos o que fizemos anteriormente. 67 00:04:31,982 --> 00:04:35,245 Ah, e vou travar uma aleatoriedade também 68 00:04:35,245 --> 00:04:42,553 para nós não sairmos com mudanças bruscas no nosso cenário. 69 00:04:42,553 --> 00:04:45,190 Então, eu vou trabalhar aqui com o 42, por exemplo, 70 00:04:45,190 --> 00:04:48,894 nós temos aqui uma distribuição específica. 71 00:04:48,894 --> 00:04:53,825 Isso aqui é uma funçãozinha computacional que pode nos ajudar muito, bastante aqui, 72 00:04:53,825 --> 00:04:58,138 porque nós temos aqui algumas possibilidades. 73 00:04:58,138 --> 00:05:02,009 E veja que, colocando o cursor aqui na tela, apareceu um pop-up, 74 00:05:02,009 --> 00:05:05,880 onde nós temos uma janelinha onde ele explica, aqui dentro dessa função, 75 00:05:05,880 --> 00:05:08,616 como é que eu poderia trabalhar, alguns parâmetros diferentes, 76 00:05:08,616 --> 00:05:13,355 ele dá uma documentação, um overview geral dessa função aqui. 77 00:05:13,355 --> 00:05:17,026 Então, além dos dados, eu poderia, por exemplo, colocar aqui: 78 00:05:17,026 --> 00:05:21,531 qual é o range, densidade, se ele é acumulativo, está certo? 79 00:05:21,531 --> 00:05:26,108 Qual que é o tipo de histograma, que pode ser barra, pode ser outros tipos. 80 00:05:26,108 --> 00:05:30,107 A orientação, vertical, posso trocar isso aqui para a horizontal. 81 00:05:30,107 --> 00:05:34,079 Existe uma série de coisas aqui que eu posso trabalhar, 82 00:05:34,079 --> 00:05:39,284 transformação logarítmica, entre outras coisas, então aqui. 83 00:05:39,284 --> 00:05:42,910 Só que isso daqui diferencia, por exemplo, de um gráfico de barra, 84 00:05:42,910 --> 00:05:44,891 onde as barras são separadas. 85 00:05:44,891 --> 00:05:48,841 Aqui, a ideia é ser junto mesmo, então nós temos umas barras unidas 86 00:05:48,841 --> 00:05:51,665 onde nós só pegamos o contorno das barras, 87 00:05:51,665 --> 00:05:57,639 porque o mais importante para nós é sabermos onde a quantidade bate na classe. 88 00:05:57,639 --> 00:06:02,778 Então, por exemplo, nós sabemos que na distribuição uniforme aqui de -3, 89 00:06:02,778 --> 00:06:07,116 vamos ver assim, um pouco para lá de -3 até 4, 90 00:06:07,116 --> 00:06:10,320 nós temos uma distribuição que dá aproximadamente no 0, que seria o meio. 91 00:06:10,320 --> 00:06:15,062 Então, a média, a mediana e a moda, aproximadamente dessa distribuição, 92 00:06:15,062 --> 00:06:21,399 são iguais, se nós fossemos calcular teoricamente falando aqui. 93 00:06:21,399 --> 00:06:25,604 Então, o histograma é utilizado para nós analisarmos distribuições estatísticas, 94 00:06:25,604 --> 00:06:29,708 para nós sabermos se a distribuição é normal, de Poisson e assim por diante, 95 00:06:29,708 --> 00:06:34,832 diferente desse gráfico anterior aqui onde tem outros resultados específicos. 96 00:06:35,982 --> 00:06:41,922 E as distribuições são várias, Poisson, normal, Bernoulli, 97 00:06:41,922 --> 00:06:45,326 binomial, tem vários tipos de distribuição 98 00:06:45,326 --> 00:06:48,630 e, na verdade, aqui não interessa qual é o tipo de distribuição, 99 00:06:48,630 --> 00:06:51,133 o mais importante é que eu consigo plotar histograma 100 00:06:51,133 --> 00:06:54,236 para todas as distribuições possíveis. 101 00:06:54,236 --> 00:06:57,874 Então, veja que agora trabalhamos com mais duas classes de gráficos, 102 00:06:57,874 --> 00:07:02,446 ou seja, entendemos um pouquinho mais onde nós podemos aplicar isso. 103 00:07:02,446 --> 00:07:05,215 Só que, novamente, é relativo ao seu problema. 104 00:07:05,215 --> 00:07:08,953 Então, se você quiser utilizar isso em um contexto econômico 105 00:07:08,953 --> 00:07:14,026 ou em um contexto, por exemplo, de análise ambiental, em uma inteligência artificial, 106 00:07:14,026 --> 00:07:16,495 em um algoritmo de aprendizado de máquina, 107 00:07:16,495 --> 00:07:19,598 isso pode depender muito do que você quer fazer, 108 00:07:19,598 --> 00:07:23,369 e aqui tem várias possibilidades. 109 00:07:23,369 --> 00:07:25,438 E falando em várias possibilidades, 110 00:07:25,438 --> 00:07:30,945 isso pode impactar diretamente com aquilo que você é proposto a fazer. 111 00:07:30,945 --> 00:07:36,408 Então estude, procure bastante aplicação, utilize um recurso gráfico 112 00:07:36,408 --> 00:07:38,620 ou a própria programação, como nós vimos, 113 00:07:38,620 --> 00:07:41,623 para que esse estudo seja cada vez mais eficaz 114 00:07:41,623 --> 00:07:45,795 e que as aplicações se tornem cada vez mais fáceis.