1 00:00:07,707 --> 00:00:12,491 Trabalhando com representações gráficas em estatística, 2 00:00:12,491 --> 00:00:17,443 é muito comum nós nos perguntarmos qual gráfico que eu vou trabalhar, o que é melhor, 3 00:00:17,443 --> 00:00:21,991 qual que é a melhor situação, onde é que eu aplico tais gráficos diferentes, 4 00:00:21,991 --> 00:00:27,744 rosca, pizza, que é o gráfico de setor, histograma, gráfico de barra, 5 00:00:27,744 --> 00:00:33,588 linha de tendência, polígono de frequência, que vai ser uma junção de gráfico de barra 6 00:00:33,588 --> 00:00:34,562 com linha de tendência, 7 00:00:34,562 --> 00:00:40,783 existem várias coisas onde nós podemos permear e trabalhar em cima disso. 8 00:00:40,783 --> 00:00:44,884 E, agora, vamos falar de duas classes de gráficos 9 00:00:44,884 --> 00:00:48,054 comumente utilizadas no meio estatístico, que é o gráfico de setor, 10 00:00:48,054 --> 00:00:49,513 que nós conhecemos como gráfico de pizza, 11 00:00:49,513 --> 00:00:54,512 aquele gráfico redondinho, onde nós dividimos, normalmente, por porcentagens 12 00:00:54,512 --> 00:01:00,261 e assim por diante, e também o histograma, que tem a ver com a distribuição estatística, 13 00:01:00,261 --> 00:01:04,762 então eu tenho que calcular a frequência, distribuir isso em barras, 14 00:01:04,762 --> 00:01:09,141 e ali ordeno as minhas classes em ordem crescente 15 00:01:09,141 --> 00:01:12,786 para ver como é que está a distribuição dos meus dados. 16 00:01:12,786 --> 00:01:16,460 Diz que, se os dados se aproximam de uma distribuição gaussiana, 17 00:01:16,460 --> 00:01:18,693 que nós chamamos de distribuição normal, 18 00:01:18,693 --> 00:01:23,981 a tendência é que o maior número de frequência bata ali na média, 19 00:01:23,981 --> 00:01:26,124 é quando nós plotamos a tendência ali. 20 00:01:26,124 --> 00:01:28,967 Então, vamos analisar um pouquinho os dois tipos de gráfico 21 00:01:28,967 --> 00:01:31,752 para ver como é que nós trabalhamos com eles visualmente, 22 00:01:31,752 --> 00:01:34,156 tentamos entender alguma aplicação e assim por diante. 23 00:01:34,156 --> 00:01:36,080 Então, vem comigo aqui. 24 00:01:36,080 --> 00:01:40,183 Temos aqui a criação, por exemplo, utilizando a linguagem Python, 25 00:01:40,183 --> 00:01:45,750 de um gráfico de setor, onde nós definimos valores e rótulos, está certo? 26 00:01:45,750 --> 00:01:51,359 Então, 10 para o A, 20 para o B, 30 para o C, 40 para o D, 50 para o E. 27 00:01:51,359 --> 00:01:54,236 Então, nós dividimos aqui proporcionalmente. 28 00:01:54,236 --> 00:01:58,541 Veja que o E é maior, porque ele recebe a maior quantidade aqui. 29 00:01:58,541 --> 00:02:01,938 Então, o gráfico de setor é comum para nós, por exemplo, 30 00:02:01,938 --> 00:02:07,928 calcularmos em classes as porcentagens deles, nós colocarmos rótulo e assim por diante. 31 00:02:07,928 --> 00:02:11,082 Então, tem até uma variação aqui embaixo, por exemplo, 32 00:02:11,082 --> 00:02:15,887 do gráfico de setor utilizando porcentagens. 33 00:02:15,887 --> 00:02:20,049 Então, nós só mudamos aqui um parâmetro de autoporcentagem, 34 00:02:20,049 --> 00:02:24,230 onde, aquilo que estava aqui em cima, eu consiga distribuir em porcentagem. 35 00:02:24,230 --> 00:02:31,331 Então, você fala assim: "olha, cinco grupos analisados, grupo A, B, C, D e E, 36 00:02:31,331 --> 00:02:35,683 33.3% representam o grupo E", então ele é a maioria, 37 00:02:35,683 --> 00:02:38,847 por exemplo, se fosse quantidade de pessoas, seria a maioria, 38 00:02:38,847 --> 00:02:43,492 seguido do grupo D, grupo C, B e terminando pelo grupo A. 39 00:02:43,492 --> 00:02:47,199 Então, isso aqui é muito importante, é um tipo de gráfico bem específico, 40 00:02:47,199 --> 00:02:51,848 não é legal nós trabalharmos com muitas subdivisões, porque ele fica muito poluído, 41 00:02:51,848 --> 00:02:55,712 mas ele é interessante para nós termos noção de densidade 42 00:02:55,712 --> 00:02:58,849 e vermos qual que é, por exemplo, a maior porcentagem. 43 00:02:58,849 --> 00:03:01,773 É muito interessante nós utilizarmos esse gráfico de setor, 44 00:03:01,773 --> 00:03:04,923 porque, através dos setores, nós conseguimos ver. 45 00:03:04,923 --> 00:03:09,915 Óbvio que o olho humano, dependendo se as porcentagens são muito próximas, 46 00:03:09,915 --> 00:03:12,562 a área, visualmente falando para os nossos olhos, 47 00:03:12,562 --> 00:03:16,509 talvez não seja algo tão distinguível assim. 48 00:03:16,509 --> 00:03:20,841 Ou seja, nós não conseguiríamos diferenciar duas classes diferentes, 49 00:03:20,841 --> 00:03:24,285 o que pode ser um problema, então nós temos que tomar muito cuidado 50 00:03:24,285 --> 00:03:27,765 com o tipo de gráfico para não cometer esse tipo de erro. 51 00:03:27,765 --> 00:03:31,733 Então, a diferença é que esse aqui só tem o âmbito visual, 52 00:03:31,733 --> 00:03:33,265 é legal nós colocarmos um rótulo 53 00:03:33,265 --> 00:03:38,054 para nós termos, numericamente, uma noção do que está acontecendo. 54 00:03:38,054 --> 00:03:42,726 E, seguindo, aqui nós temos um histograma onde nós pegamos, por exemplo, 55 00:03:42,726 --> 00:03:48,937 uma distribuição de dados, onde eu pego aqui um tipo de distribuição, 56 00:03:48,937 --> 00:03:53,219 aqui eu utilizei uma distribuição randômica do tipo normal, está certo? 57 00:03:53,219 --> 00:03:54,711 Normal por quê? 58 00:03:54,711 --> 00:03:57,306 Distribuição normal é uma distribuição gaussiana, 59 00:03:57,306 --> 00:04:01,954 se nós colocarmos uma linha de tendência aqui, ele vai ter uma curva diferenciada, 60 00:04:01,954 --> 00:04:09,536 se eu fizer, por exemplo, um "plt.plot" nos dados, 61 00:04:09,536 --> 00:04:13,856 chegar aqui e trabalhar com uma cor vermelha, por exemplo, 62 00:04:14,992 --> 00:04:18,116 nós vamos trabalhar aqui com um tipo de distribuição. 63 00:04:18,116 --> 00:04:22,247 Óbvio que agora ele colocou os plots um pouquinho diferentes, propriamente dito, 64 00:04:22,247 --> 00:04:25,858 e ele colocou agora em uma aleatoriedade, ele transformou tudo. 65 00:04:25,858 --> 00:04:28,706 Então, eu vou comentar essa linha de código 66 00:04:28,706 --> 00:04:31,862 só para nós não perdermos o que fizemos anteriormente. 67 00:04:31,862 --> 00:04:35,065 Ah, e vou travar uma aleatoriedade também 68 00:04:35,065 --> 00:04:42,383 para nós não sairmos com mudanças bruscas no nosso cenário. 69 00:04:42,383 --> 00:04:45,000 Então, eu vou trabalhar aqui com o 42, por exemplo, 70 00:04:45,000 --> 00:04:48,734 nós temos aqui uma distribuição específica. 71 00:04:48,734 --> 00:04:53,615 Isso aqui é uma funçãozinha computacional que pode nos ajudar muito, bastante, 72 00:04:53,615 --> 00:04:57,878 porque nós temos aqui algumas possibilidades. 73 00:04:57,878 --> 00:05:01,859 E veja que, colocando o cursor aqui na tela, apareceu um pop-up, 74 00:05:01,859 --> 00:05:05,650 onde nós temos uma janelinha onde ele explica, aqui dentro dessa função, 75 00:05:05,650 --> 00:05:08,416 como é que eu poderia trabalhar, alguns parâmetros diferentes, 76 00:05:08,416 --> 00:05:13,135 ele dá uma documentação, um overview geral dessa função aqui. 77 00:05:13,135 --> 00:05:16,906 Então, além dos dados, eu poderia, por exemplo, colocar aqui: 78 00:05:16,906 --> 00:05:21,311 qual é o range, densidade, se ele é acumulativo, está certo? 79 00:05:21,311 --> 00:05:25,978 Qual que é o tipo de histograma, que pode ser barra, pode ser outros tipos. 80 00:05:25,978 --> 00:05:29,947 A orientação, vertical, eu posso trocar isso aqui para a horizontal. 81 00:05:29,947 --> 00:05:33,879 Existe uma série de coisas aqui que eu posso trabalhar, 82 00:05:33,879 --> 00:05:39,144 transformação logarítmica, entre outras coisas, então aqui. 83 00:05:39,144 --> 00:05:43,110 Só que isso aqui diferencia, por exemplo, de um gráfico de barra, 84 00:05:43,110 --> 00:05:44,601 onde as barras são separadas. 85 00:05:44,601 --> 00:05:48,561 Aqui, a ideia é ser junto mesmo, então nós temos umas barras unidas 86 00:05:48,561 --> 00:05:51,515 onde nós só pegamos o contorno das barras, 87 00:05:51,515 --> 00:05:57,389 porque o mais importante para nós é sabermos onde a quantidade bate na classe. 88 00:05:57,389 --> 00:06:02,588 Então, por exemplo, nós sabemos que na distribuição uniforme aqui de -3, 89 00:06:02,588 --> 00:06:06,936 vamos ver assim, um pouco para lá de -3 até 4, 90 00:06:06,936 --> 00:06:10,150 nós temos uma distribuição que dá aproximadamente no 0, que seria o meio. 91 00:06:10,150 --> 00:06:15,252 Então, a média, a mediana e a moda, aproximadamente, dessa distribuição, 92 00:06:15,252 --> 00:06:21,219 são iguais, se nós fossemos calcular teoricamente falando aqui. 93 00:06:21,219 --> 00:06:25,404 Então, o histograma é utilizado para nós analisarmos distribuições estatísticas, 94 00:06:25,404 --> 00:06:29,488 para nós sabermos se a distribuição é normal, de Poisson e assim por diante, 95 00:06:29,488 --> 00:06:35,404 diferente desse gráfico anterior aqui onde tem outros resultados específicos. 96 00:06:35,404 --> 00:06:42,262 E as distribuições são várias, Poisson, normal, Bernoulli, 97 00:06:42,262 --> 00:06:45,086 binomial, tem vários tipos de distribuição 98 00:06:45,086 --> 00:06:48,654 e, na verdade, aqui não interessa qual é o tipo de distribuição, 99 00:06:48,654 --> 00:06:51,013 o mais importante é que eu consigo plotar histograma 100 00:06:51,013 --> 00:06:54,036 para todas as distribuições possíveis. 101 00:06:54,036 --> 00:06:57,654 Então, veja que agora trabalhamos com mais duas classes de gráficos, 102 00:06:57,654 --> 00:07:02,256 ou seja, entendemos um pouquinho mais onde nós podemos aplicar isso. 103 00:07:02,256 --> 00:07:05,055 Só que, novamente, é relativo ao seu problema. 104 00:07:05,055 --> 00:07:08,763 Então, se você quiser utilizar isso em um contexto econômico 105 00:07:08,763 --> 00:07:14,426 ou em um contexto, por exemplo, de análise ambiental, em uma inteligência artificial, 106 00:07:14,426 --> 00:07:16,275 em um algoritmo de aprendizado de máquina, 107 00:07:16,275 --> 00:07:19,448 isso pode depender muito do que você quer fazer, 108 00:07:19,448 --> 00:07:22,889 e aqui tem várias possibilidades. 109 00:07:22,889 --> 00:07:25,298 E falando em várias possibilidades, 110 00:07:25,298 --> 00:07:30,735 isso pode impactar diretamente com aquilo que você é proposto a fazer. 111 00:07:30,735 --> 00:07:36,198 Então estude, procure bastante aplicação, utilize um recurso gráfico 112 00:07:36,198 --> 00:07:38,460 ou a própria programação, como nós vimos, 113 00:07:38,460 --> 00:07:41,463 para que esse estudo seja cada vez mais eficaz 114 00:07:41,463 --> 00:07:45,513 e que as aplicações se tornem cada vez mais fáceis.