0:00:07.707,0:00:12.681 Trabalhando com representações[br]gráficas em estatística, 0:00:12.681,0:00:17.653 é muito comum nós nos perguntarmos qual[br]gráfico que eu vou trabalhar, o que é melhor, 0:00:17.653,0:00:22.091 qual que a melhor situação, onde é[br]que eu aplico tais gráficos diferentes, 0:00:22.091,0:00:27.904 rosca, pizza, que é o gráfico do setor,[br]histograma, gráfico de barra, 0:00:27.904,0:00:33.698 linha de tendência, polígono de frequência[br]que vai ser uma junção de gráfico de barra 0:00:33.698,0:00:34.772 com linha de tendência, 0:00:34.772,0:00:41.113 existem várias coisas onde nós podemos[br]permear e trabalhar em cima disso. 0:00:41.113,0:00:45.084 E, agora, vamos falar de[br]duas classes de gráficos 0:00:45.084,0:00:48.254 comumente utilizadas no meio[br]estatístico, que é o gráfico de setor, 0:00:48.254,0:00:49.723 que nós conhecemos[br]como gráfico de pizza, 0:00:49.723,0:00:54.712 aquele gráfico redondinho onde nós[br]dividimos, normalmente, por porcentagens 0:00:54.712,0:01:00.501 e assim por diante, e também o histograma[br]que tem a ver com a distribuição estatística, 0:01:00.501,0:01:04.432 então eu tenho que calcular[br]frequência, distribuir isso em barras 0:01:04.432,0:01:09.311 e ali ordeno as minhas classes[br]em ordem crescente 0:01:09.311,0:01:12.916 para ver como é que está[br]a distribuição dos meus dados. 0:01:12.916,0:01:16.620 Diz que se os dados se aproximam[br]de uma distribuição gaussiana, 0:01:16.620,0:01:18.473 que nós chamamos[br]de distribuição normal, 0:01:18.473,0:01:24.071 a tendência é que o maior número[br]de frequência bata ali na média, 0:01:24.071,0:01:26.364 é quando nós plotamos[br]a tendência ali. 0:01:26.364,0:01:29.167 Então, vamos analisar um pouquinho[br]os dois tipos de gráfico 0:01:29.167,0:01:31.952 para ver como é que nós[br]trabalhamos com eles visualmente, 0:01:31.952,0:01:34.216 tentamos entender alguma[br]aplicação e assim por diante. 0:01:34.216,0:01:36.642 Então, vem comigo aqui. 0:01:36.642,0:01:40.413 Temos aqui a criação, por exemplo,[br]utilizando a linguagem Python, 0:01:40.413,0:01:46.020 de um gráfico de setor, onde nós[br]definimos valores e rótulos, está certo? 0:01:46.020,0:01:51.559 Então, 10 para o A, 20 para o B,[br]30 para o C, 40 para o D, 50 para o E. 0:01:51.559,0:01:54.396 Então, nós dividimos aqui[br]proporcionalmente. 0:01:54.396,0:01:58.701 Veja que o E é maior, porque ele[br]recebe a maior quantidade aqui. 0:01:58.701,0:02:02.038 Então, o gráfico de setor é[br]comum para nós, por exemplo, 0:02:02.038,0:02:08.078 calcularmos em classes as porcentagens deles,[br]nós colocarmos rótulo e assim por diante. 0:02:08.078,0:02:11.282 Então, tem até uma variação[br]aqui embaixo, por exemplo, 0:02:11.282,0:02:16.087 do gráfico de setor[br]utilizando porcentagens. 0:02:16.087,0:02:20.259 Então, nós só mudamos aqui[br]um parâmetro de autoporcentagem, 0:02:20.259,0:02:24.530 onde, aquilo que estava aqui em cima,[br]eu consiga distribuir em porcentagem. 0:02:24.530,0:02:30.871 Então você fala assim: "olha, cinco[br]grupos analisados grupo A, B, C, D e E, 0:02:30.871,0:02:35.843 33.3% representa o grupo E,[br]então ele é a maioria, 0:02:35.843,0:02:39.047 por exemplo, se fosse quantidade[br]de pessoas, seria a maioria 0:02:39.047,0:02:43.752 seguido do grupo D, grupo C,[br]B e terminando pelo grupo A. 0:02:43.752,0:02:47.389 Então, isso daqui é muito importante,[br]é um tipo de gráfico bem específico, 0:02:47.389,0:02:52.028 não é legal nós trabalharmos com muitas[br]subdivisões, porque ele fica muito poluído, 0:02:52.028,0:02:55.932 mas ele é interessante para nós[br]termos noção de densidade aqui 0:02:55.932,0:02:59.069 e vermos qual que é, por exemplo,[br]a maior porcentagem. 0:02:59.069,0:03:01.973 É muito interessante nós[br]utilizarmos esse gráfico do setor, 0:03:01.973,0:03:05.143 porque através dos setores[br]nós conseguimos ver. 0:03:05.143,0:03:10.115 Óbvio que o olho humano, dependendo[br]se as porcentagens são muito próximas, 0:03:10.115,0:03:12.752 a área, visualmente falando[br]para os nossos olhos, 0:03:12.752,0:03:16.689 talvez não seja algo[br]tão distinguível assim. 0:03:16.689,0:03:21.161 Ou seja, nós não conseguiríamos[br]diferenciar duas classes diferentes, 0:03:21.161,0:03:24.465 o que pode ser um problema, então[br]nós temos que tomar muito cuidado 0:03:24.465,0:03:27.935 com o tipo de gráfico para não[br]cometer esse tipo de erro. 0:03:27.935,0:03:31.973 Então, a diferença é que esse[br]aqui só tem o âmbito visual, 0:03:31.973,0:03:33.475 é legal nós colocarmos um rótulo 0:03:33.475,0:03:38.314 para nós termos numericamente[br]uma noção do que está acontecendo. 0:03:38.314,0:03:42.986 E, seguindo, aqui nós temos um histograma[br]onde nós pegamos, por exemplo, 0:03:42.986,0:03:49.037 uma distribuição de dados, onde eu[br]pego aqui um tipo de distribuição, 0:03:49.037,0:03:53.459 que aqui eu utilizei, uma distribuição[br]randômica do tipo normal, está certo? 0:03:53.459,0:03:54.891 Normal por quê? 0:03:54.891,0:03:57.436 Distribuição normal é[br]uma distribuição gaussiana, 0:03:57.436,0:04:02.174 se nós colocarmos uma linha de tendência[br]aqui, ele vai ter uma curva diferenciada, 0:04:02.174,0:04:09.126 se eu fizer, por exemplo,[br]um "plt.plot" nos dados, 0:04:09.126,0:04:13.710 chegar aqui e trabalhar com uma cor[br]vermelha, por exemplo, 0:04:15.222,0:04:18.326 nós vamos trabalhar aqui[br]com o tipo de distribuição. 0:04:18.326,0:04:22.497 Óbvio que agora ele colocou os plots[br]um pouquinho diferentes, propriamente dito, 0:04:22.497,0:04:26.068 e ele colocou agora em uma aleatoriedade,[br]ele transformou tudo. 0:04:26.068,0:04:28.026 Então, eu vou comentar[br]essa linha de código 0:04:28.026,0:04:31.982 só para nós não perdermos[br]o que fizemos anteriormente. 0:04:31.982,0:04:35.245 Ah, e vou travar[br]uma aleatoriedade também 0:04:35.245,0:04:42.553 para nós não sairmos com mudanças[br]bruscas no nosso cenário. 0:04:42.553,0:04:45.190 Então, eu vou trabalhar aqui[br]com o 42, por exemplo, 0:04:45.190,0:04:48.894 nós temos aqui[br]uma distribuição específica. 0:04:48.894,0:04:53.825 Isso aqui é uma funçãozinha computacional[br]que pode nos ajudar muito, bastante aqui, 0:04:53.825,0:04:58.138 porque nós temos aqui[br]algumas possibilidades. 0:04:58.138,0:05:01.942 E veja que colocando um cursor[br]aqui na tela irá aparecer um popup 0:05:02.009,0:05:05.880 aonde nós temos aqui uma janelinha[br]onde ele explica aqui dentro dessa função, 0:05:05.880,0:05:08.616 como é que eu poderia trabalhar[br]alguns parâmetros diferentes. 0:05:08.616,0:05:13.322 Ele dá uma documentação[br]overview geral dessa função aqui. 0:05:13.355,0:05:17.026 Então, além dos dados,[br]eu poderia, por exemplo colocar aqui 0:05:17.026,0:05:21.531 qual é o de densidade,[br]se ele acumulativo tá certo? 0:05:21.531,0:05:24.167 Qual que é o tipo de histograma[br]que pode ser barra? 0:05:24.167,0:05:27.605 Pode ser outros tipos orientação vertical? 0:05:27.638,0:05:30.107 Posso trocar isso daqui para a horizontal? 0:05:30.107,0:05:34.012 Existe uma série de coisas aqui[br]que eu posso trabalhar na 0:05:34.079,0:05:35.814 transformação logarítmica, 0:05:35.814,0:05:39.184 entre outras coisas, então aqui. 0:05:39.284,0:05:41.754 Só que isso daqui diferencia, por exemplo, 0:05:41.754,0:05:44.891 de um gráfico de barras[br]onde as barras são separadas. 0:05:44.891,0:05:46.693 Aqui a ideia ser junto mesmo. 0:05:46.693,0:05:51.565 Então a gente tem umas barras unidas onde[br]a gente só pega o contorno das barras, 0:05:51.665,0:05:54.669 porque o mais importante para a gente[br]a gente saber aonde 0:05:54.835,0:05:57.639 a quantidade bate na classe. 0:05:57.639,0:06:02.711 Então, por exemplo, a gente sabe que[br]na distribuição uniforme aqui de -3, 0:06:02.778,0:06:07.016 vamos ver assim[br]um pouco pra lá de -3 até quatro. 0:06:07.116,0:06:10.320 Nós temos uma distribuição que dá[br]aproximadamente no zero, que seria o meio. 0:06:10.320,0:06:15.793 Então a média, a mediana é a moda[br]aproximadamente dessa distribuição é 0:06:15.859,0:06:17.061 igual. 0:06:17.061,0:06:21.299 Se a gente fosse calcular[br]teoricamente falando aqui, 0:06:21.399,0:06:22.233 então o histograma 0:06:22.233,0:06:25.604 ele é utilizado para a gente[br]analisar a distribuição estatísticas, 0:06:25.604,0:06:29.608 para a gente saber se a distribuição[br]é normal de Poisson e assim por diante. 0:06:29.708,0:06:35.882 Diferente desse gráfico anterior, aqui[br]onde tem outros resultados específicos 0:06:35.982,0:06:38.085 e as distribuições são várias 0:06:38.085,0:06:41.822 Poisson normal Bernoulli 0:06:41.922,0:06:45.326 A binomial[br]tem vários tipos de distribuição 0:06:45.326,0:06:48.630 que na verdade aqui não interessa[br]qual é o tipo de distribuição. 0:06:48.630,0:06:49.731 O mais importante é que 0:06:49.731,0:06:54.169 eu consigo plotar histograma[br]para todas as distribuições possíveis. 0:06:54.236,0:06:57.774 Então veja que agora trabalhamos[br]com mais duas classes de gráficos, 0:06:57.874,0:07:02.379 ou seja, entendemos um pouquinho mais[br]onde a gente pode aplicar isso. 0:07:02.446,0:07:05.215 Só que novamente a relativa[br]o seu problema. 0:07:05.215,0:07:08.953 Então, se você quiser utilizar isso[br]num contexto econômico 0:07:08.953,0:07:12.323 ou num contexto, por exemplo,[br]a análise ambiental 0:07:12.424,0:07:16.495 numa inteligência artificial[br]ou no algoritmo de aprendizado de máquina, 0:07:16.495,0:07:19.498 isso pode depender muito[br]do que você quer fazer. 0:07:19.598,0:07:23.303 E aqui tem várias possibilidades. 0:07:23.369,0:07:25.438 E falando em várias possibilidades, 0:07:25.438,0:07:30.878 isso pode impactar diretamente[br]com aquilo que você está proposto a fazer. 0:07:30.945,0:07:34.816 Então estude,[br]procure bastante a aplicação, 0:07:34.882,0:07:38.520 utilize um recurso gráfico[br]ou a própria programação, como nós vimos, 0:07:38.620,0:07:41.623 para que esse estudo[br]seja cada vez mais eficaz 0:07:41.623,0:07:45.795 e que as aplicações se tornem[br]cada vez mais fáceis de.