WEBVTT 00:00:07.707 --> 00:00:12.681 Trabalhando com representações gráficas em estatística, 00:00:12.681 --> 00:00:17.653 é muito comum nós nos perguntarmos qual gráfico que eu vou trabalhar, o que é melhor, 00:00:17.653 --> 00:00:22.091 qual que a melhor situação, onde é que eu aplico tais gráficos diferentes, 00:00:22.091 --> 00:00:27.904 rosca, pizza, que é o gráfico do setor, histograma, gráfico de barra, 00:00:27.904 --> 00:00:33.698 linha de tendência, polígono de frequência que vai ser uma junção de gráfico de barra 00:00:33.698 --> 00:00:34.772 com linha de tendência, 00:00:34.772 --> 00:00:41.113 existem várias coisas onde nós podemos permear e trabalhar em cima disso. 00:00:41.113 --> 00:00:45.084 E, agora, vamos falar de duas classes de gráficos 00:00:45.084 --> 00:00:48.254 comumente utilizadas no meio estatístico, que é o gráfico de setor, 00:00:48.254 --> 00:00:49.723 que nós conhecemos como gráfico de pizza, 00:00:49.723 --> 00:00:54.712 aquele gráfico redondinho onde nós dividimos, normalmente, por porcentagens 00:00:54.712 --> 00:01:00.501 e assim por diante, e também o histograma que tem a ver com a distribuição estatística, 00:01:00.501 --> 00:01:04.432 então eu tenho que calcular frequência, distribuir isso em barras 00:01:04.432 --> 00:01:09.311 e ali ordeno as minhas classes em ordem crescente 00:01:09.311 --> 00:01:12.916 para ver como é que está a distribuição dos meus dados. 00:01:12.916 --> 00:01:16.620 Diz que se os dados se aproximam de uma distribuição gaussiana, 00:01:16.620 --> 00:01:18.473 que nós chamamos de distribuição normal, 00:01:18.473 --> 00:01:24.071 a tendência é que o maior número de frequência bata ali na média, 00:01:24.071 --> 00:01:26.364 é quando nós plotamos a tendência ali. 00:01:26.364 --> 00:01:29.167 Então, vamos analisar um pouquinho os dois tipos de gráfico 00:01:29.167 --> 00:01:31.952 para ver como é que nós trabalhamos com eles visualmente, 00:01:31.952 --> 00:01:34.216 tentamos entender alguma aplicação e assim por diante. 00:01:34.216 --> 00:01:36.642 Então, vem comigo aqui. 00:01:36.642 --> 00:01:40.413 Temos aqui a criação, por exemplo, utilizando a linguagem Python, 00:01:40.413 --> 00:01:46.020 de um gráfico de setor, onde nós definimos valores e rótulos, está certo? 00:01:46.020 --> 00:01:51.559 Então, 10 para o A, 20 para o B, 30 para o C, 40 para o D, 50 para o E. 00:01:51.559 --> 00:01:54.396 Então, nós dividimos aqui proporcionalmente. 00:01:54.396 --> 00:01:58.701 Veja que o E é maior, porque ele recebe a maior quantidade aqui. 00:01:58.701 --> 00:02:02.038 Então, o gráfico de setor é comum para nós, por exemplo, 00:02:02.038 --> 00:02:08.078 calcularmos em classes as porcentagens deles, nós colocarmos rótulo e assim por diante. 00:02:08.078 --> 00:02:11.282 Então, tem até uma variação aqui embaixo, por exemplo, 00:02:11.282 --> 00:02:16.087 do gráfico de setor utilizando porcentagens. 00:02:16.087 --> 00:02:20.259 Então, nós só mudamos aqui um parâmetro de autoporcentagem, 00:02:20.259 --> 00:02:24.530 onde, aquilo que estava aqui em cima, eu consiga distribuir em porcentagem. 00:02:24.530 --> 00:02:30.871 Então você fala assim: "olha, cinco grupos analisados grupo A, B, C, D e E, 00:02:30.871 --> 00:02:35.843 33,3% representa o grupo e então ele é a maioria. 00:02:35.843 --> 00:02:38.846 Por exemplo, se fosse quantidade de pessoas, seria a maioria 00:02:39.047 --> 00:02:43.652 seguido do grupo D, grupo C, B e terminando pelo grupo. 00:02:43.752 --> 00:02:45.421 Então isso daqui é muito importante. 00:02:45.421 --> 00:02:47.389 É um tipo de gráfico bem específico. 00:02:47.389 --> 00:02:48.124 Não é legal 00:02:48.124 --> 00:02:51.928 a gente trabalhar com muitas subdivisões, porque ele fica muito poluído. 00:02:52.028 --> 00:02:55.866 Mas ele é interessante para a gente ter noção de densidade aqui 00:02:55.932 --> 00:02:59.069 e vê qual que é, por exemplo, a maior porcentagem. 00:02:59.069 --> 00:03:01.973 É muito interessante a gente utilizar esse gráfico do setor, 00:03:01.973 --> 00:03:04.976 porque através dos setores a gente consegue ver 00:03:05.143 --> 00:03:10.015 óbvio que o olho humano, dependendo se as porcentagens são muito próximas 00:03:10.115 --> 00:03:12.752 à área, visualmente falando, para os nossos olhos 00:03:12.752 --> 00:03:16.589 talvez não seja algo tão distinguível assim. 00:03:16.689 --> 00:03:17.824 Ou seja, 00:03:17.824 --> 00:03:21.161 a gente não conseguiria diferenciar duas classes diferentes, 00:03:21.161 --> 00:03:22.229 o que pode ser um problema. 00:03:22.229 --> 00:03:24.465 Então a gente tem que tomar muito cuidado 00:03:24.465 --> 00:03:27.835 com o tipo de gráfico para não cometer esse tipo de erro. 00:03:27.935 --> 00:03:31.973 Então, a diferença é que esse daqui só tem o âmbito visual. 00:03:31.973 --> 00:03:33.475 É legal a gente colocar um rótulo 00:03:33.475 --> 00:03:38.214 para a gente ter numericamente uma noção do que está acontecendo. 00:03:38.314 --> 00:03:39.582 E seguindo 00:03:39.582 --> 00:03:42.986 aqui nós temos um histograma aonde a gente pega, por exemplo, 00:03:42.986 --> 00:03:46.223 uma distribuição de dados, 00:03:46.323 --> 00:03:49.393 onde eu pego aqui um tipo de distribuição que aqui 00:03:49.393 --> 00:03:52.764 eu utilizei, uma distribuição randômica do tipo normal. 00:03:52.830 --> 00:03:57.436 Tá certo, Normal porque distribuição normal é uma distribuição gaussiana. 00:03:57.436 --> 00:04:02.007 Se a gente colocar uma linha de tendência que ele vai ter uma curva diferenciada. 00:04:02.174 --> 00:04:07.914 Se eu fizer, por exemplo, um PLT ponto plot, por exemplo, 00:04:07.981 --> 00:04:10.350 nos dados, chegar aqui, 00:04:10.350 --> 00:04:15.122 trabalhar com uma cor vermelha, por exemplo, 00:04:15.222 --> 00:04:18.326 a gente vai trabalhar aqui com o tipo de distribuição. 00:04:18.326 --> 00:04:22.497 Óbvio que agora ele colocou os plots um pouquinho diferentes propriamente dito 00:04:22.497 --> 00:04:26.068 e ele colocou agora numa aleatoriedade, ele transformou tudo. 00:04:26.068 --> 00:04:30.473 Então vou comentar essa linha de código só pra gente não perder 00:04:30.540 --> 00:04:35.178 o que fizemos anteriormente e vou travar uma aleatoriedade também 00:04:35.245 --> 00:04:37.348 para a gente 00:04:37.348 --> 00:04:39.083 não sair 00:04:39.083 --> 00:04:42.553 com mudanças bruscas no nosso cenário. 00:04:42.553 --> 00:04:45.190 Então vou trabalhar aqui com o 42, por exemplo. 00:04:45.190 --> 00:04:48.827 Nós temos aqui uma distribuição específica. 00:04:48.894 --> 00:04:52.264 Isso daqui é uma função zinha computacional que pode nos ajudar 00:04:52.264 --> 00:04:56.903 muito, bastante aqui, porque a gente tem aqui 00:04:56.970 --> 00:04:58.138 algumas possibilidades. 00:04:58.138 --> 00:05:01.942 E veja que colocando um cursor aqui na tela irá aparecer um popup 00:05:02.009 --> 00:05:05.880 aonde nós temos aqui uma janelinha onde ele explica aqui dentro dessa função, 00:05:05.880 --> 00:05:08.616 como é que eu poderia trabalhar alguns parâmetros diferentes. 00:05:08.616 --> 00:05:13.322 Ele dá uma documentação overview geral dessa função aqui. 00:05:13.355 --> 00:05:17.026 Então, além dos dados, eu poderia, por exemplo colocar aqui 00:05:17.026 --> 00:05:21.531 qual é o de densidade, se ele acumulativo tá certo? 00:05:21.531 --> 00:05:24.167 Qual que é o tipo de histograma que pode ser barra? 00:05:24.167 --> 00:05:27.605 Pode ser outros tipos orientação vertical? 00:05:27.638 --> 00:05:30.107 Posso trocar isso daqui para a horizontal? 00:05:30.107 --> 00:05:34.012 Existe uma série de coisas aqui que eu posso trabalhar na 00:05:34.079 --> 00:05:35.814 transformação logarítmica, 00:05:35.814 --> 00:05:39.184 entre outras coisas, então aqui. 00:05:39.284 --> 00:05:41.754 Só que isso daqui diferencia, por exemplo, 00:05:41.754 --> 00:05:44.891 de um gráfico de barras onde as barras são separadas. 00:05:44.891 --> 00:05:46.693 Aqui a ideia ser junto mesmo. 00:05:46.693 --> 00:05:51.565 Então a gente tem umas barras unidas onde a gente só pega o contorno das barras, 00:05:51.665 --> 00:05:54.669 porque o mais importante para a gente a gente saber aonde 00:05:54.835 --> 00:05:57.639 a quantidade bate na classe. 00:05:57.639 --> 00:06:02.711 Então, por exemplo, a gente sabe que na distribuição uniforme aqui de -3, 00:06:02.778 --> 00:06:07.016 vamos ver assim um pouco pra lá de -3 até quatro. 00:06:07.116 --> 00:06:10.320 Nós temos uma distribuição que dá aproximadamente no zero, que seria o meio. 00:06:10.320 --> 00:06:15.793 Então a média, a mediana é a moda aproximadamente dessa distribuição é 00:06:15.859 --> 00:06:17.061 igual. 00:06:17.061 --> 00:06:21.299 Se a gente fosse calcular teoricamente falando aqui, 00:06:21.399 --> 00:06:22.233 então o histograma 00:06:22.233 --> 00:06:25.604 ele é utilizado para a gente analisar a distribuição estatísticas, 00:06:25.604 --> 00:06:29.608 para a gente saber se a distribuição é normal de Poisson e assim por diante. 00:06:29.708 --> 00:06:35.882 Diferente desse gráfico anterior, aqui onde tem outros resultados específicos 00:06:35.982 --> 00:06:38.085 e as distribuições são várias 00:06:38.085 --> 00:06:41.822 Poisson normal Bernoulli 00:06:41.922 --> 00:06:45.326 A binomial tem vários tipos de distribuição 00:06:45.326 --> 00:06:48.630 que na verdade aqui não interessa qual é o tipo de distribuição. 00:06:48.630 --> 00:06:49.731 O mais importante é que 00:06:49.731 --> 00:06:54.169 eu consigo plotar histograma para todas as distribuições possíveis. 00:06:54.236 --> 00:06:57.774 Então veja que agora trabalhamos com mais duas classes de gráficos, 00:06:57.874 --> 00:07:02.379 ou seja, entendemos um pouquinho mais onde a gente pode aplicar isso. 00:07:02.446 --> 00:07:05.215 Só que novamente a relativa o seu problema. 00:07:05.215 --> 00:07:08.953 Então, se você quiser utilizar isso num contexto econômico 00:07:08.953 --> 00:07:12.323 ou num contexto, por exemplo, a análise ambiental 00:07:12.424 --> 00:07:16.495 numa inteligência artificial ou no algoritmo de aprendizado de máquina, 00:07:16.495 --> 00:07:19.498 isso pode depender muito do que você quer fazer. 00:07:19.598 --> 00:07:23.303 E aqui tem várias possibilidades. 00:07:23.369 --> 00:07:25.438 E falando em várias possibilidades, 00:07:25.438 --> 00:07:30.878 isso pode impactar diretamente com aquilo que você está proposto a fazer. 00:07:30.945 --> 00:07:34.816 Então estude, procure bastante a aplicação, 00:07:34.882 --> 00:07:38.520 utilize um recurso gráfico ou a própria programação, como nós vimos, 00:07:38.620 --> 00:07:41.623 para que esse estudo seja cada vez mais eficaz 00:07:41.623 --> 00:07:45.795 e que as aplicações se tornem cada vez mais fáceis de.