WEBVTT 00:00:07.900 --> 00:00:11.578 Você já teve a necessidade de fazer a sua média salarial, 00:00:11.578 --> 00:00:15.915 calcular a média das suas notas ou qualquer outro tipo de média? 00:00:15.915 --> 00:00:18.518 E é isso então que eu vou ensinar hoje para vocês. 00:00:18.518 --> 00:00:21.688 Mas não pense que será no Excel ou em uma calculadora. 00:00:21.688 --> 00:00:24.891 Nós iremos fazer isso dentro da Linguagem R. 00:00:24.891 --> 00:00:27.300 Vem comigo que eu vou mostrar para vocês como fazer isso. 00:00:27.300 --> 00:00:31.041 Eu já deixei aqui para vocês um script pronto, e aí você fala: 00:00:31.041 --> 00:00:33.233 "Pô, Rafa, mas o que nós iremos fazer? 00:00:33.233 --> 00:00:34.412 Só executar? 00:00:34.412 --> 00:00:35.702 Gente, só executar. 00:00:35.702 --> 00:00:38.371 Aqui estão os valores e aqui estão os resultados. 00:00:38.371 --> 00:00:41.474 Com certeza esse não é o meu objetivo com vocês, tá? 00:00:41.474 --> 00:00:42.342 O script está aqui. 00:00:42.342 --> 00:00:44.469 Toda vez que você vir essa hashtag, 00:00:44.469 --> 00:00:47.889 é um comentário que ele está ignorando na execução, 00:00:47.889 --> 00:00:50.917 e o restante aqui, ou eu estou pedindo para ele fazer algo, 00:00:50.917 --> 00:00:54.187 uma execução, uma atribuição de um valor, ou mostrar em tela. 00:00:54.187 --> 00:00:55.671 Então vamos pegar aqui por partes 00:00:55.671 --> 00:00:59.618 para não precisarmos executar junto com computador, tudo bem? 00:00:59.618 --> 00:01:03.056 Se pegarmos aqui esse primeiro, " dados de vendas mensais", 00:01:03.056 --> 00:01:06.232 teremos aqui a variável "vendas". 00:01:06.232 --> 00:01:11.704 Nós estamos atribuindo oito conjuntos de valores para dentro de vendas aqui. 00:01:11.704 --> 00:01:15.949 Vamos supor: mês um, mês dois, mês três, mês quatro, 00:01:15.949 --> 00:01:19.312 mês cinco, mês seis, mês sete, mês oito. 00:01:19.312 --> 00:01:22.248 Então nós temos aqui as vendas de oito meses. 00:01:22.248 --> 00:01:24.584 Atribuímos, e aqui nós mostramos. 00:01:24.584 --> 00:01:28.288 Quando fazemos isso, aparece esses valores. 00:01:28.288 --> 00:01:31.741 Legal, então nós temos um conjunto de valores de vendas. 00:01:31.741 --> 00:01:33.526 O que nós podemos fazer agora? 00:01:33.526 --> 00:01:36.929 Pegar esses oito valores e achar a média. 00:01:36.929 --> 00:01:40.360 De cabeça, talvez você já consiga imaginar como será, né? 00:01:40.360 --> 00:01:41.634 O computador vai fazer o quê? 00:01:41.634 --> 00:01:45.805 Pegar os oito valores, somar todos esses valores, e dividir por oito. 00:01:45.805 --> 00:01:47.306 Então acharemos a média. 00:01:47.306 --> 00:01:49.193 Vamos ver como fazer isso com o R? 00:01:49.193 --> 00:01:55.081 Eu deixei para vocês um script pré-pronto aqui, mas vamos rodar juntos. 00:01:55.081 --> 00:01:56.015 O que seria isso? 00:01:56.015 --> 00:01:58.184 Tem uma variável chamada vendas. 00:01:58.184 --> 00:02:01.954 Nessa variável, nós temos um conjunto de valores. 00:02:01.954 --> 00:02:04.490 Vamos supor que nós temos oito meses. 00:02:04.490 --> 00:02:08.828 Precisamos representar então mês um, mês dois, mês três, mês quatro, 00:02:08.828 --> 00:02:12.899 mês cinco, mês seis, mês sete, mês oito. 00:02:12.899 --> 00:02:16.035 Então esses são os valores das vendas de oito meses. 00:02:16.035 --> 00:02:20.651 Se eu apertar o Enter, eu atribuo esses oito valores à variável vendas. 00:02:20.651 --> 00:02:25.050 E agora eu vou dar a instrução print, 00:02:25.050 --> 00:02:27.280 o nome da variável vendas, 00:02:27.280 --> 00:02:29.853 e nós vamos conseguir visualizar os oito valores. 00:02:30.460 --> 00:02:33.519 Agora nós vamos para o nosso primeiro objetivo: 00:02:33.519 --> 00:02:36.109 calcular a média desses oito valores. 00:02:36.109 --> 00:02:39.358 Na sua cabeça, você já deve ter feito... 00:02:39.358 --> 00:02:44.130 Abriu o seu Excel, a sua calculadora, somou os oito valores e dividiu por oito. 00:02:44.130 --> 00:02:45.594 Sim, está certo o que você fez, 00:02:45.594 --> 00:02:47.934 mas vamos aprender a fazer isso com o R? 00:02:47.934 --> 00:02:50.340 Não é difícil, é bem simples. Vem comigo. 00:02:50.340 --> 00:02:53.139 O que nós precisamos fazer agora? 00:02:53.139 --> 00:02:55.942 Nós precisamos criar uma nova variável. 00:02:55.942 --> 00:02:59.812 Vamos chamá-la de "media_vendas". 00:02:59.812 --> 00:03:03.112 Inclusive eu estou usando a mesma coisa que está no script aqui, tá, 00:03:03.112 --> 00:03:04.474 para não precisarmos ficar mudando muito. 00:03:04.474 --> 00:03:06.935 "Rafa, eu posso dar um nome de outra variável?" 00:03:06.935 --> 00:03:09.155 Pode. Fique à vontade. 00:03:09.155 --> 00:03:12.224 Essa é a instrução que calcula a média. 00:03:12.224 --> 00:03:14.156 E agora? Qual o intervalo de valores? 00:03:14.156 --> 00:03:15.036 Onde estão? 00:03:15.036 --> 00:03:16.596 Está dentro de vendas. 00:03:16.596 --> 00:03:20.199 Então eu estou pedindo para o R pegar todos os valores 00:03:20.199 --> 00:03:25.638 que estão dentro de vendas e calcular a média através dessa instrução, 00:03:25.638 --> 00:03:29.141 e atribuir ao valor da média dentro dessa variável. 00:03:29.141 --> 00:03:32.578 Vamos apertar o Enter, e agora precisamos visualizar 00:03:32.578 --> 00:03:35.648 o que foi armazenado dentro dessa variável. 00:03:35.648 --> 00:03:37.484 Vamos ver qual é a média então? 00:03:37.484 --> 00:03:38.884 Se apertar o Enter... 00:03:38.884 --> 00:03:44.957 A média então desses oito valores é 162.5. 00:03:44.957 --> 00:03:46.599 O primeiro objetivo foi alcançado. 00:03:46.599 --> 00:03:49.395 Vamos evoluir mais um pouco agora? 00:03:49.395 --> 00:03:53.909 Agora nós vamos aprender a calcular a mediana. 00:03:53.909 --> 00:03:58.237 Voltando para a tela, eu deixei aqui um comentário, tá? 00:03:58.237 --> 00:04:01.407 Você pode escutar o que eu vou falar e anotar, 00:04:01.407 --> 00:04:04.176 ou você também pode olhar os materiais de estudos, 00:04:04.176 --> 00:04:07.670 ou também está aqui um breve resumo do que é a mediana. 00:04:07.670 --> 00:04:11.617 Puxando aqui para a parte da estatística que nós estamos mexendo, 00:04:11.617 --> 00:04:13.707 a mediana é uma medida estatística 00:04:13.707 --> 00:04:17.289 que representa o valor central em um conjunto de dados. 00:04:17.289 --> 00:04:19.417 "Qual é o nosso conjunto de dados, Rafa?" 00:04:19.417 --> 00:04:20.292 Esse conjunto. 00:04:20.292 --> 00:04:23.145 Vamos continuar trabalhando nele para facilitar, tudo bem? 00:04:23.145 --> 00:04:24.930 "Rafa, eu tenho um outro conjunto de dados." 00:04:24.930 --> 00:04:25.799 Aplique. 00:04:25.799 --> 00:04:30.393 Então é a média central desse conjunto de dados 00:04:30.393 --> 00:04:34.073 organizado de forma crescente ou decrescente. 00:04:34.073 --> 00:04:37.510 Nesse caso, não está organizado. 00:04:37.510 --> 00:04:38.844 "Poxa, Rafa, ele não está." 00:04:38.844 --> 00:04:41.080 Vamos ver então como fazer isso? 00:04:41.080 --> 00:04:42.615 O R vai nos ajudar. 00:04:42.615 --> 00:04:46.867 Se vocês verificarem, nós temos esse script pronto e os comentários. 00:04:46.867 --> 00:04:48.988 Mas vamos fazer juntos, tudo bem? 00:04:48.988 --> 00:04:50.155 Então nós vamos fazer o quê? 00:04:50.155 --> 00:04:52.658 Como anteriormente, nós vamos criar uma variável. 00:04:52.658 --> 00:04:57.618 Nós vamos chamar "media_vendas", vamos chamar "mediana_vendas", 00:04:57.618 --> 00:05:00.766 sinal de menor, sinal de atribuição. 00:05:00.766 --> 00:05:02.889 E o que precisávamos fazer agora? 00:05:02.889 --> 00:05:07.853 Anteriormente, para calcular a média era assim. 00:05:07.853 --> 00:05:12.478 Agora nós precisamos calcular a mediana, essa outra instrução. 00:05:12.478 --> 00:05:15.426 "Rafa, a mediana de qual conjunto de dados?" 00:05:15.426 --> 00:05:18.525 Olha, vamos selecionar esse conjunto de dados. 00:05:18.525 --> 00:05:19.885 Está armazenado aonde? 00:05:19.885 --> 00:05:20.961 Dentro de vendas. 00:05:21.787 --> 00:05:25.457 Então nós vamos digitar vendas aqui e apertar o Enter. 00:05:25.457 --> 00:05:26.925 Aí você fala: "Será que funcionou?". 00:05:26.925 --> 00:05:28.453 Se não deu um erro, à princípio sim. 00:05:28.453 --> 00:05:32.347 Mas nós precisamos visualizar qual é a variável 00:05:32.347 --> 00:05:35.267 que armazenou o valor da mediana. 00:05:35.267 --> 00:05:37.770 Está aqui, Control C + Control V. 00:05:37.770 --> 00:05:39.571 "Ah, não, Rafa, eu gosto de digitar." 00:05:39.571 --> 00:05:43.609 Eu tenho uma dica que às vezes é bom você copiar o nome da variável. 00:05:43.609 --> 00:05:46.036 Mas se você quiser por seu risco digitar. 00:05:46.036 --> 00:05:48.614 Lembre-se também da facilidade do R, 00:05:48.614 --> 00:05:50.825 que aparece que tem uma variável com esse nome. 00:05:50.825 --> 00:05:52.785 Ah, é essa mesmo que eu quero. 00:05:52.785 --> 00:05:54.186 Eu vou apertar o Enter. 00:05:54.186 --> 00:05:57.156 O que acabamos de descobrir aqui então? 00:05:57.156 --> 00:06:00.852 Anteriormente, descobrimos que a média desses oito números 00:06:00.852 --> 00:06:04.062 era 162.5, 00:06:04.062 --> 00:06:07.651 e a mediana para esses oito números é 165. 00:06:08.801 --> 00:06:10.671 Alcançamos o nosso segundo objetivo. 00:06:10.671 --> 00:06:14.940 O nosso terceiro e último objetivo para agora é calcular o desvio-padrão 00:06:14.940 --> 00:06:18.198 nesse intervalo desses oito números das vendas. 00:06:18.198 --> 00:06:19.336 Vamos verificar? 00:06:19.336 --> 00:06:21.046 Vem comigo na minha tela aqui. 00:06:21.046 --> 00:06:25.172 Então, como anteriormente, eu deixei aqui um script pré-pronto. 00:06:25.172 --> 00:06:28.799 Eu recomendo novamente a vocês pausarem esse vídeo depois 00:06:28.799 --> 00:06:30.625 e olharem esses comentários, tá? 00:06:30.625 --> 00:06:33.325 Vamos relembrar o que é o desvio-padrão. 00:06:33.325 --> 00:06:37.863 Ele indica a medida de dispersão de um conjunto de dados 00:06:37.863 --> 00:06:40.432 em relação à sua média aritmética. 00:06:40.432 --> 00:06:43.035 "Então, Rafa, como assim um conjunto de dados?". 00:06:43.035 --> 00:06:46.229 O conjunto de dados é esse que temos das vendas, os oito meses, 00:06:46.229 --> 00:06:48.605 em relação à sua média métrica. 00:06:48.605 --> 00:06:54.418 Ele vai analisar e fazer um vínculo entre a média aritmética 00:06:54.418 --> 00:06:57.816 e esse conjunto de dados, que são esses oito valores. 00:06:57.816 --> 00:06:58.898 Como faz isso? 00:06:58.898 --> 00:07:00.012 De novo, é simples. 00:07:00.012 --> 00:07:00.816 Vamos lá? 00:07:00.816 --> 00:07:04.423 Eu deixei o script aqui, o resultado está aqui, mas vamos fazer juntos. 00:07:04.423 --> 00:07:07.896 É legal programarmos junto com vocês aqui, olhe: 00:07:07.896 --> 00:07:14.319 desavio underline padrão underline vendas. 00:07:14.319 --> 00:07:15.233 "O que é isso, Rafa?" 00:07:15.233 --> 00:07:17.869 Eu preciso criar uma variável, como anteriormente, 00:07:17.869 --> 00:07:21.540 que armazene o valor do desvio-padrão desse conjunto de dados. 00:07:21.540 --> 00:07:23.203 Essa daqui é a variável. 00:07:23.203 --> 00:07:25.627 Você pode colocar outro nome. 00:07:25.627 --> 00:07:28.807 Geralmente deixamos o nome para facilitar a compreensão 00:07:28.807 --> 00:07:30.478 do que ela está armazenando. 00:07:30.478 --> 00:07:35.029 "E, Rafa, como é a instrução que calcula o desvio-padrão?" 00:07:35.029 --> 00:07:39.659 Para calcular o desvio-padrão, a instrução é "sd", abro parênteses... 00:07:39.659 --> 00:07:43.328 Onde está armazenado o conjunto de dados? 00:07:43.328 --> 00:07:46.732 O conjunto de dados está armazenado dentro de vendas. 00:07:46.732 --> 00:07:50.802 Então eu coloco aqui o nome do meu conjunto de dados. 00:07:50.802 --> 00:07:52.304 E agora precisamos visualizar. 00:07:52.304 --> 00:07:55.240 Vamos ver qual é o valor do desvio-padrão? 00:07:55.240 --> 00:08:00.579 Você pode copiar ou colar, ou você digita o começo da variável, e o R fala: 00:08:00.579 --> 00:08:02.922 "Eu acho que é essa". 00:08:02.922 --> 00:08:04.282 Aperto o Enter. 00:08:04.282 --> 00:08:07.719 Então o valor do meu desvio-padrão para esse conjunto de dados, 00:08:07.719 --> 00:08:13.280 esses oito meses das vendas, é 28.15772. 00:08:13.280 --> 00:08:16.349 Ótimo, conseguimos alcançar nosso objetivo. 00:08:16.349 --> 00:08:21.900 Com a linguagem R, aprendemos a calcular a média, mediana e o desvio-padrão. 00:08:21.900 --> 00:08:24.174 E agora fica aquele desafio de sempre, né? 00:08:24.174 --> 00:08:26.304 Busque um conjunto de valores de dados, 00:08:26.304 --> 00:08:30.175 seja da sua vida financeira ou alguma outra informação que você tenha, 00:08:30.175 --> 00:08:33.442 e também coloque em prática a média, mediana e desvio-padrão.