WEBVTT 00:00:08.055 --> 00:00:12.879 Agora nós iremos falar sobre intervalo de confiança e teste de hipóteses. 00:00:12.879 --> 00:00:15.691 Para entender isso na prática com a linguagem R, 00:00:15.691 --> 00:00:18.651 se vocês verificarem no documento que está disponível para vocês 00:00:18.651 --> 00:00:21.955 sobre essa explicação, trouxemos um case real. 00:00:21.955 --> 00:00:25.191 Imagine que nós estamos trabalhando em uma fábrica de software 00:00:25.191 --> 00:00:29.667 e você se depara com a situação de precisar melhorar a performance 00:00:29.667 --> 00:00:31.731 dessa equipe de programadores. 00:00:31.731 --> 00:00:36.469 Então, foi analisada essa possibilidade de implementar uma melhoria, 00:00:36.469 --> 00:00:40.874 foi descoberta uma ferramenta para ajudar, e aí precisamos medir 00:00:40.874 --> 00:00:45.011 como estava a performance antes da implementação dessa ferramenta 00:00:45.011 --> 00:00:48.212 e após a implementação dessa ferramenta. 00:00:48.212 --> 00:00:53.887 Para verificar se após a implementação da ferramenta ficou igual a performance, 00:00:53.887 --> 00:00:58.525 se ficou pior, ou se alcançou o objetivo, que era melhorar a performance, 00:00:58.525 --> 00:01:02.161 nós precisamos analisar esses dados, o antes e o depois. 00:01:02.161 --> 00:01:03.698 E é essa a nossa proposta agora. 00:01:03.698 --> 00:01:05.015 Vamos lá? 00:01:05.015 --> 00:01:08.234 Aqui eu trago para vocês um resumo. 00:01:08.234 --> 00:01:13.773 Como é uma hashtag que está aqui marcada, não é considerada na execução do código, tá? 00:01:13.773 --> 00:01:17.510 Então, caso você queira relembrar ou queira ter um resumo aí na sua mão, 00:01:17.510 --> 00:01:21.814 porque às vezes é um material um pouquinho extenso, eu deixo aqui para vocês, tá bom? 00:01:21.814 --> 00:01:26.452 E agora vamos precisar criar a nossa situação, o cenário antes e depois. 00:01:26.452 --> 00:01:30.723 Então nós temos aqui duas linhas que nós vamos executar. 00:01:30.723 --> 00:01:32.358 O que seria isso? 00:01:32.358 --> 00:01:35.161 Eu vou copiar... Vamos fazer juntos aqui, tá? 00:01:35.161 --> 00:01:36.162 Como funciona? 00:01:36.162 --> 00:01:40.099 Deixe-me só tirar aqui esse sinalzinho que nós copiamos ali. 00:01:40.099 --> 00:01:41.567 Aqui é um comentário. 00:01:41.567 --> 00:01:45.338 "Dados simulados, linhas de código por hora 00:01:45.338 --> 00:01:49.409 antes e depois da introdução dessa ferramenta", para melhorar a performance. 00:01:49.409 --> 00:01:53.212 E aí, para facilitar para vocês, vamos deixar alinhados aqui: 00:01:53.212 --> 00:01:57.550 Hora um, hora dois, hora três, hora quatro, hora cinco, 00:01:57.550 --> 00:02:00.520 hora seis, hora sete, e hora oito. 00:02:00.520 --> 00:02:04.379 Se você olhar o depois aqui, você já consegue ter essa certeza, né, 00:02:04.379 --> 00:02:06.225 que a performance está sendo melhor. 00:02:06.225 --> 00:02:11.064 Mas você não deve pensar que sempre vai ser um cenário pequeno como esse, 00:02:11.064 --> 00:02:14.967 num intervalo que você consiga analisar apenas olhando para a tela. 00:02:14.967 --> 00:02:18.571 Pode ser uma base com uma análise de 300 horas. 00:02:18.571 --> 00:02:21.519 Então você precisa sim de uma linguagem como o R 00:02:21.519 --> 00:02:24.281 para fazer essa análise por você, tá? 00:02:24.281 --> 00:02:27.647 Nós já temos essa certeza, mas vamos pedir para o R fazer essa análise? 00:02:27.647 --> 00:02:30.149 Então primeiro nós vamos criar essas variáveis. 00:02:30.149 --> 00:02:32.644 Vamos imprimir só para visualizar, como sempre. 00:02:32.644 --> 00:02:38.691 Temos que ter uma garantia que os dados foram armazenados. 00:02:38.691 --> 00:02:41.608 "print(linhas_depois)". 00:02:41.608 --> 00:02:45.156 Não erre, não pode digitar o nome errado, senão ele não vai conseguir achar. 00:02:45.156 --> 00:02:47.466 Eu vou apertar alguns Enters aqui para facilitar 00:02:47.466 --> 00:02:50.336 para ir para o meio da tela para visualizarmos. 00:02:50.336 --> 00:02:54.707 Então, legal, criamos a performance das horas antes e depois. 00:02:54.707 --> 00:02:58.644 Agora nós precisamos fazer essa comparação. 00:02:58.644 --> 00:03:01.472 Será que realmente performou mais? 00:03:01.472 --> 00:03:06.052 Aqui, novamente, eu deixo um script para vocês alguns comentários. 00:03:06.052 --> 00:03:08.625 Agora nós vamos fazer esse teste de hipóteses 00:03:08.625 --> 00:03:11.324 para verificar se a performance aumentou, tá? 00:03:11.324 --> 00:03:14.694 E aqui, o que eu vou interpretar com vocês, 00:03:14.694 --> 00:03:17.964 eu deixei anotado aqui como comentário, um resumo, tá? 00:03:17.964 --> 00:03:21.500 "Então, qual a instrução, Rafa, que vai ser executada agora?". 00:03:21.500 --> 00:03:23.069 Olha quanto comentário. 00:03:23.069 --> 00:03:26.939 É para poder entender a saída da execução. 00:03:26.939 --> 00:03:29.831 "Como fica essa instrução, Rafa?" 00:03:29.831 --> 00:03:32.494 Vamos apertar mais uns Enters aqui. 00:03:32.494 --> 00:03:36.549 Agora aqui nós vamos pedir para comparar o antes e o depois. 00:03:36.549 --> 00:03:38.417 Como iremos fazer isso? 00:03:38.417 --> 00:03:41.887 Temos uma variável aqui chamada "resultado_test". 00:03:41.887 --> 00:03:45.096 Você pode colocar o nome que você quiser, como sempre. 00:03:45.096 --> 00:03:50.682 Aqui nós temos uma primeira instrução, que vocês tem que aprender agora: "t.teste". 00:03:50.682 --> 00:03:54.366 Teste com "t" mudo porque é uma instrução em inglês do R. 00:03:54.366 --> 00:03:56.953 Se vocês buscarem aqui, eu deixei anotado aqui 00:03:56.953 --> 00:04:01.240 para vocês poderem estudar depois ou fazer uma anotação, tá? 00:04:01.240 --> 00:04:03.709 O que que é o ponto teste? 00:04:03.709 --> 00:04:06.679 Ele é usado para comparar o antes e o depois. 00:04:06.679 --> 00:04:10.649 É ele que vai fazer as análises dos dados de antes e o depois. 00:04:10.749 --> 00:04:15.287 Ora, a hora aqui que nós temos temos que fornecer 00:04:15.354 --> 00:04:19.091 qual que é o intervalo de valores para que ele chama a linha antes? 00:04:19.158 --> 00:04:22.828 Qual que é o outro intervalo de valores e o linha depois? 00:04:22.928 --> 00:04:26.732 E aqui novamente nós temos que fazer uma outra instrução para ele, 00:04:26.799 --> 00:04:30.569 que aqui nessa instrução nós vamos dizer assim ó, os dados, 00:04:30.569 --> 00:04:34.540 eles tem relação sim, é um dado que está relacionado diretamente. 00:04:34.607 --> 00:04:37.009 Eu tenho a informação hora a hora. 00:04:37.009 --> 00:04:39.578 Eu só não sei se realmente aumentou essa performance. 00:04:39.578 --> 00:04:43.582 Olhando nós sabemos, mas supondo que não sabemos ainda. 00:04:43.682 --> 00:04:45.084 E aí você coloca true 00:04:45.084 --> 00:04:49.154 ou false, você coloca true quando está relacionado diretamente. 00:04:49.221 --> 00:04:51.757 Às vezes você pode estar querendo comparar coisas 00:04:51.757 --> 00:04:53.926 que elas não estão relacionadas diretamente. 00:04:53.926 --> 00:04:59.465 Aí você colocaria o false, mas não no nosso caso aqui vou apertar enter. 00:04:59.531 --> 00:05:02.034 Aí você fala Poxa, mas e agora? 00:05:02.034 --> 00:05:03.669 Cadê o resultado? 00:05:03.669 --> 00:05:06.672 Tudo o que nós iremos analisar agora tá, 00:05:06.772 --> 00:05:11.143 tá aqui agora você fala Rafa, Então vamos imprimir sim, vamos imprimir. 00:05:11.210 --> 00:05:12.645 Como que a gente faz aqui? 00:05:12.645 --> 00:05:19.451 Primeiro você já sabe o valor dessa comparação foi armazenado aqui dentro print. 00:05:19.518 --> 00:05:20.686 Resultado 00:05:20.686 --> 00:05:23.689 aquela velha história cuidado para digitar correta 00:05:23.822 --> 00:05:28.093 o nome da variável e aí nós temos o resultado aqui. 00:05:28.160 --> 00:05:32.464 Poxa Rafa, parte do resultado está escrito em inglês 00:05:32.531 --> 00:05:35.367 e tem alguns números da estatística. Isso. 00:05:35.367 --> 00:05:38.270 Agora nós vamos comparar o que eu vou explicar para vocês. 00:05:38.270 --> 00:05:40.839 Eu vou subir um pouquinho novamente até conseguir 00:05:40.839 --> 00:05:42.941 às vezes dar uma pausa, fazer a formatação. 00:05:42.941 --> 00:05:46.779 Nesse momento, eu acho bem rica essa parte dessas anotações, desses comentários. 00:05:46.779 --> 00:05:51.216 É como sempre programar deixar o código comentado para você 00:05:51.216 --> 00:05:56.522 entender o que precisamos focar nesse retorno dessa análise, 00:05:56.588 --> 00:06:00.759 o quanto foi o valor retornado nesse value-p, 00:06:00.859 --> 00:06:04.363 o que seria esse valor-p e Rafa tem aqui para vocês. 00:06:04.430 --> 00:06:08.400 Se o valor desse P vale, o que é esse valor do resultado final? 00:06:08.500 --> 00:06:09.568 For menor? 00:06:09.568 --> 00:06:10.836 Eu deixei aqui anotado. 00:06:10.836 --> 00:06:15.607 Menor que 0,05 menor que 0,05. 00:06:15.607 --> 00:06:18.777 Sim, esse é um valor menor que 0,05. 00:06:18.777 --> 00:06:22.080 Ele está mais distante aqui do ponto da causa. 00:06:22.147 --> 00:06:25.150 Quanto mais à direita ele está, mais distante, então ele é menor. 00:06:25.217 --> 00:06:26.752 Significa o quê? 00:06:26.752 --> 00:06:32.424 Que há realmente uma diferença significativa entre o antes e o depois? 00:06:32.524 --> 00:06:34.493 Ai então o Rafa, como ele é 00:06:34.493 --> 00:06:38.997 menor que 0,05, que é o que aconteceu aqui, 00:06:39.097 --> 00:06:42.834 quer dizer realmente que há uma diferença significativa 00:06:42.935 --> 00:06:46.271 entre a performance do antes e o depois? Sim, 00:06:46.338 --> 00:06:49.675 então faz sentido a nossa análise que nós fizemos sem rodar o código. 00:06:49.775 --> 00:06:53.245 Então ele refletiu o resultado esperado pra nós. 00:06:53.378 --> 00:06:54.413 Tudo bem. 00:06:54.413 --> 00:06:58.550 E aí agora a gente conseguiu interpretar nesse momento o que você deve se preocupar 00:06:58.550 --> 00:07:04.356 é esse resultado para ver esse retorno, se há realmente essa diferença teoria. 00:07:04.356 --> 00:07:05.157 Entendeu? 00:07:05.157 --> 00:07:08.393 Agora nós vamos para uma última parte. 00:07:08.493 --> 00:07:13.031 Agora nós iremos para a última parte, que é verificar não somente 00:07:13.098 --> 00:07:17.936 se teve realmente significância entre a performance do antes e o depois. 00:07:17.936 --> 00:07:19.504 Isso nós já confirmamos. 00:07:19.504 --> 00:07:23.675 Agora nós vamos ver a assertividade o quanto isso está mais assertivo. 00:07:23.742 --> 00:07:25.644 Esse retorno que nos deu. 00:07:25.644 --> 00:07:30.248 Eu lembro a vocês que agora nós fizemos com uma base bem pequena de dados, 00:07:30.315 --> 00:07:35.587 fizemos ali só em 08h00 de análise, hora a hora, então oito dados antes e depois. 00:07:35.654 --> 00:07:37.189 Mas vocês tem sempre que lembrar 00:07:37.189 --> 00:07:40.192 quando estamos falando aqui da ciência do dado, dos dados, 00:07:40.358 --> 00:07:44.229 pode ser algo muito maior uma análise de 300 horas, 00:07:44.296 --> 00:07:47.666 300 dados antes e 300 depois. 00:07:47.766 --> 00:07:52.237 Então não tem como você fazer uma análise observando apenas os valores. 00:07:52.237 --> 00:07:54.272 Você tem que pedir para uma ferramenta 00:07:54.272 --> 00:07:57.275 ou uma linguagem como R para fazer isso por você. 00:07:57.375 --> 00:08:00.512 Vamos ver o quanto realmente está fazendo sentido ou A 00:08:00.579 --> 00:08:04.049 com o nível de confiança desse retorno do que foi processado. 00:08:04.149 --> 00:08:06.718 Vem comigo aqui, nós vamos para a última parte. 00:08:06.718 --> 00:08:07.252 Como sempre, 00:08:07.252 --> 00:08:11.957 eu deixo aqui para vocês um breve resumo para que vocês depois consigo. 00:08:12.157 --> 00:08:15.160 Até recomendo na sequência pausar ou voltar o vídeo 00:08:15.193 --> 00:08:19.631 para verificar essas observações que eu deixei para vocês. 00:08:19.698 --> 00:08:22.133 Aqui nós vamos fazer duas instruções. 00:08:22.133 --> 00:08:24.603 Nós temos aqui essa primeira que nós vamos pedir para ele 00:08:24.603 --> 00:08:27.606 calcular e depois para mostrar. 00:08:27.672 --> 00:08:31.176 Vamos lá, deixa eu copiar aqui para baixo ou apertar mais alguns 00:08:31.209 --> 00:08:34.646 entre os aqui para ficar bem dividido a tela para não confundir vocês. 00:08:34.746 --> 00:08:37.716 Até mesmo aqui eu falo aqui essa área que a gente programa, 00:08:37.716 --> 00:08:41.219 a gente tem que ter um pouco limpa para facilitar a interpretação. 00:08:41.319 --> 00:08:42.821 Agora vou colar aqui para vocês. 00:08:42.821 --> 00:08:46.458 Deixa eu apagar, eu não vou executar sem antes explicar. 00:08:46.558 --> 00:08:47.859 Então o que nós vamos fazer? 00:08:47.859 --> 00:08:51.496 Como sempre, criar uma variável para receber 00:08:51.496 --> 00:08:54.299 ou armazenar o valor dessa execução. 00:08:54.299 --> 00:08:56.701 E aqui nós temos o que o resultado? 00:08:56.701 --> 00:08:57.569 Underline teste. 00:08:57.569 --> 00:08:59.137 Que variável é essa? 00:08:59.137 --> 00:09:04.242 Rafa, eu vou voltar um pouquinho o resultado do teste 00:09:04.309 --> 00:09:05.877 e quando nós pedimos para ele fazer 00:09:05.877 --> 00:09:10.148 a comparação, lembra do antes e o depois que saiu esse resultado? 00:09:10.248 --> 00:09:13.918 Ah, legal Rafa, Lembre aí você fala Rafa, mais uma instrução 00:09:13.918 --> 00:09:17.689 você vai nos ensinar agora sim, essa daqui também conhecido como 00:09:17.689 --> 00:09:22.360 cifrão ou dólar, como vocês queiram falar aí na hora da programação. 00:09:22.460 --> 00:09:24.229 Conf ponto int. 00:09:24.229 --> 00:09:26.731 Rafa, esse daí eu ainda não vi com você. 00:09:26.731 --> 00:09:27.365 Tudo bem? 00:09:27.365 --> 00:09:28.933 Vamos dar uma olhadinha aqui. 00:09:28.933 --> 00:09:32.871 Como sempre, eu deixo anotado para vocês essas observações 00:09:33.037 --> 00:09:37.442 para facilitar depois na hora da interpretação. 00:09:37.509 --> 00:09:39.611 Não dei mancada novamente. Está aqui. 00:09:39.611 --> 00:09:43.548 Então é aquele momento que se eu fosse você dava uma pausa no vídeo 00:09:43.648 --> 00:09:47.952 para deixar anotado no seu caderno que é o cofre Ponto int. 00:09:48.019 --> 00:09:53.825 Ele é usado que para acessar o intervalo de confiança da nossa análise 00:09:53.892 --> 00:09:57.228 de novo, nós vamos querer que ele pegue aqui 00:09:57.295 --> 00:10:01.466 esse resultado que foi projetado anteriormente 00:10:01.566 --> 00:10:05.970 e agora nós vamos projetar uma outra execução sobre ele. 00:10:06.037 --> 00:10:09.841 Olha aqui e ele vai gerar uma análise estatística, 00:10:09.841 --> 00:10:13.778 que é o que a nossa análise descritiva legal. 00:10:13.978 --> 00:10:19.150 Então eu vou pedir para ele fazer essa análise, armazenar o valor aqui 00:10:19.217 --> 00:10:22.487 e aí depois, como sempre, nós iremos visualizar ele. 00:10:22.554 --> 00:10:26.357 Mas você fala Rafa, essa visualização não está simples não. 00:10:26.457 --> 00:10:31.162 Vou trazer mais uma coisa aqui pra nossa conversa, para nossa aula de agora 00:10:31.262 --> 00:10:36.768 é só o texto Intervalo de confiança para a diferença média 00:10:36.868 --> 00:10:40.171 é que nós trouxemos aqui o intervalo 00:10:40.171 --> 00:10:43.541 onde ele confia carro ou confiança. 00:10:43.541 --> 00:10:46.911 Um A confiança dois Vou apertar o enter, 00:10:47.011 --> 00:10:49.781 deixa eu mostrar o resultado e vocês vão entender. 00:10:49.781 --> 00:10:54.519 Então nós temos aqui isso é um texto que sai, um texto simples saiu aqui. 00:10:54.585 --> 00:11:00.391 Esse é um intervalo de confiança de quanto a quanto isso é aderência de confiança. 00:11:00.591 --> 00:11:02.293 Esse é um modelo confiável. 00:11:02.293 --> 00:11:07.131 Ele vai de -23,56. 00:11:07.231 --> 00:11:12.203 Aqui é da onde ele parte, até aonde ele vai, até aonde ele vai. 00:11:12.203 --> 00:11:17.608 E dois Percebam que vocês criaram a variável com nome intervalo, confiança, 00:11:17.709 --> 00:11:20.378 da onde ele inicia você coloca um 00:11:20.378 --> 00:11:23.815 e dá onde ele termina, até onde ele vai e o dois. 00:11:23.815 --> 00:11:27.185 E esse é o intervalo de confiança desse modelo de análise 00:11:27.251 --> 00:11:30.021 que nós acabamos de processar. 00:11:30.021 --> 00:11:31.456 O que eu espero com isso? 00:11:31.456 --> 00:11:34.292 Eu espero que agora vocês tenham entendido como que é isso, 00:11:34.292 --> 00:11:38.096 e vamos dizer, real não, mas com certeza isso existe. 00:11:38.196 --> 00:11:41.599 Quando você trabalha uma empresa, por exemplo, uma fábrica de software, 00:11:41.699 --> 00:11:45.436 as vezes a performance da equipe não está muito boa no desenvolvimento 00:11:45.503 --> 00:11:48.873 e aí alguém vai fazer uma análise, implementa uma melhoria 00:11:48.940 --> 00:11:52.910 e depois eles querem medir para saber se após a implementação da melhoria 00:11:53.010 --> 00:11:55.313 a performance da equipe aumentou. 00:11:55.313 --> 00:11:57.815 E aí, quem vai nos ajudar a fazer essa análise? 00:11:57.815 --> 00:12:00.384 A linguagem é com a parte de estatística e.