1 00:00:08,055 --> 00:00:12,879 Agora nós iremos falar sobre intervalo de confiança e teste de hipóteses. 2 00:00:12,879 --> 00:00:15,691 Para entender isso na prática com a linguagem R, 3 00:00:15,691 --> 00:00:18,651 se vocês verificarem no documento que está disponível para vocês 4 00:00:18,651 --> 00:00:21,955 sobre essa explicação, trouxemos um case real. 5 00:00:21,955 --> 00:00:25,191 Imagine que nós estamos trabalhando em uma fábrica de software 6 00:00:25,191 --> 00:00:29,667 e você se depara com a situação de precisar melhorar a performance 7 00:00:29,667 --> 00:00:31,731 dessa equipe de programadores. 8 00:00:31,731 --> 00:00:36,469 Então, foi analisada essa possibilidade de implementar uma melhoria, 9 00:00:36,469 --> 00:00:40,874 foi descoberta uma ferramenta para ajudar, e aí precisamos medir 10 00:00:40,874 --> 00:00:45,011 como estava a performance antes da implementação dessa ferramenta 11 00:00:45,011 --> 00:00:48,212 e após a implementação dessa ferramenta. 12 00:00:48,212 --> 00:00:53,887 Para verificar se após a implementação da ferramenta ficou igual a performance, 13 00:00:53,887 --> 00:00:58,525 se ficou pior, ou se alcançou o objetivo, que era melhorar a performance, 14 00:00:58,525 --> 00:01:02,161 nós precisamos analisar esses dados, o antes e o depois. 15 00:01:02,161 --> 00:01:03,698 E é essa a nossa proposta agora. 16 00:01:03,698 --> 00:01:05,015 Vamos lá? 17 00:01:05,015 --> 00:01:08,234 Aqui eu trago para vocês um resumo. 18 00:01:08,234 --> 00:01:13,773 Como é uma hashtag que está aqui marcada, não é considerada na execução do código, tá? 19 00:01:13,773 --> 00:01:17,510 Então, caso você queira relembrar ou queira ter um resumo aí na sua mão, 20 00:01:17,510 --> 00:01:21,814 porque às vezes é um material um pouquinho extenso, eu deixo aqui para vocês, tá bom? 21 00:01:21,814 --> 00:01:26,452 E agora vamos precisar criar a nossa situação, o cenário antes e depois. 22 00:01:26,452 --> 00:01:30,723 Então nós temos aqui duas linhas que nós vamos executar. 23 00:01:30,723 --> 00:01:32,358 O que seria isso? 24 00:01:32,358 --> 00:01:35,161 Eu vou copiar... Vamos fazer juntos aqui, tá? 25 00:01:35,161 --> 00:01:36,162 Como funciona? 26 00:01:36,162 --> 00:01:40,099 Deixe-me só tirar aqui esse sinalzinho que nós copiamos ali. 27 00:01:40,099 --> 00:01:41,567 Aqui é um comentário. 28 00:01:41,567 --> 00:01:45,338 "Dados simulados, linhas de código por hora 29 00:01:45,338 --> 00:01:49,409 antes e depois da introdução dessa ferramenta", para melhorar a performance. 30 00:01:49,409 --> 00:01:53,212 E aí, para facilitar para vocês, vamos deixar alinhados aqui: 31 00:01:53,212 --> 00:01:57,550 Hora um, hora dois, hora três, hora quatro, hora cinco, 32 00:01:57,550 --> 00:02:00,520 hora seis, hora sete, e hora oito. 33 00:02:00,520 --> 00:02:04,379 Se você olhar o depois aqui, você já consegue ter essa certeza, né, 34 00:02:04,379 --> 00:02:06,225 que a performance está sendo melhor. 35 00:02:06,225 --> 00:02:11,064 Mas você não deve pensar que sempre vai ser um cenário pequeno como esse, 36 00:02:11,064 --> 00:02:14,967 num intervalo que você consiga analisar apenas olhando para a tela. 37 00:02:14,967 --> 00:02:18,571 Pode ser uma base com uma análise de 300 horas. 38 00:02:18,571 --> 00:02:21,519 Então você precisa sim de uma linguagem como o R 39 00:02:21,519 --> 00:02:24,281 para fazer essa análise por você, tá? 40 00:02:24,281 --> 00:02:27,647 Nós já temos essa certeza, mas vamos pedir para o R fazer essa análise? 41 00:02:27,647 --> 00:02:30,149 Então primeiro nós vamos criar essas variáveis. 42 00:02:30,149 --> 00:02:32,644 Vamos imprimir só para visualizar, como sempre. 43 00:02:32,644 --> 00:02:38,691 Temos que ter uma garantia que os dados foram armazenados. 44 00:02:38,691 --> 00:02:41,608 "print(linhas_depois)". 45 00:02:41,608 --> 00:02:45,156 Não erre, não pode digitar o nome errado, senão ele não vai conseguir achar. 46 00:02:45,156 --> 00:02:47,466 Eu vou apertar alguns Enters aqui para facilitar 47 00:02:47,466 --> 00:02:50,336 para ir para o meio da tela para visualizarmos. 48 00:02:50,336 --> 00:02:54,707 Então, legal, criamos a performance das horas antes e depois. 49 00:02:54,707 --> 00:02:58,644 Agora nós precisamos fazer essa comparação. 50 00:02:58,644 --> 00:03:01,472 Será que realmente performou mais? 51 00:03:01,472 --> 00:03:06,052 Aqui, novamente, eu deixo um script para vocês alguns comentários. 52 00:03:06,052 --> 00:03:08,625 Agora nós vamos fazer esse teste de hipóteses 53 00:03:08,625 --> 00:03:11,324 para verificar se a performance aumentou, tá? 54 00:03:11,324 --> 00:03:14,694 E aqui, o que eu vou interpretar com vocês, 55 00:03:14,694 --> 00:03:17,964 eu deixei anotado aqui como comentário, um resumo, tá? 56 00:03:17,964 --> 00:03:21,500 "Então, qual a instrução, Rafa, que vai ser executada agora?". 57 00:03:21,500 --> 00:03:23,069 Olha quanto comentário. 58 00:03:23,069 --> 00:03:26,939 É para poder entender a saída da execução. 59 00:03:26,939 --> 00:03:29,831 "Como fica essa instrução, Rafa?" 60 00:03:29,831 --> 00:03:32,494 Vamos apertar mais uns Enters aqui. 61 00:03:32,494 --> 00:03:36,549 Agora aqui nós vamos pedir para comparar o antes e o depois. 62 00:03:36,549 --> 00:03:38,417 Como iremos fazer isso? 63 00:03:38,417 --> 00:03:41,887 Temos uma variável aqui chamada "resultado_test". 64 00:03:41,887 --> 00:03:45,096 Você pode colocar o nome que você quiser, como sempre. 65 00:03:45,096 --> 00:03:50,682 Aqui nós temos uma primeira instrução, que vocês tem que aprender agora: "t.teste". 66 00:03:50,682 --> 00:03:54,366 Teste com "t" mudo porque é uma instrução em inglês do R. 67 00:03:54,366 --> 00:03:56,953 Se vocês buscarem aqui, eu deixei anotado aqui 68 00:03:56,953 --> 00:04:01,240 para vocês poderem estudar depois ou fazer uma anotação, tá? 69 00:04:01,240 --> 00:04:03,709 O que que é o ponto teste? 70 00:04:03,709 --> 00:04:06,679 Ele é usado para comparar o antes e o depois. 71 00:04:06,679 --> 00:04:10,649 É ele que vai fazer as análises dos dados de antes e o depois. 72 00:04:10,749 --> 00:04:15,287 Ora, a hora aqui que nós temos temos que fornecer 73 00:04:15,354 --> 00:04:19,091 qual que é o intervalo de valores para que ele chama a linha antes? 74 00:04:19,158 --> 00:04:22,828 Qual que é o outro intervalo de valores e o linha depois? 75 00:04:22,928 --> 00:04:26,732 E aqui novamente nós temos que fazer uma outra instrução para ele, 76 00:04:26,799 --> 00:04:30,569 que aqui nessa instrução nós vamos dizer assim ó, os dados, 77 00:04:30,569 --> 00:04:34,540 eles tem relação sim, é um dado que está relacionado diretamente. 78 00:04:34,607 --> 00:04:37,009 Eu tenho a informação hora a hora. 79 00:04:37,009 --> 00:04:39,578 Eu só não sei se realmente aumentou essa performance. 80 00:04:39,578 --> 00:04:43,582 Olhando nós sabemos, mas supondo que não sabemos ainda. 81 00:04:43,682 --> 00:04:45,084 E aí você coloca true 82 00:04:45,084 --> 00:04:49,154 ou false, você coloca true quando está relacionado diretamente. 83 00:04:49,221 --> 00:04:51,757 Às vezes você pode estar querendo comparar coisas 84 00:04:51,757 --> 00:04:53,926 que elas não estão relacionadas diretamente. 85 00:04:53,926 --> 00:04:59,465 Aí você colocaria o false, mas não no nosso caso aqui vou apertar enter. 86 00:04:59,531 --> 00:05:02,034 Aí você fala Poxa, mas e agora? 87 00:05:02,034 --> 00:05:03,669 Cadê o resultado? 88 00:05:03,669 --> 00:05:06,672 Tudo o que nós iremos analisar agora tá, 89 00:05:06,772 --> 00:05:11,143 tá aqui agora você fala Rafa, Então vamos imprimir sim, vamos imprimir. 90 00:05:11,210 --> 00:05:12,645 Como que a gente faz aqui? 91 00:05:12,645 --> 00:05:19,451 Primeiro você já sabe o valor dessa comparação foi armazenado aqui dentro print. 92 00:05:19,518 --> 00:05:20,686 Resultado 93 00:05:20,686 --> 00:05:23,689 aquela velha história cuidado para digitar correta 94 00:05:23,822 --> 00:05:28,093 o nome da variável e aí nós temos o resultado aqui. 95 00:05:28,160 --> 00:05:32,464 Poxa Rafa, parte do resultado está escrito em inglês 96 00:05:32,531 --> 00:05:35,367 e tem alguns números da estatística. Isso. 97 00:05:35,367 --> 00:05:38,270 Agora nós vamos comparar o que eu vou explicar para vocês. 98 00:05:38,270 --> 00:05:40,839 Eu vou subir um pouquinho novamente até conseguir 99 00:05:40,839 --> 00:05:42,941 às vezes dar uma pausa, fazer a formatação. 100 00:05:42,941 --> 00:05:46,779 Nesse momento, eu acho bem rica essa parte dessas anotações, desses comentários. 101 00:05:46,779 --> 00:05:51,216 É como sempre programar deixar o código comentado para você 102 00:05:51,216 --> 00:05:56,522 entender o que precisamos focar nesse retorno dessa análise, 103 00:05:56,588 --> 00:06:00,759 o quanto foi o valor retornado nesse value-p, 104 00:06:00,859 --> 00:06:04,363 o que seria esse valor-p e Rafa tem aqui para vocês. 105 00:06:04,430 --> 00:06:08,400 Se o valor desse P vale, o que é esse valor do resultado final? 106 00:06:08,500 --> 00:06:09,568 For menor? 107 00:06:09,568 --> 00:06:10,836 Eu deixei aqui anotado. 108 00:06:10,836 --> 00:06:15,607 Menor que 0,05 menor que 0,05. 109 00:06:15,607 --> 00:06:18,777 Sim, esse é um valor menor que 0,05. 110 00:06:18,777 --> 00:06:22,080 Ele está mais distante aqui do ponto da causa. 111 00:06:22,147 --> 00:06:25,150 Quanto mais à direita ele está, mais distante, então ele é menor. 112 00:06:25,217 --> 00:06:26,752 Significa o quê? 113 00:06:26,752 --> 00:06:32,424 Que há realmente uma diferença significativa entre o antes e o depois? 114 00:06:32,524 --> 00:06:34,493 Ai então o Rafa, como ele é 115 00:06:34,493 --> 00:06:38,997 menor que 0,05, que é o que aconteceu aqui, 116 00:06:39,097 --> 00:06:42,834 quer dizer realmente que há uma diferença significativa 117 00:06:42,935 --> 00:06:46,271 entre a performance do antes e o depois? Sim, 118 00:06:46,338 --> 00:06:49,675 então faz sentido a nossa análise que nós fizemos sem rodar o código. 119 00:06:49,775 --> 00:06:53,245 Então ele refletiu o resultado esperado pra nós. 120 00:06:53,378 --> 00:06:54,413 Tudo bem. 121 00:06:54,413 --> 00:06:58,550 E aí agora a gente conseguiu interpretar nesse momento o que você deve se preocupar 122 00:06:58,550 --> 00:07:04,356 é esse resultado para ver esse retorno, se há realmente essa diferença teoria. 123 00:07:04,356 --> 00:07:05,157 Entendeu? 124 00:07:05,157 --> 00:07:08,393 Agora nós vamos para uma última parte. 125 00:07:08,493 --> 00:07:13,031 Agora nós iremos para a última parte, que é verificar não somente 126 00:07:13,098 --> 00:07:17,936 se teve realmente significância entre a performance do antes e o depois. 127 00:07:17,936 --> 00:07:19,504 Isso nós já confirmamos. 128 00:07:19,504 --> 00:07:23,675 Agora nós vamos ver a assertividade o quanto isso está mais assertivo. 129 00:07:23,742 --> 00:07:25,644 Esse retorno que nos deu. 130 00:07:25,644 --> 00:07:30,248 Eu lembro a vocês que agora nós fizemos com uma base bem pequena de dados, 131 00:07:30,315 --> 00:07:35,587 fizemos ali só em 08h00 de análise, hora a hora, então oito dados antes e depois. 132 00:07:35,654 --> 00:07:37,189 Mas vocês tem sempre que lembrar 133 00:07:37,189 --> 00:07:40,192 quando estamos falando aqui da ciência do dado, dos dados, 134 00:07:40,358 --> 00:07:44,229 pode ser algo muito maior uma análise de 300 horas, 135 00:07:44,296 --> 00:07:47,666 300 dados antes e 300 depois. 136 00:07:47,766 --> 00:07:52,237 Então não tem como você fazer uma análise observando apenas os valores. 137 00:07:52,237 --> 00:07:54,272 Você tem que pedir para uma ferramenta 138 00:07:54,272 --> 00:07:57,275 ou uma linguagem como R para fazer isso por você. 139 00:07:57,375 --> 00:08:00,512 Vamos ver o quanto realmente está fazendo sentido ou A 140 00:08:00,579 --> 00:08:04,049 com o nível de confiança desse retorno do que foi processado. 141 00:08:04,149 --> 00:08:06,718 Vem comigo aqui, nós vamos para a última parte. 142 00:08:06,718 --> 00:08:07,252 Como sempre, 143 00:08:07,252 --> 00:08:11,957 eu deixo aqui para vocês um breve resumo para que vocês depois consigo. 144 00:08:12,157 --> 00:08:15,160 Até recomendo na sequência pausar ou voltar o vídeo 145 00:08:15,193 --> 00:08:19,631 para verificar essas observações que eu deixei para vocês. 146 00:08:19,698 --> 00:08:22,133 Aqui nós vamos fazer duas instruções. 147 00:08:22,133 --> 00:08:24,603 Nós temos aqui essa primeira que nós vamos pedir para ele 148 00:08:24,603 --> 00:08:27,606 calcular e depois para mostrar. 149 00:08:27,672 --> 00:08:31,176 Vamos lá, deixa eu copiar aqui para baixo ou apertar mais alguns 150 00:08:31,209 --> 00:08:34,646 entre os aqui para ficar bem dividido a tela para não confundir vocês. 151 00:08:34,746 --> 00:08:37,716 Até mesmo aqui eu falo aqui essa área que a gente programa, 152 00:08:37,716 --> 00:08:41,219 a gente tem que ter um pouco limpa para facilitar a interpretação. 153 00:08:41,319 --> 00:08:42,821 Agora vou colar aqui para vocês. 154 00:08:42,821 --> 00:08:46,458 Deixa eu apagar, eu não vou executar sem antes explicar. 155 00:08:46,558 --> 00:08:47,859 Então o que nós vamos fazer? 156 00:08:47,859 --> 00:08:51,496 Como sempre, criar uma variável para receber 157 00:08:51,496 --> 00:08:54,299 ou armazenar o valor dessa execução. 158 00:08:54,299 --> 00:08:56,701 E aqui nós temos o que o resultado? 159 00:08:56,701 --> 00:08:57,569 Underline teste. 160 00:08:57,569 --> 00:08:59,137 Que variável é essa? 161 00:08:59,137 --> 00:09:04,242 Rafa, eu vou voltar um pouquinho o resultado do teste 162 00:09:04,309 --> 00:09:05,877 e quando nós pedimos para ele fazer 163 00:09:05,877 --> 00:09:10,148 a comparação, lembra do antes e o depois que saiu esse resultado? 164 00:09:10,248 --> 00:09:13,918 Ah, legal Rafa, Lembre aí você fala Rafa, mais uma instrução 165 00:09:13,918 --> 00:09:17,689 você vai nos ensinar agora sim, essa daqui também conhecido como 166 00:09:17,689 --> 00:09:22,360 cifrão ou dólar, como vocês queiram falar aí na hora da programação. 167 00:09:22,460 --> 00:09:24,229 Conf ponto int. 168 00:09:24,229 --> 00:09:26,731 Rafa, esse daí eu ainda não vi com você. 169 00:09:26,731 --> 00:09:27,365 Tudo bem? 170 00:09:27,365 --> 00:09:28,933 Vamos dar uma olhadinha aqui. 171 00:09:28,933 --> 00:09:32,871 Como sempre, eu deixo anotado para vocês essas observações 172 00:09:33,037 --> 00:09:37,442 para facilitar depois na hora da interpretação. 173 00:09:37,509 --> 00:09:39,611 Não dei mancada novamente. Está aqui. 174 00:09:39,611 --> 00:09:43,548 Então é aquele momento que se eu fosse você dava uma pausa no vídeo 175 00:09:43,648 --> 00:09:47,952 para deixar anotado no seu caderno que é o cofre Ponto int. 176 00:09:48,019 --> 00:09:53,825 Ele é usado que para acessar o intervalo de confiança da nossa análise 177 00:09:53,892 --> 00:09:57,228 de novo, nós vamos querer que ele pegue aqui 178 00:09:57,295 --> 00:10:01,466 esse resultado que foi projetado anteriormente 179 00:10:01,566 --> 00:10:05,970 e agora nós vamos projetar uma outra execução sobre ele. 180 00:10:06,037 --> 00:10:09,841 Olha aqui e ele vai gerar uma análise estatística, 181 00:10:09,841 --> 00:10:13,778 que é o que a nossa análise descritiva legal. 182 00:10:13,978 --> 00:10:19,150 Então eu vou pedir para ele fazer essa análise, armazenar o valor aqui 183 00:10:19,217 --> 00:10:22,487 e aí depois, como sempre, nós iremos visualizar ele. 184 00:10:22,554 --> 00:10:26,357 Mas você fala Rafa, essa visualização não está simples não. 185 00:10:26,457 --> 00:10:31,162 Vou trazer mais uma coisa aqui pra nossa conversa, para nossa aula de agora 186 00:10:31,262 --> 00:10:36,768 é só o texto Intervalo de confiança para a diferença média 187 00:10:36,868 --> 00:10:40,171 é que nós trouxemos aqui o intervalo 188 00:10:40,171 --> 00:10:43,541 onde ele confia carro ou confiança. 189 00:10:43,541 --> 00:10:46,911 Um A confiança dois Vou apertar o enter, 190 00:10:47,011 --> 00:10:49,781 deixa eu mostrar o resultado e vocês vão entender. 191 00:10:49,781 --> 00:10:54,519 Então nós temos aqui isso é um texto que sai, um texto simples saiu aqui. 192 00:10:54,585 --> 00:11:00,391 Esse é um intervalo de confiança de quanto a quanto isso é aderência de confiança. 193 00:11:00,591 --> 00:11:02,293 Esse é um modelo confiável. 194 00:11:02,293 --> 00:11:07,131 Ele vai de -23,56. 195 00:11:07,231 --> 00:11:12,203 Aqui é da onde ele parte, até aonde ele vai, até aonde ele vai. 196 00:11:12,203 --> 00:11:17,608 E dois Percebam que vocês criaram a variável com nome intervalo, confiança, 197 00:11:17,709 --> 00:11:20,378 da onde ele inicia você coloca um 198 00:11:20,378 --> 00:11:23,815 e dá onde ele termina, até onde ele vai e o dois. 199 00:11:23,815 --> 00:11:27,185 E esse é o intervalo de confiança desse modelo de análise 200 00:11:27,251 --> 00:11:30,021 que nós acabamos de processar. 201 00:11:30,021 --> 00:11:31,456 O que eu espero com isso? 202 00:11:31,456 --> 00:11:34,292 Eu espero que agora vocês tenham entendido como que é isso, 203 00:11:34,292 --> 00:11:38,096 e vamos dizer, real não, mas com certeza isso existe. 204 00:11:38,196 --> 00:11:41,599 Quando você trabalha uma empresa, por exemplo, uma fábrica de software, 205 00:11:41,699 --> 00:11:45,436 as vezes a performance da equipe não está muito boa no desenvolvimento 206 00:11:45,503 --> 00:11:48,873 e aí alguém vai fazer uma análise, implementa uma melhoria 207 00:11:48,940 --> 00:11:52,910 e depois eles querem medir para saber se após a implementação da melhoria 208 00:11:53,010 --> 00:11:55,313 a performance da equipe aumentou. 209 00:11:55,313 --> 00:11:57,815 E aí, quem vai nos ajudar a fazer essa análise? 210 00:11:57,815 --> 00:12:00,384 A linguagem é com a parte de estatística e.