0:00:08.055,0:00:12.879 Agora nós iremos falar sobre intervalo [br]de confiança e teste de hipóteses. 0:00:12.879,0:00:15.691 Para entender isso na prática [br]com a linguagem R, 0:00:15.691,0:00:18.651 se vocês verificarem no documento[br]que está disponível para vocês 0:00:18.651,0:00:21.955 sobre essa explicação,[br]trouxemos um case real. 0:00:21.955,0:00:25.191 Imagine que nós estamos trabalhando[br]em uma fábrica de software 0:00:25.191,0:00:29.667 e você se depara com a situação[br]de precisar melhorar a performance 0:00:29.667,0:00:31.731 dessa equipe de programadores. 0:00:31.731,0:00:36.469 Então, foi analisada essa possibilidade[br]de implementar uma melhoria, 0:00:36.469,0:00:40.874 foi descoberta uma ferramenta [br]para ajudar, e aí precisamos medir 0:00:40.874,0:00:45.011 como estava a performance antes [br]da implementação dessa ferramenta 0:00:45.011,0:00:48.212 e após a implementação dessa ferramenta. 0:00:48.212,0:00:53.887 Para verificar se após a implementação [br]da ferramenta ficou igual a performance, 0:00:53.887,0:00:58.525 se ficou pior, ou se alcançou o objetivo, [br]que era melhorar a performance, 0:00:58.525,0:01:02.161 nós precisamos analisar [br]esses dados, o antes e o depois. 0:01:02.161,0:01:03.698 E é essa a nossa proposta agora. 0:01:03.698,0:01:05.015 Vamos lá? 0:01:05.015,0:01:08.234 Aqui eu trago para vocês um resumo. 0:01:08.234,0:01:13.773 Como é uma hashtag que está aqui marcada,[br]não é considerada na execução do código, tá? 0:01:13.773,0:01:17.510 Então, caso você queira relembrar[br]ou queira ter um resumo aí na sua mão, 0:01:17.510,0:01:21.814 porque às vezes é um material um pouquinho[br]extenso, eu deixo aqui para vocês, tá bom? 0:01:21.814,0:01:26.452 E agora vamos precisar criar a nossa [br]situação, o cenário antes e depois. 0:01:26.452,0:01:30.723 Então nós temos aqui duas linhas[br]que nós vamos executar. 0:01:30.723,0:01:32.358 O que seria isso? 0:01:32.358,0:01:35.161 Eu vou copiar... Vamos fazer juntos aqui, tá? 0:01:35.161,0:01:36.162 Como funciona? 0:01:36.162,0:01:40.099 Deixe-me só tirar aqui esse[br]sinalzinho que nós copiamos ali. 0:01:40.099,0:01:41.567 Aqui é um comentário. 0:01:41.567,0:01:45.338 "Dados simulados,[br]linhas de código por hora 0:01:45.338,0:01:49.409 antes e depois da introdução dessa[br]ferramenta", para melhorar a performance. 0:01:49.409,0:01:53.212 E aí, para facilitar para vocês,[br]vamos deixar alinhados aqui: 0:01:53.212,0:01:57.550 Hora um, hora dois, hora três, [br]hora quatro, hora cinco, 0:01:57.550,0:02:00.520 hora seis, hora sete, e hora oito. 0:02:00.520,0:02:04.379 Se você olhar o depois aqui, você [br]já consegue ter essa certeza, né, 0:02:04.379,0:02:06.225 que a performance está sendo melhor. 0:02:06.225,0:02:11.064 Mas você não deve pensar que sempre[br]vai ser um cenário pequeno como esse, 0:02:11.064,0:02:14.967 num intervalo que você consiga [br]analisar apenas olhando para a tela. 0:02:14.967,0:02:18.571 Pode ser uma base[br]com uma análise de 300 horas. 0:02:18.571,0:02:21.519 Então você precisa sim [br]de uma linguagem como o R 0:02:21.519,0:02:24.281 para fazer essa análise por você, tá? 0:02:24.281,0:02:27.647 Nós já temos essa certeza, mas[br]vamos pedir para o R fazer essa análise? 0:02:27.647,0:02:30.149 Então primeiro nós vamos [br]criar essas variáveis. 0:02:30.149,0:02:32.644 Vamos imprimir só [br]para visualizar, como sempre. 0:02:32.644,0:02:38.691 Temos que ter uma garantia[br]que os dados foram armazenados. 0:02:38.691,0:02:41.608 "print(linhas_depois)". 0:02:41.608,0:02:45.156 Não erre, não pode digitar o nome errado,[br]senão ele não vai conseguir achar. 0:02:45.156,0:02:47.466 Eu vou apertar alguns [br]Enters aqui para facilitar 0:02:47.466,0:02:50.336 para ir para o meio da tela [br]para visualizarmos. 0:02:50.336,0:02:54.707 Então, legal, criamos a performance[br]das horas antes e depois. 0:02:54.707,0:02:58.644 Agora nós precisamos [br]fazer essa comparação. 0:02:58.644,0:03:01.472 Será que realmente performou mais? 0:03:01.472,0:03:06.052 Aqui, novamente, eu deixo um script [br]para vocês alguns comentários. 0:03:06.052,0:03:08.625 Agora nós vamos fazer[br]esse teste de hipóteses 0:03:08.625,0:03:11.324 para verificar [br]se a performance aumentou, tá? 0:03:11.324,0:03:14.694 E aqui, o que eu vou [br]interpretar com vocês, 0:03:14.694,0:03:17.964 eu deixei anotado aqui como [br]comentário, um resumo, tá? 0:03:17.964,0:03:21.500 "Então, qual a instrução, Rafa,[br]que vai ser executada agora?". 0:03:21.500,0:03:23.069 Olha quanto comentário. 0:03:23.069,0:03:26.939 É para poder entender a saída da execução. 0:03:26.939,0:03:29.831 "Como fica essa instrução, Rafa?" 0:03:29.831,0:03:32.494 Vamos apertar mais uns Enters aqui. 0:03:32.494,0:03:36.549 Agora aqui nós vamos pedir[br]para comparar o antes e o depois. 0:03:36.549,0:03:38.417 Como iremos fazer isso? 0:03:38.417,0:03:41.887 Temos uma variável aqui[br]chamada "resultado_test". 0:03:41.887,0:03:45.096 Você pode colocar o nome [br]que você quiser, como sempre. 0:03:45.096,0:03:50.682 Aqui nós temos uma primeira instrução,[br]que vocês tem que aprender agora: "t.teste". 0:03:50.682,0:03:54.366 Teste com "t" mudo porque é [br]uma instrução em inglês do R. 0:03:54.366,0:03:56.953 Se vocês buscarem aqui,[br]eu deixei anotado aqui 0:03:56.953,0:04:01.240 para vocês poderem estudar depois[br]ou fazer uma anotação, tá? 0:04:01.240,0:04:03.709 O que que é o ponto teste? 0:04:03.709,0:04:06.679 Ele é usado para comparar o antes[br]e o depois. 0:04:06.679,0:04:10.649 É ele que vai fazer as análises dos dados[br]de antes e o depois. 0:04:10.749,0:04:15.287 Ora, a hora aqui que nós temos[br]temos que fornecer 0:04:15.354,0:04:19.091 qual que é o intervalo de valores[br]para que ele chama a linha antes? 0:04:19.158,0:04:22.828 Qual que é o outro intervalo de valores[br]e o linha depois? 0:04:22.928,0:04:26.732 E aqui novamente nós temos que fazer[br]uma outra instrução para ele, 0:04:26.799,0:04:30.569 que aqui nessa instrução[br]nós vamos dizer assim ó, os dados, 0:04:30.569,0:04:34.540 eles tem relação sim, é um dado que[br]está relacionado diretamente. 0:04:34.607,0:04:37.009 Eu tenho a informação hora a hora. 0:04:37.009,0:04:39.578 Eu só não sei[br]se realmente aumentou essa performance. 0:04:39.578,0:04:43.582 Olhando nós sabemos,[br]mas supondo que não sabemos ainda. 0:04:43.682,0:04:45.084 E aí você coloca true 0:04:45.084,0:04:49.154 ou false, você coloca true[br]quando está relacionado diretamente. 0:04:49.221,0:04:51.757 Às vezes você pode estar querendo[br]comparar coisas 0:04:51.757,0:04:53.926 que elas não estão relacionadas[br]diretamente. 0:04:53.926,0:04:59.465 Aí você colocaria o false, mas[br]não no nosso caso aqui vou apertar enter. 0:04:59.531,0:05:02.034 Aí você fala Poxa, mas e agora? 0:05:02.034,0:05:03.669 Cadê o resultado? 0:05:03.669,0:05:06.672 Tudo o que nós iremos analisar agora tá, 0:05:06.772,0:05:11.143 tá aqui agora você fala Rafa,[br]Então vamos imprimir sim, vamos imprimir. 0:05:11.210,0:05:12.645 Como que a gente faz aqui? 0:05:12.645,0:05:19.451 Primeiro você já sabe o valor dessa comparação foi armazenado aqui dentro print. 0:05:19.518,0:05:20.686 Resultado 0:05:20.686,0:05:23.689 aquela velha história[br]cuidado para digitar correta 0:05:23.822,0:05:28.093 o nome da variável e aí[br]nós temos o resultado aqui. 0:05:28.160,0:05:32.464 Poxa Rafa, parte do resultado[br]está escrito em inglês 0:05:32.531,0:05:35.367 e tem alguns números da estatística. Isso. 0:05:35.367,0:05:38.270 Agora nós vamos comparar o que eu vou[br]explicar para vocês. 0:05:38.270,0:05:40.839 Eu vou subir um pouquinho novamente[br]até conseguir 0:05:40.839,0:05:42.941 às vezes dar uma pausa,[br]fazer a formatação. 0:05:42.941,0:05:46.779 Nesse momento, eu acho bem rica essa parte [br]dessas anotações, desses comentários. 0:05:46.779,0:05:51.216 É como sempre programar[br]deixar o código comentado para você 0:05:51.216,0:05:56.522 entender o que precisamos focar[br]nesse retorno dessa análise, 0:05:56.588,0:06:00.759 o quanto foi o valor retornado nesse value-p, 0:06:00.859,0:06:04.363 o que seria esse valor-p e Rafa[br]tem aqui para vocês. 0:06:04.430,0:06:08.400 Se o valor desse P vale,[br]o que é esse valor do resultado final? 0:06:08.500,0:06:09.568 For menor? 0:06:09.568,0:06:10.836 Eu deixei aqui anotado. 0:06:10.836,0:06:15.607 Menor que 0,05 menor que 0,05. 0:06:15.607,0:06:18.777 Sim, esse é um valor menor que 0,05. 0:06:18.777,0:06:22.080 Ele está mais distante aqui[br]do ponto da causa. 0:06:22.147,0:06:25.150 Quanto mais à direita ele está, mais[br]distante, então ele é menor. 0:06:25.217,0:06:26.752 Significa o quê? 0:06:26.752,0:06:32.424 Que há realmente uma diferença[br]significativa entre o antes e o depois? 0:06:32.524,0:06:34.493 Ai então o Rafa, como ele é 0:06:34.493,0:06:38.997 menor que 0,05, que é o que aconteceu[br]aqui, 0:06:39.097,0:06:42.834 quer dizer realmente[br]que há uma diferença significativa 0:06:42.935,0:06:46.271 entre a performance do antes[br]e o depois? Sim, 0:06:46.338,0:06:49.675 então faz sentido a nossa análise[br]que nós fizemos sem rodar o código. 0:06:49.775,0:06:53.245 Então ele refletiu o resultado[br]esperado pra nós. 0:06:53.378,0:06:54.413 Tudo bem. 0:06:54.413,0:06:58.550 E aí agora a gente conseguiu interpretar[br]nesse momento o que você deve se preocupar 0:06:58.550,0:07:04.356 é esse resultado para ver esse retorno,[br]se há realmente essa diferença teoria. 0:07:04.356,0:07:05.157 Entendeu? 0:07:05.157,0:07:08.393 Agora nós vamos para uma última parte. 0:07:08.493,0:07:13.031 Agora nós iremos para a última parte,[br]que é verificar não somente 0:07:13.098,0:07:17.936 se teve realmente significância[br]entre a performance do antes e o depois. 0:07:17.936,0:07:19.504 Isso nós já confirmamos. 0:07:19.504,0:07:23.675 Agora nós vamos ver a assertividade[br]o quanto isso está mais assertivo. 0:07:23.742,0:07:25.644 Esse retorno que nos deu. 0:07:25.644,0:07:30.248 Eu lembro a vocês que agora nós fizemos[br]com uma base bem pequena de dados, 0:07:30.315,0:07:35.587 fizemos ali só em 08h00 de análise, hora[br]a hora, então oito dados antes e depois. 0:07:35.654,0:07:37.189 Mas vocês tem sempre que lembrar 0:07:37.189,0:07:40.192 quando estamos falando aqui[br]da ciência do dado, dos dados, 0:07:40.358,0:07:44.229 pode ser algo muito maior[br]uma análise de 300 horas, 0:07:44.296,0:07:47.666 300 dados antes e 300 depois. 0:07:47.766,0:07:52.237 Então não tem como você fazer uma análise[br]observando apenas os valores. 0:07:52.237,0:07:54.272 Você tem que pedir para uma ferramenta 0:07:54.272,0:07:57.275 ou uma linguagem como R[br]para fazer isso por você. 0:07:57.375,0:08:00.512 Vamos ver o quanto realmente está fazendo[br]sentido ou A 0:08:00.579,0:08:04.049 com o nível de confiança desse retorno[br]do que foi processado. 0:08:04.149,0:08:06.718 Vem comigo aqui,[br]nós vamos para a última parte. 0:08:06.718,0:08:07.252 Como sempre, 0:08:07.252,0:08:11.957 eu deixo aqui para vocês um breve resumo[br]para que vocês depois consigo. 0:08:12.157,0:08:15.160 Até recomendo na sequência[br]pausar ou voltar o vídeo 0:08:15.193,0:08:19.631 para verificar essas observações[br]que eu deixei para vocês. 0:08:19.698,0:08:22.133 Aqui nós vamos fazer duas instruções. 0:08:22.133,0:08:24.603 Nós temos aqui[br]essa primeira que nós vamos pedir para ele 0:08:24.603,0:08:27.606 calcular e depois para mostrar. 0:08:27.672,0:08:31.176 Vamos lá, deixa eu copiar aqui para baixo[br]ou apertar mais alguns 0:08:31.209,0:08:34.646 entre os aqui para ficar bem[br]dividido a tela para não confundir vocês. 0:08:34.746,0:08:37.716 Até mesmo aqui eu falo aqui[br]essa área que a gente programa, 0:08:37.716,0:08:41.219 a gente tem que ter um pouco limpa[br]para facilitar a interpretação. 0:08:41.319,0:08:42.821 Agora vou colar aqui para vocês. 0:08:42.821,0:08:46.458 Deixa eu apagar,[br]eu não vou executar sem antes explicar. 0:08:46.558,0:08:47.859 Então o que nós vamos fazer? 0:08:47.859,0:08:51.496 Como sempre,[br]criar uma variável para receber 0:08:51.496,0:08:54.299 ou armazenar o valor dessa execução. 0:08:54.299,0:08:56.701 E aqui nós temos o que o resultado? 0:08:56.701,0:08:57.569 Underline teste. 0:08:57.569,0:08:59.137 Que variável é essa? 0:08:59.137,0:09:04.242 Rafa, eu vou voltar um pouquinho[br]o resultado do teste 0:09:04.309,0:09:05.877 e quando nós pedimos para ele fazer 0:09:05.877,0:09:10.148 a comparação, lembra do antes[br]e o depois que saiu esse resultado? 0:09:10.248,0:09:13.918 Ah, legal Rafa, Lembre aí[br]você fala Rafa, mais uma instrução 0:09:13.918,0:09:17.689 você vai nos ensinar agora sim,[br]essa daqui também conhecido como 0:09:17.689,0:09:22.360 cifrão ou dólar, como vocês[br]queiram falar aí na hora da programação. 0:09:22.460,0:09:24.229 Conf ponto int. 0:09:24.229,0:09:26.731 Rafa, esse daí eu ainda não vi com você. 0:09:26.731,0:09:27.365 Tudo bem? 0:09:27.365,0:09:28.933 Vamos dar uma olhadinha aqui. 0:09:28.933,0:09:32.871 Como sempre, eu deixo anotado para vocês[br]essas observações 0:09:33.037,0:09:37.442 para facilitar[br]depois na hora da interpretação. 0:09:37.509,0:09:39.611 Não dei mancada novamente. Está aqui. 0:09:39.611,0:09:43.548 Então é aquele momento que se eu fosse[br]você dava uma pausa no vídeo 0:09:43.648,0:09:47.952 para deixar anotado no seu caderno[br]que é o cofre Ponto int. 0:09:48.019,0:09:53.825 Ele é usado que para acessar[br]o intervalo de confiança da nossa análise 0:09:53.892,0:09:57.228 de novo,[br]nós vamos querer que ele pegue aqui 0:09:57.295,0:10:01.466 esse resultado[br]que foi projetado anteriormente 0:10:01.566,0:10:05.970 e agora nós vamos projetar[br]uma outra execução sobre ele. 0:10:06.037,0:10:09.841 Olha aqui[br]e ele vai gerar uma análise estatística, 0:10:09.841,0:10:13.778 que é o que a nossa análise[br]descritiva legal. 0:10:13.978,0:10:19.150 Então eu vou pedir para ele[br]fazer essa análise, armazenar o valor aqui 0:10:19.217,0:10:22.487 e aí depois, como sempre,[br]nós iremos visualizar ele. 0:10:22.554,0:10:26.357 Mas você fala Rafa,[br]essa visualização não está simples não. 0:10:26.457,0:10:31.162 Vou trazer mais uma coisa aqui pra nossa[br]conversa, para nossa aula de agora 0:10:31.262,0:10:36.768 é só o texto Intervalo de confiança[br]para a diferença média 0:10:36.868,0:10:40.171 é que nós trouxemos aqui o intervalo 0:10:40.171,0:10:43.541 onde ele confia carro ou confiança. 0:10:43.541,0:10:46.911 Um A confiança dois Vou apertar o enter, 0:10:47.011,0:10:49.781 deixa eu mostrar o resultado[br]e vocês vão entender. 0:10:49.781,0:10:54.519 Então nós temos aqui isso é um texto[br]que sai, um texto simples saiu aqui. 0:10:54.585,0:11:00.391 Esse é um intervalo de confiança de quanto[br]a quanto isso é aderência de confiança. 0:11:00.591,0:11:02.293 Esse é um modelo confiável. 0:11:02.293,0:11:07.131 Ele vai de -23,56. 0:11:07.231,0:11:12.203 Aqui é da onde ele parte,[br]até aonde ele vai, até aonde ele vai. 0:11:12.203,0:11:17.608 E dois Percebam que vocês criaram[br]a variável com nome intervalo, confiança, 0:11:17.709,0:11:20.378 da onde ele inicia você coloca um 0:11:20.378,0:11:23.815 e dá onde ele termina,[br]até onde ele vai e o dois. 0:11:23.815,0:11:27.185 E esse é o intervalo de confiança[br]desse modelo de análise 0:11:27.251,0:11:30.021 que nós acabamos de processar. 0:11:30.021,0:11:31.456 O que eu espero com isso? 0:11:31.456,0:11:34.292 Eu espero que agora vocês tenham entendido[br]como que é isso, 0:11:34.292,0:11:38.096 e vamos dizer, real não,[br]mas com certeza isso existe. 0:11:38.196,0:11:41.599 Quando você trabalha uma empresa,[br]por exemplo, uma fábrica de software, 0:11:41.699,0:11:45.436 as vezes a performance da equipe[br]não está muito boa no desenvolvimento 0:11:45.503,0:11:48.873 e aí alguém vai fazer uma análise,[br]implementa uma melhoria 0:11:48.940,0:11:52.910 e depois eles querem medir para saber[br]se após a implementação da melhoria 0:11:53.010,0:11:55.313 a performance da equipe aumentou. 0:11:55.313,0:11:57.815 E aí,[br]quem vai nos ajudar a fazer essa análise? 0:11:57.815,0:12:00.384 A linguagem é[br]com a parte de estatística e.