WEBVTT 00:00:07.890 --> 00:00:11.911 Uma das maneiras de se aprender é na prática. 00:00:11.911 --> 00:00:14.792 E agora nós temos um case para trazer aqui 00:00:14.792 --> 00:00:20.120 onde nós iremos conseguir executar a partir de hipóteses e intervalos. 00:00:20.120 --> 00:00:21.354 Pense no cenário: 00:00:21.354 --> 00:00:25.784 vocês têm um sistema que não está performando muito bem, 00:00:25.784 --> 00:00:30.536 e aí é feita uma análise, são coletados os dados de hora em hora 00:00:30.536 --> 00:00:33.466 para saber como está a performance daquele sistema. 00:00:33.466 --> 00:00:38.487 Então é estudado e verificado que existe a possibilidade de se melhorar o algoritmo, 00:00:39.205 --> 00:00:44.110 Essas melhorias do algoritmo são implementadas, e, posteriormente, 00:00:44.110 --> 00:00:48.548 são novamente coletados os dados com relação à performance do sistema. 00:00:48.548 --> 00:00:51.684 Então você tem o antes e o depois. 00:00:51.684 --> 00:00:56.122 Se você tem o antes e o depois dos dados, você pode comparar. 00:00:56.122 --> 00:01:02.061 Se for um intervalo bem pequeno, talvez você consiga comparar olhando. 00:01:02.061 --> 00:01:04.888 Mas imagine numa situação real em uma empresa, 00:01:04.888 --> 00:01:09.493 onde um sistema fica processando durante 24 horas durante um mês, 00:01:09.493 --> 00:01:13.573 quantos dados você tem ali para fazer essa comparação? 00:01:13.573 --> 00:01:15.581 Então vamos fazer isso aqui na prática. 00:01:15.581 --> 00:01:19.061 Eu deixei um script pré-pronto, sempre daquela maneira, 00:01:19.061 --> 00:01:21.481 deixando essa parte com a hashtag, 00:01:21.481 --> 00:01:25.901 que é um resumo teórico do que nós iremos analisar, 00:01:25.901 --> 00:01:29.901 até mesmo algumas explicações um pouco mais técnicas, 00:01:29.901 --> 00:01:31.791 ou com a parte de estatística. 00:01:31.791 --> 00:01:34.360 Então aqui nós temos duas bases de dados. 00:01:34.360 --> 00:01:36.375 Se apertarmos um Enter, isso vai ser executado. 00:01:36.375 --> 00:01:38.865 Mas sempre gostamos de fazer na prática. 00:01:38.865 --> 00:01:44.405 Vamos apertar o Enter aqui, e iremos copiar essas duas bases de dados. 00:01:44.405 --> 00:01:46.539 "Rafa, por que você traz pronto?" 00:01:46.539 --> 00:01:50.243 Para não precisar criar agora dois conjuntos de dados. 00:01:50.243 --> 00:01:51.611 Eu vou limpar aqui. 00:01:51.611 --> 00:01:53.610 Vamos interpretar o que nós temos, tá? 00:01:53.610 --> 00:01:55.367 Olhe, esses são os dados para a análise. 00:01:55.367 --> 00:01:57.617 Opa! Vou tirar esse sinalzinho aqui. 00:01:57.617 --> 00:02:02.121 Então, antes da implementação do algoritmo, 00:02:02.121 --> 00:02:05.058 vamos supor que foi analisado. 00:02:05.058 --> 00:02:09.915 Nós temos aqui a hora um, hora dois, hora três, hora quatro, 00:02:09.915 --> 00:02:14.133 hora cinco, hora seis, hora sete, e hora oito. 00:02:14.133 --> 00:02:17.036 Então, antes de implementar essa melhoria no algoritmo, 00:02:17.036 --> 00:02:19.705 esses eram os valores dos tempos de execução. 00:02:19.705 --> 00:02:21.607 Vamos supor em segundos? 00:02:21.607 --> 00:02:27.246 E aí foi implementada a melhoria e fizeram uma nova coleta de dados. 00:02:27.246 --> 00:02:30.216 E aí, em segundos, quanto tempo demorou. 00:02:30.216 --> 00:02:33.219 "Se você olhar aqui, Rafa, não precisa nem processar. 00:02:33.219 --> 00:02:36.697 Já fica visível que sim, está melhor." 00:02:36.697 --> 00:02:38.908 Mas lembre-se que, no dia a dia, 00:02:38.908 --> 00:02:41.417 você geralmente tem um conjunto de dados muito maior. 00:02:41.417 --> 00:02:46.999 Então, se você for fazer análise no papel, você vai demorar muitas horas. 00:02:46.999 --> 00:02:50.269 E aqui, o mesmo script que nós vamos executar agora, 00:02:50.269 --> 00:02:55.208 serve para um conjunto pequeno de dados como esse ou para um conjunto muito maior. 00:02:55.208 --> 00:02:56.747 Vamos ver como fica. 00:02:56.747 --> 00:02:59.533 Então nós vamos apertar um Enter. 00:03:00.913 --> 00:03:05.439 Não é obrigatório, mas é sempre legal você visualizar os dados 00:03:05.439 --> 00:03:07.720 para confirmar que está tudo certinho. 00:03:07.720 --> 00:03:12.291 Criamos o tempo antes e pedimos para mostrar o tempo antes. 00:03:12.291 --> 00:03:14.296 Vamos apertar dois Enters aqui. 00:03:14.296 --> 00:03:16.656 Print, e vamos mostrá-lo. 00:03:16.656 --> 00:03:22.001 De novo, você pode digitar tempos_depois 00:03:22.001 --> 00:03:25.899 ou você pode utilizar a sugestão dele, olhe, para cima, e vou apertar o Enter. 00:03:26.872 --> 00:03:31.838 Então nós criamos aqui o antes e o depois. 00:03:31.838 --> 00:03:33.045 Legal! 00:03:33.045 --> 00:03:34.915 Vamos subir um pouquinho. 00:03:34.915 --> 00:03:37.495 Então novamente, aquela velha dica: 00:03:37.495 --> 00:03:40.271 se tem alguma dúvida das análises que iremos fazer, 00:03:40.271 --> 00:03:41.987 fica um resumo aqui para vocês. 00:03:41.987 --> 00:03:43.850 Pode pausar e anotar. 00:03:43.850 --> 00:03:49.028 Aqui são os dois dados, os dois conjuntos de dados, que acabamos de criar. 00:03:49.028 --> 00:03:51.711 E agora nós vamos para uma próxima parte. 00:03:52.818 --> 00:03:55.668 "Rafa, tem mais comentário aí do que execução." 00:03:55.668 --> 00:03:59.171 Sim, é sempre legal vocês terem esse resumo. 00:03:59.171 --> 00:04:01.640 Eu gosto de deixar um resumo para vocês. 00:04:01.640 --> 00:04:05.945 Eu vou dar um Enter aqui para a tela ficar um pouco limpa. 00:04:05.945 --> 00:04:07.496 Deixe-me só arrumar aqui. 00:04:07.496 --> 00:04:08.886 Só um minuto. 00:04:08.886 --> 00:04:10.527 O que nós temos aqui? 00:04:13.014 --> 00:04:17.123 A primeira aqui é o título, né, "realizando o teste de hipóteses". 00:04:17.123 --> 00:04:21.218 E aqui nós temos o que nós queremos analisar. 00:04:21.218 --> 00:04:25.634 Eu vou apertar o Enter e vou imprimir, e aí nós vamos interpretar juntos, tudo bem? 00:04:25.634 --> 00:04:27.374 "teste_hipotese". 00:04:28.601 --> 00:04:33.305 "Que construção é essa, Rafa, que você executou e ainda não ensinou?" 00:04:33.305 --> 00:04:35.247 Vamos tentar entender o que está aqui. 00:04:35.247 --> 00:04:36.096 Vamos tentar, não. 00:04:36.096 --> 00:04:37.576 Vamos entender, né? 00:04:37.576 --> 00:04:40.998 teste_hipotese" é um nome de uma variável. 00:04:40.998 --> 00:04:42.448 Aí sinal de menor, tracinho. 00:04:42.448 --> 00:04:47.676 Então o que acontecer aqui será atribuído para dentro dessa variável. 00:04:48.909 --> 00:04:54.260 "t.test" é mais um tema que vocês precisam aprender. 00:04:54.260 --> 00:04:56.195 O que seria isso? 00:04:56.195 --> 00:05:01.267 Ele é mais usado para comparar a média de dois grupos 00:05:01.267 --> 00:05:06.338 e determinar estatisticamente se há diferença entre eles. 00:05:06.338 --> 00:05:08.874 Então nós não temos duas bases de dados? 00:05:08.874 --> 00:05:14.280 Vamos lembrar: base de dados da análise da performance do sistema do antes 00:05:14.280 --> 00:05:17.857 e a análise dos dados com a base de dados do depois com a performance. 00:05:18.984 --> 00:05:23.122 Se você olhar um a um, você vai ver que está melhor mesmo. 00:05:23.122 --> 00:05:25.691 Mas vamos deixar o R fazer isso para nós. 00:05:25.691 --> 00:05:28.027 Então nós temos que fornecer a base de dados, 00:05:28.027 --> 00:05:32.064 o conjunto de dados do antes e do depois. 00:05:32.064 --> 00:05:37.516 E aqui nós fazemos uma instrução para dizer que nós estamos fazendo 00:05:37.516 --> 00:05:41.440 uma comparação com duas bases de dados. 00:05:41.440 --> 00:05:44.777 "Rafa, poderíamos fazer uma análise com mais base de dados?" 00:05:44.777 --> 00:05:45.711 Sim, poderíamos. 00:05:45.711 --> 00:05:48.814 Aqui nós só estamos comparando duas. 00:05:48.814 --> 00:05:53.185 E aí você fala: "Nossa, Rafa, saiu um resultado um pouquinho extenso." 00:05:53.185 --> 00:05:55.990 Calma aí que nós iremos interpretá-lo, tudo bem? 00:05:55.990 --> 00:05:57.953 Vem aqui comigo, por favor. 00:05:57.953 --> 00:05:59.124 O que nós fizemos então? 00:05:59.124 --> 00:06:01.427 Nós ainda precisamos interpretar aquele resultado, né? 00:06:01.427 --> 00:06:04.857 Aqui estão os comentários, os dados do antes e do depois... 00:06:08.333 --> 00:06:11.770 Um primeiro teste de hipótese que nós fizemos, 00:06:11.770 --> 00:06:14.506 e aqui nós vamos imprimir esse resultado do teste de hipótese, 00:06:14.506 --> 00:06:16.175 que é o que acabamos de fazer. 00:06:16.175 --> 00:06:19.395 Vou deixar só comentado, mas vai se fazer a mesma saída, tá? 00:06:21.914 --> 00:06:24.049 O que nós temos aqui então? 00:06:24.049 --> 00:06:25.651 "Como podemos interpretar, Rafa? 00:06:25.651 --> 00:06:29.025 Você só mandou imprimir e colocou um título aqui, que é a hashtag." 00:06:30.155 --> 00:06:34.893 Aí você tem que novamente focar na análise da saída dos dados. 00:06:34.893 --> 00:06:39.698 Tem esse p-value aqui, que é um dos focos da nossa análise. 00:06:39.698 --> 00:06:42.868 Se vocês voltarem para o começo aqui, 00:06:42.868 --> 00:06:48.281 vocês podem tirar algumas análises do que estamos buscando, né? 00:06:48.281 --> 00:06:50.102 Olhe: "Os intervalos de confiança são usados 00:06:50.102 --> 00:06:53.511 para estimar a incerteza associada a uma estimativa pontual". 00:06:54.346 --> 00:06:59.328 O quanto temos a certeza, ou incerteza, que isso está nos ajudando. 00:06:59.328 --> 00:07:02.688 Então nós conseguimos fazer com que a linguagem R 00:07:02.688 --> 00:07:06.525 fizesse essa análise do tempo o antes e do depois. 00:07:06.525 --> 00:07:10.128 Olhando antes da execução, nós conseguimos ter a certeza. 00:07:10.128 --> 00:07:13.198 Mas lembre-se sempre no dia a dia do seu trabalho, 00:07:13.198 --> 00:07:16.401 na sua vida pessoal, que você vai precisar analisar dados 00:07:16.401 --> 00:07:20.739 onde geralmente esse conjunto de dados é muito maior. 00:07:20.739 --> 00:07:24.643 Então utilize o R para que faça essa análise por você. 00:07:24.643 --> 00:07:27.405 E agora fica uma dica: pense em um cenário, 00:07:27.405 --> 00:07:33.469 algo da sua vida pessoal ou de algum familiar seu, ou até mesmo da sua empresa, 00:07:33.469 --> 00:07:37.100 onde você tenha esse conjunto de dados do antes e do depois, 00:07:37.100 --> 00:07:38.990 e você precisa fazer essa análise, 00:07:38.990 --> 00:07:42.027 de preferência um conjunto de dados até maior. 00:07:42.027 --> 00:07:45.764 E aí tente executar esse script novamente 00:07:45.764 --> 00:07:50.469 buscando essa análise dos comentários, e tente chegar no seu resultado. 00:07:50.469 --> 00:07:53.305 Então você terá certeza que, na prática, 00:07:53.305 --> 00:07:56.288 você consegue absorver esse conhecimento.