1 00:00:07,890 --> 00:00:11,911 Uma das maneiras de se aprender é na prática. 2 00:00:11,911 --> 00:00:14,792 E agora nós temos um case para trazer aqui 3 00:00:14,792 --> 00:00:20,120 onde nós iremos conseguir executar a partir de hipóteses e intervalos. 4 00:00:20,120 --> 00:00:21,354 Pense no cenário: 5 00:00:21,354 --> 00:00:25,784 vocês têm um sistema que não está performando muito bem, 6 00:00:25,784 --> 00:00:30,536 e aí é feita uma análise, são coletados os dados de hora em hora 7 00:00:30,536 --> 00:00:33,466 para saber como está a performance daquele sistema. 8 00:00:33,466 --> 00:00:38,487 Então é estudado e verificado que existe a possibilidade de se melhorar o algoritmo, 9 00:00:39,205 --> 00:00:44,110 Essas melhorias do algoritmo são implementadas, e, posteriormente, 10 00:00:44,110 --> 00:00:48,548 são novamente coletados os dados com relação à performance do sistema. 11 00:00:48,548 --> 00:00:51,684 Então você tem o antes e o depois. 12 00:00:51,684 --> 00:00:56,122 Se você tem o antes e o depois dos dados, você pode comparar. 13 00:00:56,122 --> 00:01:02,061 Se for um intervalo bem pequeno, talvez você consiga comparar olhando. 14 00:01:02,061 --> 00:01:04,888 Mas imagine numa situação real em uma empresa, 15 00:01:04,888 --> 00:01:09,493 onde um sistema fica processando durante 24 horas durante um mês, 16 00:01:09,493 --> 00:01:13,573 quantos dados você tem ali para fazer essa comparação? 17 00:01:13,573 --> 00:01:15,581 Então vamos fazer isso aqui na prática. 18 00:01:15,581 --> 00:01:19,061 Eu deixei um script pré-pronto, sempre daquela maneira, 19 00:01:19,061 --> 00:01:21,481 deixando essa parte com a hashtag, 20 00:01:21,481 --> 00:01:25,901 que é um resumo teórico do que nós iremos analisar, 21 00:01:25,901 --> 00:01:29,901 até mesmo algumas explicações um pouco mais técnicas, 22 00:01:29,901 --> 00:01:31,791 ou com a parte de estatística. 23 00:01:31,791 --> 00:01:34,360 Então aqui nós temos duas bases de dados. 24 00:01:34,360 --> 00:01:36,375 Se apertarmos um Enter, isso vai ser executado. 25 00:01:36,375 --> 00:01:38,865 Mas sempre gostamos de fazer na prática. 26 00:01:38,865 --> 00:01:44,405 Vamos apertar o Enter aqui, e iremos copiar essas duas bases de dados. 27 00:01:44,405 --> 00:01:46,539 "Rafa, por que você traz pronto?" 28 00:01:46,539 --> 00:01:50,243 Para não precisar criar agora dois conjuntos de dados. 29 00:01:50,243 --> 00:01:51,611 Eu vou limpar aqui. 30 00:01:51,611 --> 00:01:53,610 Vamos interpretar o que nós temos, tá? 31 00:01:53,610 --> 00:01:55,367 Olhe, esses são os dados para a análise. 32 00:01:55,367 --> 00:01:57,617 Opa! Vou tirar esse sinalzinho aqui. 33 00:01:57,617 --> 00:02:02,121 Então, antes da implementação do algoritmo, 34 00:02:02,121 --> 00:02:05,058 vamos supor que foi analisado. 35 00:02:05,058 --> 00:02:09,915 Nós temos aqui a hora um, hora dois, hora três, hora quatro, 36 00:02:09,915 --> 00:02:14,133 hora cinco, hora seis, hora sete, e hora oito. 37 00:02:14,133 --> 00:02:17,036 Então, antes de implementar essa melhoria no algoritmo, 38 00:02:17,036 --> 00:02:19,705 esses eram os valores dos tempos de execução. 39 00:02:19,705 --> 00:02:21,607 Vamos supor em segundos? 40 00:02:21,607 --> 00:02:27,246 E aí foi implementada a melhoria e fizeram uma nova coleta de dados. 41 00:02:27,246 --> 00:02:30,216 E aí, em segundos, quanto tempo demorou. 42 00:02:30,216 --> 00:02:33,219 "Se você olhar aqui, Rafa, não precisa nem processar. 43 00:02:33,219 --> 00:02:36,697 Já fica visível que sim, está melhor." 44 00:02:36,697 --> 00:02:38,908 Mas lembre-se que, no dia a dia, 45 00:02:38,908 --> 00:02:41,417 você geralmente tem um conjunto de dados muito maior. 46 00:02:41,417 --> 00:02:46,999 Então, se você for fazer análise no papel, você vai demorar muitas horas. 47 00:02:46,999 --> 00:02:50,269 E aqui, o mesmo script que nós vamos executar agora, 48 00:02:50,269 --> 00:02:55,208 serve para um conjunto pequeno de dados como esse ou para um conjunto muito maior. 49 00:02:55,208 --> 00:02:56,747 Vamos ver como fica. 50 00:02:56,747 --> 00:02:59,533 Então nós vamos apertar um Enter. 51 00:03:00,913 --> 00:03:05,439 Não é obrigatório, mas é sempre legal você visualizar os dados 52 00:03:05,439 --> 00:03:07,720 para confirmar que está tudo certinho. 53 00:03:07,720 --> 00:03:12,291 Criamos o tempo antes e pedimos para mostrar o tempo antes. 54 00:03:12,291 --> 00:03:14,296 Vamos apertar dois Enters aqui. 55 00:03:14,296 --> 00:03:16,656 Print, e vamos mostrá-lo. 56 00:03:16,656 --> 00:03:22,001 De novo, você pode digitar tempos_depois 57 00:03:22,001 --> 00:03:25,899 ou você pode utilizar a sugestão dele, olhe, para cima, e vou apertar o Enter. 58 00:03:26,872 --> 00:03:31,838 Então nós criamos aqui o antes e o depois. 59 00:03:31,838 --> 00:03:33,045 Legal! 60 00:03:33,045 --> 00:03:34,915 Vamos subir um pouquinho. 61 00:03:34,915 --> 00:03:37,495 Então novamente, aquela velha dica: 62 00:03:37,495 --> 00:03:40,271 se tem alguma dúvida das análises que iremos fazer, 63 00:03:40,271 --> 00:03:41,987 fica um resumo aqui para vocês. 64 00:03:41,987 --> 00:03:43,850 Pode pausar e anotar. 65 00:03:43,850 --> 00:03:49,028 Aqui são os dois dados, os dois conjuntos de dados, que acabamos de criar. 66 00:03:49,028 --> 00:03:51,711 E agora nós vamos para uma próxima parte. 67 00:03:52,818 --> 00:03:55,668 "Rafa, tem mais comentário aí do que execução." 68 00:03:55,668 --> 00:03:59,171 Sim, é sempre legal vocês terem esse resumo. 69 00:03:59,171 --> 00:04:01,640 Eu gosto de deixar um resumo para vocês. 70 00:04:01,640 --> 00:04:05,945 Eu vou dar um Enter aqui para a tela ficar um pouco limpa. 71 00:04:05,945 --> 00:04:07,496 Deixe-me só arrumar aqui. 72 00:04:07,496 --> 00:04:08,886 Só um minuto. 73 00:04:08,886 --> 00:04:10,527 O que nós temos aqui? 74 00:04:13,014 --> 00:04:17,123 A primeira aqui é o título, né, "realizando o teste de hipóteses". 75 00:04:17,123 --> 00:04:21,218 E aqui nós temos o que nós queremos analisar. 76 00:04:21,218 --> 00:04:25,634 Eu vou apertar o Enter e vou imprimir, e aí nós vamos interpretar juntos, tudo bem? 77 00:04:25,634 --> 00:04:27,374 "teste_hipotese". 78 00:04:28,601 --> 00:04:33,305 "Que construção é essa, Rafa, que você executou e ainda não ensinou?" 79 00:04:33,305 --> 00:04:35,247 Vamos tentar entender o que está aqui. 80 00:04:35,247 --> 00:04:36,096 Vamos tentar, não. 81 00:04:36,096 --> 00:04:37,576 Vamos entender, né? 82 00:04:37,576 --> 00:04:40,998 teste_hipotese" é um nome de uma variável. 83 00:04:40,998 --> 00:04:42,448 Aí sinal de menor, tracinho. 84 00:04:42,448 --> 00:04:47,676 Então o que acontecer aqui será atribuído para dentro dessa variável. 85 00:04:48,909 --> 00:04:54,260 "t.test" é mais um tema que vocês precisam aprender. 86 00:04:54,260 --> 00:04:56,195 O que seria isso? 87 00:04:56,195 --> 00:05:01,267 Ele é mais usado para comparar a média de dois grupos 88 00:05:01,267 --> 00:05:06,338 e determinar estatisticamente se há diferença entre eles. 89 00:05:06,338 --> 00:05:08,874 Então nós não temos duas bases de dados? 90 00:05:08,874 --> 00:05:14,280 Vamos lembrar: base de dados da análise da performance do sistema do antes 91 00:05:14,280 --> 00:05:17,857 e a análise dos dados com a base de dados do depois com a performance. 92 00:05:18,984 --> 00:05:23,122 Se você olhar um a um, você vai ver que está melhor mesmo. 93 00:05:23,122 --> 00:05:25,691 Mas vamos deixar o R fazer isso para nós. 94 00:05:25,691 --> 00:05:28,027 Então nós temos que fornecer a base de dados, 95 00:05:28,027 --> 00:05:32,064 o conjunto de dados do antes e do depois. 96 00:05:32,064 --> 00:05:37,516 E aqui nós fazemos uma instrução para dizer que nós estamos fazendo 97 00:05:37,516 --> 00:05:41,440 uma comparação com duas bases de dados. 98 00:05:41,440 --> 00:05:44,777 "Rafa, poderíamos fazer uma análise com mais base de dados?" 99 00:05:44,777 --> 00:05:45,711 Sim, poderíamos. 100 00:05:45,711 --> 00:05:48,814 Aqui nós só estamos comparando duas. 101 00:05:48,814 --> 00:05:53,185 E aí você fala: "Nossa, Rafa, saiu um resultado um pouquinho extenso." 102 00:05:53,185 --> 00:05:55,990 Calma aí que nós iremos interpretá-lo, tudo bem? 103 00:05:55,990 --> 00:05:57,953 Vem aqui comigo, por favor. 104 00:05:57,953 --> 00:05:59,124 O que nós fizemos então? 105 00:05:59,124 --> 00:06:01,427 Nós ainda precisamos interpretar aquele resultado, né? 106 00:06:01,427 --> 00:06:04,857 Aqui estão os comentários, os dados do antes e do depois... 107 00:06:08,333 --> 00:06:11,770 Um primeiro teste de hipótese que nós fizemos, 108 00:06:11,770 --> 00:06:14,506 e aqui nós vamos imprimir esse resultado do teste de hipótese, 109 00:06:14,506 --> 00:06:16,175 que é o que acabamos de fazer. 110 00:06:16,175 --> 00:06:19,395 Vou deixar só comentado, mas vai se fazer a mesma saída, tá? 111 00:06:21,914 --> 00:06:24,049 O que nós temos aqui então? 112 00:06:24,049 --> 00:06:25,651 "Como podemos interpretar, Rafa? 113 00:06:25,651 --> 00:06:29,025 Você só mandou imprimir e colocou um título aqui, que é a hashtag." 114 00:06:30,155 --> 00:06:34,893 Aí você tem que novamente focar na análise da saída dos dados. 115 00:06:34,893 --> 00:06:39,698 Tem esse p-value aqui, que é um dos focos da nossa análise. 116 00:06:39,698 --> 00:06:42,868 Se vocês voltarem para o começo aqui, 117 00:06:42,868 --> 00:06:48,281 vocês podem tirar algumas análises do que estamos buscando, né? 118 00:06:48,281 --> 00:06:50,102 Olhe: "Os intervalos de confiança são usados 119 00:06:50,102 --> 00:06:53,511 para estimar a incerteza associada a uma estimativa pontual". 120 00:06:54,346 --> 00:06:59,328 O quanto temos a certeza, ou incerteza, que isso está nos ajudando. 121 00:06:59,328 --> 00:07:02,688 Então nós conseguimos fazer com que a linguagem R 122 00:07:02,688 --> 00:07:06,525 fizesse essa análise do tempo o antes e do depois. 123 00:07:06,525 --> 00:07:10,128 Olhando antes da execução, nós conseguimos ter a certeza. 124 00:07:10,128 --> 00:07:13,198 Mas lembre-se sempre no dia a dia do seu trabalho, 125 00:07:13,198 --> 00:07:16,401 na sua vida pessoal, que você vai precisar analisar dados 126 00:07:16,401 --> 00:07:20,739 onde geralmente esse conjunto de dados é muito maior. 127 00:07:20,739 --> 00:07:24,643 Então utilize o R para que faça essa análise por você. 128 00:07:24,643 --> 00:07:27,405 E agora fica uma dica: pense em um cenário, 129 00:07:27,405 --> 00:07:33,469 algo da sua vida pessoal ou de algum familiar seu, ou até mesmo da sua empresa, 130 00:07:33,469 --> 00:07:37,100 onde você tenha esse conjunto de dados do antes e do depois, 131 00:07:37,100 --> 00:07:38,990 e você precisa fazer essa análise, 132 00:07:38,990 --> 00:07:42,027 de preferência um conjunto de dados até maior. 133 00:07:42,027 --> 00:07:45,764 E aí tente executar esse script novamente 134 00:07:45,764 --> 00:07:50,469 buscando essa análise dos comentários, e tente chegar no seu resultado. 135 00:07:50,469 --> 00:07:53,305 Então você terá certeza que, na prática, 136 00:07:53,305 --> 00:07:56,288 você consegue absorver esse conhecimento.