Uma das maneiras
de se aprender é na prática.
E agora nós temos um case para trazer aqui
onde nós iremos conseguir executar
a partir de hipótese e intervalos.
Pense no cenário:
vocês têm um sistema que não
está performando muito bem,
e aí é feita uma análise, são
coletados os dados de hora em hora
para saber como está
a performance daquele sistema.
Então é estudado e verificado que existe
a possibilidade de se melhorar o algoritmo,
Essas melhorias do algoritmo
são implementadas, e, posteriormente,
são novamente coletados os dados
com relação à performance do sistema.
Então você tem o antes e o depois.
Se você tem o antes e o depois
dos dados, você pode comparar.
Se for um intervalo bem pequeno,
talvez você consiga comparar olhando.
Mas imagine numa situação
real em uma empresa,
onde um sistema fica processando
durante 24 horas durante um mês,
quantos dados você tem ali
para fazer essa comparação?
Então vamos fazer isso aqui na prática.
Eu deixei um script pré-pronto,
sempre daquela maneira,
deixando essa parte com a hashtag,
que é um resumo teórico
do que nós iremos analisar,
até mesmo algumas explicações
um pouco mais técnicas,
ou com a parte de estatística.
Então aqui nós temos duas bases de dados.
Se apertarmos um Enter,
isso vai ser executado.
Mas sempre gostamos de fazer na prática.
Vamos apertar o Enter aqui, e iremos
copiar essas duas bases de dados.
"Rafa, por que você traz pronto?"
Para não precisar criar agora
dois conjuntos de dados.
Eu vou limpar aqui.
Vamos interpretar o que nós temos, tá?
Olhe, esses são os dados para a análise.
Opa! Vou tirar esse sinalzinho aqui.
Então, antes da implementação
do algoritmo,
vamos supor que foi analisado.
Nós temos aqui a hora um,
hora dois, hora três, hora quatro,
hora cinco, hora seis,
hora sete, e hora oito.
Então, antes de implementar
essa melhoria no algoritmo,
esses eram os valores
dos tempos de execução.
Vamos supor em segundos?
E aí foi implementada a melhoria
e fizeram uma nova coleta de dados.
E aí, em segundos, quanto tempo demorou.
"Se você olhar aqui, Rafa,
não precisa nem processar.
Já fica visível que sim, está melhor."
Mas lembre-se que, no dia a dia,
você geralmente tem um conjunto
de dados muito maior.
Então, se você for fazer análise no papel,
você vai demorar muitas horas.
E aqui, o mesmo script
que nós vamos executar agora,
serve para um conjunto pequeno de dados
como esse ou para um conjunto muito maior.
Vamos ver como fica.
Então nós vamos apertar um Enter.
Não é obrigatório, mas é sempre
legal você visualizar os dados
para confirmar que está tudo certinho.
Criamos o tempo antes e pedimos
para mostrar o tempo antes.
Vamos apertar dois Enters aqui.
Print, e vamos mostrá-lo.
De novo, você pode digitar tempos_depois
ou você pode utilizar a sugestão dele,
olhe, para cima,e vou apertar o Enter.
Então nós criamos aqui o antes e o depois.
Legal!
Vamos subir um pouquinho.
Então novamente, aquela velha dica:
se tem alguma dúvida
das análises que iremos fazer,
fica um resumo aqui para vocês.
Pode pausar e anotar.
Aqui são os dois dados, os dois conjuntos
de dados, que acabamos de criar.
E agora nós vamos para uma próxima parte.
"Rafa, tem mais comentário aí do que execução."
Sim, é sempre legal
vocês terem esse resumo.
Eu gosto de deixar um resumo para vocês.
Eu vou dar um Enter aqui
para a tela ficar um pouco limpa.
Deixe-me só arrumar aqui.
Só um minuto.
O que nós temos aqui?
A primeira aqui é o título, né,
"realizando o teste de hipóteses".
E aqui nós temos o que nós
queremos analisar.
Eu vou apertar o Enter e vou imprimir,
e aí nós vamos interpretar juntos, tudo bem?
"teste_hipotese".
"Que construção é essa, Rafa, que você
executou e ainda não ensinou?"
Vamos tentar entender o que está aqui.
Vamos tentar, não.
Vamos entender, né?
teste_hipotese" é
um nome de uma variável.
Aí sinal de menor, tracinho.
Então o que acontecer aqui será
atribuído para dentro dessa variável.
"t.test" é mais um tema
que vocês precisam aprender.
O que seria isso?
Oh, ele é usado.
Ele é mais usado para comparar
a média de dois grupos
e determinar estatisticamente
se há diferença entre eles.
Então nós não temos duas bases de dados.
Vamos lembrar que é a base de dados
da análise da performance do sistema do antes
e a análise dos dados com a base de dados
do depois com a performance.
Se você olhar um a um, você
vai ver que está melhor mesmo.
Mas vamos deixar o R fazer isso para nós.
Então nós temos que fornecer
a base de dados,
o conjunto de dados do antes e do depois.
E aqui nós fazemos uma instrução
para dizer que nós estamos fazendo
uma comparação com duas bases de dados.
"Rafa, poderíamos fazer uma análise
com mais base de dados?"
Sim, poderíamos.
Aqui nós só estamos comparando duas.
E aí você fala: "Nossa, Rafa, saiu
um resultado um pouquinho extenso."
Calma aí que nós iremos
interpretá-lo, tudo bem?
Vem aqui comigo, por favor.
O que nós fizemos então?
Estamos indo interpretar aquele
resultado onde estão os comentários,
os dados do antes e do depois,
um primeiro teste
de hipótese que nós fizemos.
E aqui nós vamos imprimir esse
resultado do teste de hipótese,
que é o que acabamos de fazer.
Vou deixar só comentado, mas
vai se fazer a mesma saída, tá?
O que nós temos aqui então?
Como podemos interpretar?
"Você só mandou imprimir e colocou
o título aqui, que é o resto entregue."
E aí você tem que novamente focar
na análise da saída dos dados.
Tem esse p-value aqui, que é
um dos focos da nossa análise.
Se vocês voltarem para o começo aqui,
vocês podem tirar algumas análises
do que estamos buscando,
os intervalos de confiança,
usados para estimar a incerteza
associada à uma estimativa pontual.
O quanto temos a certeza,
ou incerteza, que isso está nos ajudando.
Então nós conseguimos fazer
com que a linguagem R
fizesse essa análise do tempo,
o antes e o depois.
Olhando antes da execução,
nós conseguimos ter a certeza.
Mas lembre-se sempre
no dia a dia do seu trabalho,
na sua vida pessoal, que você
vai precisar analisar dados
onde geralmente esse conjunto
de dados é muito maior.
Então utilize o R para que faça
essa análise por você.
E agora fica uma dica:
pense em um cenário,
algo da sua vida pessoal ou de algum
familiar seu, ou até mesmo da sua empresa,
que você tem esse conjunto
de dados do antes e o depois,
e você precisa fazer essa análise,
de preferência
um conjunto de dados até maior,
e aí tente executar esse script novamente,
buscando essa análise nos comentários,
e tente chegar no seu resultado.
Então você terá certeza que, na prática,
você consegue absorver
esse conhecimento.