-
Uma das maneiras
de se aprender é na prática.
-
E agora nós temos um case para trazer aqui
-
onde nós iremos conseguir executar
a partir de hipóteses e intervalos.
-
Pense no cenário:
-
vocês têm um sistema que não
está performando muito bem,
-
e aí é feita uma análise, são
coletados os dados de hora em hora
-
para saber como está
a performance daquele sistema.
-
Então é estudado e verificado que existe
a possibilidade de se melhorar o algoritmo,
-
Essas melhorias do algoritmo
são implementadas, e, posteriormente,
-
são novamente coletados os dados
com relação à performance do sistema.
-
Então você tem o antes e o depois.
-
Se você tem o antes e o depois
dos dados, você pode comparar.
-
Se for um intervalo bem pequeno,
talvez você consiga comparar olhando.
-
Mas imagine numa situação
real em uma empresa,
-
onde um sistema fica processando
durante 24 horas durante um mês,
-
quantos dados você tem ali
para fazer essa comparação?
-
Então vamos fazer isso aqui na prática.
-
Eu deixei um script pré-pronto,
sempre daquela maneira,
-
deixando essa parte com a hashtag,
-
que é um resumo teórico
do que nós iremos analisar,
-
até mesmo algumas explicações
um pouco mais técnicas,
-
ou com a parte de estatística.
-
Então aqui nós temos duas bases de dados.
-
Se apertarmos um Enter,
isso vai ser executado.
-
Mas sempre gostamos de fazer na prática.
-
Vamos apertar o Enter aqui, e iremos
copiar essas duas bases de dados.
-
"Rafa, por que você traz pronto?"
-
Para não precisar criar agora
dois conjuntos de dados.
-
Eu vou limpar aqui.
-
Vamos interpretar o que nós temos, tá?
-
Olhe, esses são os dados para a análise.
-
Opa! Vou tirar esse sinalzinho aqui.
-
Então, antes da implementação
do algoritmo,
-
vamos supor que foi analisado.
-
Nós temos aqui a hora um,
hora dois, hora três, hora quatro,
-
hora cinco, hora seis,
hora sete, e hora oito.
-
Então, antes de implementar
essa melhoria no algoritmo,
-
esses eram os valores
dos tempos de execução.
-
Vamos supor em segundos?
-
E aí foi implementada a melhoria
e fizeram uma nova coleta de dados.
-
E aí, em segundos, quanto tempo demorou.
-
"Se você olhar aqui, Rafa,
não precisa nem processar.
-
Já fica visível que sim, está melhor."
-
Mas lembre-se que, no dia a dia,
-
você geralmente tem um conjunto
de dados muito maior.
-
Então, se você for fazer análise no papel,
você vai demorar muitas horas.
-
E aqui, o mesmo script
que nós vamos executar agora,
-
serve para um conjunto pequeno de dados
como esse ou para um conjunto muito maior.
-
Vamos ver como fica.
-
Então nós vamos apertar um Enter.
-
Não é obrigatório, mas é sempre
legal você visualizar os dados
-
para confirmar que está tudo certinho.
-
Criamos o tempo antes e pedimos
para mostrar o tempo antes.
-
Vamos apertar dois Enters aqui.
-
Print, e vamos mostrá-lo.
-
De novo, você pode digitar tempos_depois
-
ou você pode utilizar a sugestão dele,
olhe, para cima, e vou apertar o Enter.
-
Então nós criamos aqui o antes e o depois.
-
Legal!
-
Vamos subir um pouquinho.
-
Então novamente, aquela velha dica:
-
se tem alguma dúvida
das análises que iremos fazer,
-
fica um resumo aqui para vocês.
-
Pode pausar e anotar.
-
Aqui são os dois dados, os dois conjuntos
de dados, que acabamos de criar.
-
E agora nós vamos para uma próxima parte.
-
"Rafa, tem mais comentário
aí do que execução."
-
Sim, é sempre legal
vocês terem esse resumo.
-
Eu gosto de deixar um resumo para vocês.
-
Eu vou dar um Enter aqui
para a tela ficar um pouco limpa.
-
Deixe-me só arrumar aqui.
-
Só um minuto.
-
O que nós temos aqui?
-
A primeira aqui é o título, né,
"realizando o teste de hipóteses".
-
E aqui nós temos o que nós
queremos analisar.
-
Eu vou apertar o Enter e vou imprimir,
e aí nós vamos interpretar juntos, tudo bem?
-
"teste_hipotese".
-
"Que construção é essa, Rafa, que você
executou e ainda não ensinou?"
-
Vamos tentar entender o que está aqui.
-
Vamos tentar, não.
-
Vamos entender, né?
-
teste_hipotese" é
um nome de uma variável.
-
Aí sinal de menor, tracinho.
-
Então o que acontecer aqui será
atribuído para dentro dessa variável.
-
"t.test" é mais um tema
que vocês precisam aprender.
-
O que seria isso?
-
Ele é mais usado para comparar
a média de dois grupos
-
e determinar estatisticamente
se há diferença entre eles.
-
Então nós não temos duas bases de dados?
-
Vamos lembrar: base de dados da análise
da performance do sistema do antes
-
e a análise dos dados com a base de dados
do depois com a performance.
-
Se você olhar um a um, você
vai ver que está melhor mesmo.
-
Mas vamos deixar o R fazer isso para nós.
-
Então nós temos que fornecer
a base de dados,
-
o conjunto de dados do antes e do depois.
-
E aqui nós fazemos uma instrução
para dizer que nós estamos fazendo
-
uma comparação com duas bases de dados.
-
"Rafa, poderíamos fazer uma análise
com mais base de dados?"
-
Sim, poderíamos.
-
Aqui nós só estamos comparando duas.
-
E aí você fala: "Nossa, Rafa, saiu
um resultado um pouquinho extenso."
-
Calma aí que nós iremos
interpretá-lo, tudo bem?
-
Vem aqui comigo, por favor.
-
O que nós fizemos então?
-
Nós ainda precisamos
interpretar aquele resultado, né?
-
Aqui estão os comentários,
os dados do antes e do depois...
-
Um primeiro teste
de hipótese que nós fizemos,
-
e aqui nós vamos imprimir esse
resultado do teste de hipótese,
-
que é o que acabamos de fazer.
-
Vou deixar só comentado, mas
vai se fazer a mesma saída, tá?
-
O que nós temos aqui então?
-
"Como podemos interpretar, Rafa?
-
Você só mandou imprimir e colocou
um título aqui, que é a hashtag."
-
Aí você tem que novamente focar
na análise da saída dos dados.
-
Tem esse p-value aqui, que é
um dos focos da nossa análise.
-
Se vocês voltarem para o começo aqui,
-
vocês podem tirar algumas análises
do que estamos buscando, né?
-
Olhe: "Os intervalos
de confiança são usados
-
para estimar a incerteza associada
a uma estimativa pontual".
-
O quanto temos a certeza,
ou incerteza, que isso está nos ajudando.
-
Então nós conseguimos fazer
com que a linguagem R
-
fizesse essa análise do tempo
o antes e do depois.
-
Olhando antes da execução,
nós conseguimos ter a certeza.
-
Mas lembre-se sempre
no dia a dia do seu trabalho,
-
na sua vida pessoal, que você
vai precisar analisar dados
-
onde geralmente esse conjunto
de dados é muito maior.
-
Então utilize o R para que faça
essa análise por você.
-
E agora fica uma dica:
pense em um cenário,
-
algo da sua vida pessoal ou de algum
familiar seu, ou até mesmo da sua empresa,
-
onde você tenha esse conjunto
de dados do antes e do depois,
-
e você precisa fazer essa análise,
-
de preferência um conjunto
de dados até maior.
-
E aí tente executar esse script novamente
-
buscando essa análise dos comentários,
e tente chegar no seu resultado.
-
Então você terá certeza que, na prática,
-
você consegue absorver
esse conhecimento.