-
Agora nós iremos falar sobre intervalo
de confiança e teste de hipóteses.
-
Para entender isso na prática
com a linguagem R,
-
se vocês verificarem no documento
que está disponível para vocês
-
sobre essa explicação,
trouxemos um case real.
-
Imagine que nós estamos trabalhando
em uma fábrica de software
-
e você se depara com a situação
de precisar melhorar a performance
-
dessa equipe de programadores.
-
Então, foi analisada essa possibilidade
de implementar uma melhoria,
-
foi descoberta uma ferramenta
para ajudar, e aí precisamos medir
-
como estava a performance antes
da implementação dessa ferramenta
-
e após a implementação dessa ferramenta.
-
Para verificar se após a implementação
da ferramenta ficou igual a performance,
-
se ficou pior, ou se alcançou o objetivo,
que era melhorar a performance,
-
nós precisamos analisar
esses dados, o antes e o depois.
-
E é essa a nossa proposta agora.
-
Vamos lá?
-
Aqui eu trago para vocês um resumo.
-
Como é uma hashtag que está aqui marcada,
não é considerada na execução do código, tá?
-
Então, caso você queira relembrar
ou queira ter um resumo aí na sua mão,
-
porque às vezes é um material um pouquinho
extenso, eu deixo aqui para vocês, tá bom?
-
E agora vamos precisar criar a nossa
situação, o cenário antes e depois.
-
Então nós temos aqui duas linhas
que nós vamos executar.
-
O que seria isso?
-
Eu vou copiar... Vamos fazer juntos aqui, tá?
-
Como funciona?
-
Deixe-me só tirar aqui esse
sinalzinho que nós copiamos ali.
-
Aqui é um comentário.
-
"Dados simulados,
linhas de código por hora
-
antes e depois da introdução dessa
ferramenta", para melhorar a performance.
-
E aí, para facilitar para vocês,
vamos deixar alinhados aqui:
-
Hora um, hora dois, hora três,
hora quatro, hora cinco,
-
hora seis, hora sete, e hora oito.
-
Se você olhar o depois aqui, você
já consegue ter essa certeza, né,
-
que a performance está sendo melhor.
-
Mas você não deve pensar que sempre
vai ser um cenário pequeno como esse,
-
num intervalo que você consiga
analisar apenas olhando para a tela.
-
Pode ser uma base
com uma análise de 300 horas.
-
Então você precisa sim
de uma linguagem como o R
-
para fazer essa análise por você, tá?
-
Nós já temos essa certeza, mas
vamos pedir para o R fazer essa análise?
-
Então primeiro nós vamos
criar essas variáveis.
-
Vamos imprimir só
para visualizar, como sempre.
-
Temos que ter uma garantia
que os dados foram armazenados.
-
"print(linhas_depois)".
-
Não erre, não pode digitar o nome errado,
senão ele não vai conseguir achar.
-
Eu vou apertar alguns
Enters aqui para facilitar
-
para ir para o meio da tela
para visualizarmos.
-
Então, legal, criamos a performance
das horas antes e depois.
-
Agora nós precisamos
fazer essa comparação.
-
Será que realmente performou mais?
-
Aqui, novamente, eu deixo um script
para vocês alguns comentários.
-
Agora nós vamos fazer
esse teste de hipóteses
-
para verificar
se a performance aumentou, tá?
-
E aqui, o que eu vou
interpretar com vocês,
-
eu deixei anotado aqui como
comentário, um resumo, tá?
-
"Então, qual a instrução, Rafa,
que vai ser executada agora?".
-
Olha quanto comentário.
-
É para poder entender a saída da execução.
-
"Como fica essa instrução, Rafa?"
-
Vamos apertar mais uns Enters aqui.
-
Agora aqui nós vamos pedir
para comparar o antes e o depois.
-
Como iremos fazer isso?
-
Temos uma variável aqui
chamada "resultado_test".
-
Você pode colocar o nome
que você quiser, como sempre.
-
Aqui nós temos uma primeira instrução,
que vocês tem que aprender agora: "t.teste".
-
Teste com "t" mudo porque é
uma instrução em inglês do R.
-
Se vocês buscarem aqui,
eu deixei anotado aqui
-
para vocês poderem estudar depois
ou fazer uma anotação, tá?
-
O que é o t.teste?
-
Ele é usado para comparar
o antes e o depois.
-
É ele que vai fazer essa análise
dos dados de antes e depois hora a hora.
-
Aqui nós temos temos que fornecer
o intervalo de valores.
-
Está aqui. Se chama "linha_antes".
-
Qual é o outro intervalo de valores?
-
É o "linha_depois".
-
E aqui, novamente, nós temos
que fazer uma outra instrução para ele,
-
Nessa instrução, nós vamos dizer assim:
-
"Os dados têm relação?".
-
Sim, é um dado que está
relacionado diretamente.
-
Eu tenho a informação hora a hora.
-
Eu só não sei se realmente
aumentou essa performance.
-
Olhando, nós sabemos, né?
-
Mas supondo que ainda não sabemos.
-
E aí você coloca true ou false.
-
Você coloca true quando
está relacionado diretamente.
-
Às vezes você pode querer comparar coisas
que não estão relacionadas diretamente.
-
Aí você colocaria o false.
-
Mas não é o nosso caso aqui.
-
Eu vou apertar o Enter.
-
Aí você fala: "Poxa, Rafa, mas e agora?
-
Cadê o resultado?".
-
Tudo o que nós iremos
analisar agora está aqui.
-
Agora você fala: "Rafa,
então vamos imprimir?".
-
Sim, vamos imprimir.
-
Como fazemos aqui?
-
Imprimir, você já sabe, né?
-
O valor dessa comparação foi
armazenado aqui dentro.
-
"print"...
-
"resultado"...
-
Aquela velha história, né, cuidado
para digitar corretamente o nome da variável.
-
E aí nós temos o resultado aqui.
-
Você vai falar: "Poxa Rafa, parte
do resultado está escrito em inglês
-
e tem alguns números da estatística".
-
Isso. Agora nós vamos comparar.
-
Eu vou explicar para vocês...
-
Eu vou subir um pouquinho.
-
Novamente, você pode dar uma pausa,
fazer a sua anotação nesse momento.
-
Eu acho bem rica essa parte
das anotações, desses comentários.
-
É como programar, sempre deixar o código
comentado para você entender.
-
O que nós precisamos
focar nesse retorno dessa análise?
-
Quanto de valor retornado nesse p-value.
-
"O que seria esse p-value, Rafa?"
-
Eu tenho aqui para vocês.
-
Se o valor desse p-value, que é esse
valor, o resultado final, for menor...
-
Eu deixei aqui anotado, olhe.
-
Menor que 0,05...
-
Sim, esse é um valor menor que 0,05.
-
Ele está mais distante aqui
do ponto da casa.
-
Quanto mais à direita ele está,
mais distante, então ele é menor.
-
Significa o quê?
-
Que há realmente uma diferença
significativa entre o antes e o depois.
-
"Ah,, então, Rafa, como
ele é menor que 0,05,
-
que é o que aconteceu aqui,
-
quer dizer que realmente
há uma diferença significativa
-
entre a performance do antes e o depois?"
-
Sim.
-
Então faz sentido a análise
que fizemos sem rodar o código.
-
Então ele refletiu o resultado
esperado para nós, tudo bem?
-
E agora conseguimos interpretar.
-
Nesse momento, o que você deve se preocupar
é com esse resultado, ver esse retorno,
-
se realmente há essa diferença.
-
Então ele atendeu.
-
Agora nós vamos para uma última parte.
-
Agora nós iremos para a última parte,
que é verificar não somente
-
se teve realmente significância
entre a performance do antes e o depois.
-
Isso nós já confirmamos.
-
Agora nós vamos ver a assertividade,
-
o quanto está mais assertivo
esse retorno que ele nos deu.
-
Eu lembro a vocês que agora nós fizemos
com uma base bem pequena de dados.
-
Fizemos ali só em oito horas de análise, hora
a hora, então oito dados antes e depois.
-
Mas vocês sempre têm que lembrar
-
que, quando estamos falando
da ciência dos dados,
-
pode ser algo muito maior,
uma análise de 300 horas,
-
300 dados antes e 300 depois.
-
Então não tem como você fazer uma análise
observando apenas os valores.
-
Você tem que pedir para uma ferramenta
-
ou para uma linguagem como o R,
para fazer isso por você.
-
Vamos ver o quanto realmente
está fazendo sentido,
-
ou qual o nível de confiança desse
retorno do que foi processado?:
-
Vem comigo aqui.
-
Então nós vamos para a última parte.
-
Como sempre, eu deixo aqui
para vocês um breve resumo
-
para que vocês depois consigam,
e eu até recomendo,
-
pausar ou voltar o vídeo para verificar
essas observações que eu deixei para vocês.
-
Aqui nós vamos fazer duas instruções.
-
Nós temos aqui essa primeira,
que nós vamos pedir para ele
-
calcular e depois para mostrar.
-
Vamos lá?
-
Deixe-me copiar aqui para baixo
ou apertar mais alguns Enters
-
para ficar bem dividido a tela
para não confundir vocês.
-
Eu falo que essa área que programamos
-
tem que ser um pouco limpa
para facilitar a interpretação.
-
Agora vou colar aqui para vocês.
-
Deixe-me apagar.
-
Eu não vou executar sem antes explicar.
-
O que nós vamos fazer então?
-
Como sempre,
criar uma variável para receber
-
ou armazenar o valor dessa execução.
-
E aqui nós temos "resultado_teste".
-
"Que variável é essa, Rafa?"
-
Eu vou voltar um pouquinho.
-
"resultado_teste" é quando nós pedimos
para ele fazer a comparação
-
do antes e o depois,
que saiu esse resultado.
-
"Ah, legal, Rafa! Lembrei."
-
Aí você fala: "Rafa, mais uma instrução
você vai nos ensinar agora?"
-
Sim.
-
Essa aqui também é conhecida
como cifrão ou dólar,
-
como vocês quiserem falar aí
na área da programação, "conf.int".
-
"Rafa, esse daí eu ainda não vi com você.
-
Tudo bem?
-
Vamos dar uma olhadinha aqui.
-
Como sempre, eu deixo anotado para vocês
essas observações
-
para facilitar
depois na hora da interpretação.
-
Não dei mancada novamente. Está aqui.
-
Então é aquele momento que se eu fosse
você dava uma pausa no vídeo
-
para deixar anotado no seu caderno
que é o cofre Ponto int.
-
Ele é usado que para acessar
o intervalo de confiança da nossa análise
-
de novo,
nós vamos querer que ele pegue aqui
-
esse resultado
que foi projetado anteriormente
-
e agora nós vamos projetar
uma outra execução sobre ele.
-
Olha aqui
e ele vai gerar uma análise estatística,
-
que é o que a nossa análise
descritiva legal.
-
Então eu vou pedir para ele
fazer essa análise, armazenar o valor aqui
-
e aí depois, como sempre,
nós iremos visualizar ele.
-
Mas você fala Rafa,
essa visualização não está simples não.
-
Vou trazer mais uma coisa aqui pra nossa
conversa, para nossa aula de agora
-
é só o texto Intervalo de confiança
para a diferença média
-
é que nós trouxemos aqui o intervalo
-
onde ele confia carro ou confiança.
-
Um A confiança dois Vou apertar o enter,
-
deixa eu mostrar o resultado
e vocês vão entender.
-
Então nós temos aqui isso é um texto
que sai, um texto simples saiu aqui.
-
Esse é um intervalo de confiança de quanto
a quanto isso é aderência de confiança.
-
Esse é um modelo confiável.
-
Ele vai de -23,56.
-
Aqui é da onde ele parte,
até aonde ele vai, até aonde ele vai.
-
E dois Percebam que vocês criaram
a variável com nome intervalo, confiança,
-
da onde ele inicia você coloca um
-
e dá onde ele termina,
até onde ele vai e o dois.
-
E esse é o intervalo de confiança
desse modelo de análise
-
que nós acabamos de processar.
-
O que eu espero com isso?
-
Eu espero que agora vocês tenham entendido
como que é isso,
-
e vamos dizer, real não,
mas com certeza isso existe.
-
Quando você trabalha uma empresa,
por exemplo, uma fábrica de software,
-
as vezes a performance da equipe
não está muito boa no desenvolvimento
-
e aí alguém vai fazer uma análise,
implementa uma melhoria
-
e depois eles querem medir para saber
se após a implementação da melhoria
-
a performance da equipe aumentou.
-
E aí,
quem vai nos ajudar a fazer essa análise?
-
A linguagem é
com a parte de estatística e.