-
Agora nós iremos falar sobre intervalo
de confiança e teste de hipóteses.
-
Para entender isso na prática
com a linguagem R,
-
se vocês verificarem no documento
que está disponível para vocês
-
sobre essa explicação,
trouxemos um case real.
-
Imagine que nós estamos trabalhando
em uma fábrica de software
-
e você se depara com a situação
de precisar melhorar a performance
-
dessa equipe de programadores.
-
Então, foi analisada essa possibilidade
de implementar uma melhoria,
-
foi descoberta uma ferramenta
para ajudar, e aí precisamos medir
-
como estava a performance antes
da implementação dessa ferramenta
-
e após a implementação dessa ferramenta.
-
Para verificar se após a implementação
da ferramenta ficou igual a performance,
-
se ficou pior, ou se alcançou o objetivo,
que era melhorar a performance,
-
nós precisamos analisar
esses dados, o antes e o depois.
-
E é essa a nossa proposta agora.
-
Vamos lá?
-
Aqui eu trago para vocês um resumo.
-
Como é uma hashtag que está aqui marcada,
não é considerada na execução do código, tá?
-
Então, caso você queira relembrar
ou queira ter um resumo aí na sua mão,
-
porque às vezes é um material um pouquinho
extenso, eu deixo aqui para vocês, tá bom?
-
E agora vamos precisar criar a nossa
situação, o cenário antes e depois.
-
Então nós temos aqui duas linhas
que nós vamos executar.
-
O que seria isso?
-
Eu vou copiar...
Vamos fazer juntos aqui, tá?
-
Como funciona?
-
Deixe-me só tirar aqui esse
sinalzinho que nós copiamos.
-
Aqui é um comentário:
-
"Dados simulados,
linhas de código por hora
-
antes e depois da introdução dessa
ferramenta", para melhorar a performance.
-
E aí, para facilitar para vocês,
vamos deixar alinhados aqui:
-
hora um, hora dois, hora três,
hora quatro, hora cinco,
-
hora seis, hora sete, e hora oito.
-
Se você olhar depois aqui, você
já consegue ter essa certeza, né,
-
que a performance está sendo melhor.
-
Mas você não deve pensar que sempre
vai ser um cenário pequeno como esse,
-
de um intervalo que você consiga
analisar apenas olhando para a tela.
-
Pode ser uma base
com uma análise de 300 horas.
-
Então você precisa sim
de uma linguagem como o R
-
para fazer essa análise por você, tá?
-
Nós já temos essa certeza, mas
vamos pedir para o R fazer essa análise?
-
Então primeiro nós vamos
criar essas variáveis.
-
Vamos imprimir só
para visualizar, como sempre.
-
Temos que ter uma garantia
que os dados foram armazenados.
-
"print(linhas_depois)".
-
Não erre, não pode digitar o nome errado,
senão ele não vai conseguir achar.
-
Eu vou apertar alguns
Enters aqui para facilitar,
-
e ir para o meio da tela
para visualizarmos.
-
Então, legal, criamos a performance
das horas antes e depois.
-
Agora nós precisamos
fazer essa comparação.
-
Será que realmente performou mais?
-
Aqui, novamente, eu deixo um script
para vocês, alguns comentários.
-
Agora nós vamos fazer
esse teste de hipóteses
-
para verificar
se a performance aumentou, tá?
-
E aqui, o que eu vou
interpretar com vocês,
-
eu deixei anotado aqui como
comentário, um resumo, tá?
-
"Então, qual a instrução, Rafa,
que vai ser executada agora?".
-
Olha quanto comentário.
-
É para poder entender a saída da execução.
-
"Como fica essa instrução, Rafa?"
-
Vamos apertar mais uns Enters aqui.
-
Agora aqui nós vamos pedir
para comparar o antes e o depois.
-
Como iremos fazer isso?
-
Temos uma variável aqui
chamada "resultado_test".
-
Você pode colocar o nome
que você quiser, como sempre.
-
Aqui nós temos uma primeira instrução,
que vocês têm que aprender agora: "t.teste".
-
Teste com "t" mudo porque é
uma instrução em inglês do R.
-
Se vocês buscarem aqui, eu deixei anotado
-
para vocês poderem estudar depois
ou fazer uma anotação, tá?
-
O que é o t.teste?
-
Ele é usado para comparar
o antes e o depois.
-
É ele que vai fazer essa análise dos dados
de antes e depois, hora a hora.
-
Aqui nós temos que fornecer
o intervalo de valores.
-
Está aqui. Se chama "linhas_antes".
-
Qual é o outro intervalo de valores?
-
É o "linhas_depois".
-
E aqui, novamente, nós temos
que fazer uma outra instrução para ele.
-
Nessa instrução, nós vamos dizer assim:
-
"Os dados têm relação?".
-
Sim, é um dado que está
relacionado diretamente.
-
Eu tenho a informação hora a hora,
-
eu só não sei se realmente
aumentou essa performance.
-
Olhando, nós sabemos, né?
-
Mas supondo que ainda não sabemos.
-
E aí você coloca true ou false.
-
Você coloca true quando
está relacionado diretamente.
-
Às vezes você pode querer comparar coisas
que não estão relacionadas diretamente.
-
Aí você colocaria o false.
-
Mas não é o nosso caso aqui.
-
Eu vou apertar o Enter.
-
Aí você fala: "Poxa, Rafa, mas e agora?
-
Cadê o resultado?".
-
Tudo o que nós iremos
analisar agora está aqui.
-
Agora você fala: "Rafa,
então vamos imprimir?".
-
Sim, vamos imprimir.
-
Como fazemos aqui?
-
Imprimir, você já sabe, né?
-
O valor dessa comparação foi
armazenado aqui dentro.
-
"print"...
-
"resultado"...
-
Aquela velha história, né, cuidado
para digitar corretamente o nome da variável.
-
E aí nós temos o resultado aqui.
-
Você vai falar: "Poxa Rafa, parte
do resultado está escrito em inglês
-
e tem alguns números da estatística".
-
Isso. Agora nós vamos comparar.
-
Eu vou explicar para vocês...
-
Eu vou subir um pouquinho.
-
Novamente, você pode dar uma pausa,
fazer a sua anotação nesse momento.
-
Eu acho bem rica essa parte
das anotações, desses comentários.
-
É como programar, sempre deixar o código
comentado para você entender.
-
O que nós precisamos
focar nesse retorno dessa análise?
-
Quanto de valor retornado nesse p-value.
-
"O que seria esse p-value, Rafa?"
-
Eu tenho aqui para vocês.
-
Se o valor desse p-value, que é esse
valor, o resultado final, for menor...
-
Eu deixei aqui anotado, olhe.
-
Menor que 0,05...
-
Sim, esse é um valor menor que 0,05.
-
Ele está mais distante aqui
do ponto da casa.
-
Quanto mais à direita ele está,
mais distante, então ele é menor.
-
Significa o quê?
-
Que há realmente uma diferença
significativa entre o antes e o depois.
-
"Ah, então, Rafa, como
ele é menor que 0,05,
-
que é o que aconteceu aqui,
-
quer dizer que realmente
há uma diferença significativa
-
entre a performance do antes e o depois?"
-
Sim.
-
Então faz sentido a análise
que fizemos sem rodar o código.
-
Então ele refletiu o resultado
esperado para nós, tudo bem?
-
E agora conseguimos interpretar.
-
Nesse momento, o que você deve se preocupar
é com esse resultado, ver esse retorno,
-
se realmente há essa diferença.
-
Então ele atendeu.
-
Agora nós vamos para uma última parte.
-
Agora nós iremos para a última parte,
que é verificar não somente
-
se teve realmente significância entre
a performance do antes e o depois.
-
Isso nós já confirmamos.
-
Agora nós vamos ver a assertividade,
-
o quanto está mais assertivo
esse retorno que ele nos deu.
-
Eu lembro a vocês que agora nós fizemos
com uma base bem pequena de dados.
-
Fizemos ali só em oito horas de análise,
hora a hora, então oito dados antes e depois.
-
Mas vocês sempre têm que lembrar
-
que, quando estamos falando
da ciência dos dados,
-
pode ser algo muito maior,
uma análise de 300 horas,
-
300 dados antes e 300 depois.
-
Então não tem como você fazer uma análise
observando apenas os valores.
-
Você tem que pedir para uma ferramenta,
-
ou para uma linguagem como o R,
para fazer isso por você.
-
Vamos ver o quanto realmente
está fazendo sentido,
-
ou qual o nível de confiança desse
retorno do que foi processado?
-
Vem comigo aqui.
-
Então nós vamos para a última parte.
-
Como sempre, eu deixo aqui
para vocês um breve resumo
-
para que vocês depois consigam,
e eu até recomendo,
-
pausar ou voltar o vídeo para verificar
essas observações que eu deixei para vocês.
-
Aqui nós vamos fazer duas instruções.
-
Nós temos aqui essa primeira,
que nós vamos pedir para ele calcular,
-
e depois para mostrar.
-
Vamos lá?
-
Deixe-me copiar aqui para baixo
ou apertar mais alguns Enters
-
para ficar bem dividido a tela
para não confundir vocês.
-
Eu falo que essa área que programamos
-
tem que ser um pouco limpa
para facilitar a interpretação.
-
Agora vou colar aqui para vocês.
-
Deixe-me apagar.
-
Eu não vou executar sem antes explicar.
-
O que nós vamos fazer então?
-
Como sempre, criar
uma variável para receber
-
ou armazenar o valor dessa execução.
-
E aqui nós temos "resultado_teste".
-
"Que variável é essa, Rafa?"
-
Eu vou voltar um pouquinho.
-
"resultado_teste" é quando nós pedimos
para ele fazer a comparação
-
do antes e o depois,
que saiu esse resultado.
-
"Ah, legal, Rafa! Lembrei."
-
Aí você fala: "Rafa, mais uma instrução
você vai nos ensinar agora?"
-
Sim.
-
Essa aqui também é conhecida
como cifrão ou dólar,
-
como vocês quiserem falar aí
na área da programação, "conf.int".
-
"Rafa, esse aí eu ainda não vi com você."
-
Tudo bem. Vamos dar uma olhadinha aqui.
-
Como sempre, eu deixo anotado
para vocês essas observações
-
para facilitar depois
na hora da interpretação.
-
Não dei mancada novamente. Está aqui.
-
Então, é aquele momento que, se eu
fosse você, dava uma pausa no vídeo
-
para deixar anotado no seu caderno.
-
O que é o conf.int?
-
Ele é usado para acessar o intervalo
de confiança da nossa análise.
-
Vamos descer de novo.
-
Nós vamos querer que ele pegue aqui esse
resultado que foi projetado anteriormente.
-
E agora nós vamos projetar uma outra
execução sobre ele, olha aqui.
-
E ele vai gerar uma análise estatística,
-
que é a nossa análise descritiva.
-
Então eu vou pedir para ele fazer
essa análise, armazenar o valor aqui,
-
e aí depois, como sempre,
nós iremos visualizá-lo.
-
Aí você fala: "Rafa, essa
visualização não está simples."
-
Não. Eu vou trazer mais uma coisa
aqui para a nossa conversa,
-
para a nossa aula de agora.
-
Isso é um texto, olhe: "Intervalo
de confiança para a diferença média".
-
E o que nós trouxemos aqui?
-
"intervalo_confianca[1],
"a", intervalo_confianca[2]".
-
Vou apertar o Enter.
-
Deixe-me mostrar o resultado
e aí vocês vão entender.
-
Então nós temos aqui um texto,
um texto simples que saiu aqui.
-
Esse é um intervalo de confiança, de quanto
a quanto é aderência de confiança.
-
Esse é um modelo confiável.
-
Ele vai de -23.56...
-
Aqui é de onde ele parte
até onde ele vai.
-
Até onde ele vai, é 2.
-
Percebam que vocês criaram a variável
com nome intervalo_confianca.
-
De onde ele inicia, você coloca o 1,
-
e dá onde ele termina
até onde ele vai, é o 2.
-
E esse é o intervalo de confiança
desse modelo de análise
-
que nós acabamos de processar.
-
O que eu espero com isso?
-
Eu espero que agora
vocês tenham entendido.
-
Com um case real? Não.
-
Mas com certeza isso existe.
-
Quando você trabalha numa empresa,
numa fábrica de software, por exemplo,
-
às vezes a performance da equipe
não está muito boa no desenvolvimento
-
e aí alguém vai fazer uma análise,
implementa uma melhoria,
-
e depois eles querem medir para saber
se após a implementação da melhoria
-
a performance da equipe aumentou.
-
E aí, quem vai nos ajudar a fazer essa análise?
-
A linguagem R com a parte de estatística.