-
Agora nós iremos falar sobre intervalo
de confiança e teste de hipóteses.
-
Para entender isso na prática
com a linguagem R,
-
se vocês verificarem no documento
que está disponível para vocês
-
sobre essa explicação,
trouxemos um case real.
-
Imagine que nós estamos trabalhando
em uma fábrica de software
-
e você se depara com a situação
de precisar melhorar a performance
-
dessa equipe de programadores.
-
Então, foi analisada essa possibilidade
de implementar uma melhoria,
-
foi descoberta uma ferramenta
para ajudar, e aí precisamos medir
-
como estava a performance antes
da implementação dessa ferramenta
-
e após a implementação dessa ferramenta.
-
Para verificar se após a implementação
da ferramenta ficou igual a performance,
-
se ficou pior, ou se alcançou o objetivo,
que era melhorar a performance,
-
nós precisamos analisar
esses dados, o antes e o depois.
-
E é essa a nossa proposta agora.
-
Vamos lá?
-
Aqui eu trago para vocês um resumo.
-
Como é uma hashtag que está aqui marcada,
não é considerada na execução do código, tá?
-
Então, caso você queira relembrar
ou queira ter um resumo aí na sua mão,
-
porque às vezes é um material um pouquinho
extenso, eu deixo aqui para vocês, tá bom?
-
E agora vamos precisar criar a nossa
situação, o cenário antes e depois.
-
Então nós temos aqui duas linhas
que nós vamos executar.
-
O que seria isso?
-
Eu vou copiar... Vamos fazer juntos aqui, tá?
-
Como funciona?
-
Deixe-me só tirar aqui esse
sinalzinho que nós copiamos ali.
-
Aqui é um comentário.
-
"Dados simulados,
linhas de código por hora
-
antes e depois da introdução dessa
ferramenta", para melhorar a performance.
-
E aí, para facilitar para vocês,
vamos deixar alinhados aqui:
-
Hora um, hora dois, hora três,
hora quatro, hora cinco,
-
hora seis, hora sete, e hora oito.
-
Se você olhar o depois aqui, você
já consegue ter essa certeza, né,
-
que a performance está sendo melhor.
-
Mas você não deve pensar que sempre
vai ser um cenário pequeno como esse,
-
num intervalo que você consiga
analisar apenas olhando para a tela.
-
Pode ser uma base
com uma análise de 300 horas.
-
Então você precisa sim
de uma linguagem como o R
-
para fazer essa análise por você, tá?
-
Nós já temos essa certeza, mas
vamos pedir para o R fazer essa análise?
-
Então primeiro nós vamos
criar essas variáveis.
-
Vamos imprimir só
para visualizar, como sempre.
-
Temos que ter uma garantia
que os dados foram armazenados.
-
"print(linhas_depois)".
-
Não erre, não pode digitar o nome errado,
senão ele não vai conseguir achar.
-
Eu vou apertar alguns
Enters aqui para facilitar
-
para ir para o meio da tela
para visualizarmos.
-
Então, legal, criamos a performance
das horas antes e depois.
-
Agora nós precisamos
fazer essa comparação.
-
Será que realmente performou mais?
-
Aqui, novamente, eu deixo um script
para vocês alguns comentários.
-
Agora nós vamos fazer
esse teste de hipóteses
-
para verificar
se a performance aumentou, tá?
-
E aqui, o que eu vou
interpretar com vocês,
-
eu deixei anotado aqui como
comentário, um resumo, tá?
-
"Então, qual a instrução, Rafa,
que vai ser executada agora?".
-
Olha quanto comentário.
-
É para poder entender a saída da execução.
-
"Como fica essa instrução, Rafa?"
-
Vamos apertar mais uns Enters aqui.
-
Agora aqui nós vamos pedir
para comparar o antes e o depois.
-
Como iremos fazer isso?
-
Temos uma variável aqui
chamada "resultado_test".
-
Você pode colocar o nome
que você quiser, como sempre.
-
Aqui nós temos uma primeira instrução,
que vocês tem que aprender agora: "t.teste".
-
Teste com "t" mudo porque é
uma instrução em inglês do R.
-
Se vocês buscarem aqui,
eu deixei anotado aqui
-
para vocês poderem estudar depois
ou fazer uma anotação, tá?
-
O que que é o ponto teste?
-
Ele é usado para comparar o antes
e o depois.
-
É ele que vai fazer as análises dos dados
de antes e o depois.
-
Ora, a hora aqui que nós temos
temos que fornecer
-
qual que é o intervalo de valores
para que ele chama a linha antes?
-
Qual que é o outro intervalo de valores
e o linha depois?
-
E aqui novamente nós temos que fazer
uma outra instrução para ele,
-
que aqui nessa instrução
nós vamos dizer assim ó, os dados,
-
eles tem relação sim, é um dado que
está relacionado diretamente.
-
Eu tenho a informação hora a hora.
-
Eu só não sei
se realmente aumentou essa performance.
-
Olhando nós sabemos,
mas supondo que não sabemos ainda.
-
E aí você coloca true
-
ou false, você coloca true
quando está relacionado diretamente.
-
Às vezes você pode estar querendo
comparar coisas
-
que elas não estão relacionadas
diretamente.
-
Aí você colocaria o false, mas
não no nosso caso aqui vou apertar enter.
-
Aí você fala Poxa, mas e agora?
-
Cadê o resultado?
-
Tudo o que nós iremos analisar agora tá,
-
tá aqui agora você fala Rafa,
Então vamos imprimir sim, vamos imprimir.
-
Como que a gente faz aqui?
-
Primeiro você já sabe o valor dessa comparação foi armazenado aqui dentro print.
-
Resultado
-
aquela velha história
cuidado para digitar correta
-
o nome da variável e aí
nós temos o resultado aqui.
-
Poxa Rafa, parte do resultado
está escrito em inglês
-
e tem alguns números da estatística. Isso.
-
Agora nós vamos comparar o que eu vou
explicar para vocês.
-
Eu vou subir um pouquinho novamente
até conseguir
-
às vezes dar uma pausa,
fazer a formatação.
-
Nesse momento, eu acho bem rica essa parte
dessas anotações, desses comentários.
-
É como sempre programar
deixar o código comentado para você
-
entender o que precisamos focar
nesse retorno dessa análise,
-
o quanto foi o valor retornado nesse value-p,
-
o que seria esse valor-p e Rafa
tem aqui para vocês.
-
Se o valor desse P vale,
o que é esse valor do resultado final?
-
For menor?
-
Eu deixei aqui anotado.
-
Menor que 0,05 menor que 0,05.
-
Sim, esse é um valor menor que 0,05.
-
Ele está mais distante aqui
do ponto da causa.
-
Quanto mais à direita ele está, mais
distante, então ele é menor.
-
Significa o quê?
-
Que há realmente uma diferença
significativa entre o antes e o depois?
-
Ai então o Rafa, como ele é
-
menor que 0,05, que é o que aconteceu
aqui,
-
quer dizer realmente
que há uma diferença significativa
-
entre a performance do antes
e o depois? Sim,
-
então faz sentido a nossa análise
que nós fizemos sem rodar o código.
-
Então ele refletiu o resultado
esperado pra nós.
-
Tudo bem.
-
E aí agora a gente conseguiu interpretar
nesse momento o que você deve se preocupar
-
é esse resultado para ver esse retorno,
se há realmente essa diferença teoria.
-
Entendeu?
-
Agora nós vamos para uma última parte.
-
Agora nós iremos para a última parte,
que é verificar não somente
-
se teve realmente significância
entre a performance do antes e o depois.
-
Isso nós já confirmamos.
-
Agora nós vamos ver a assertividade
o quanto isso está mais assertivo.
-
Esse retorno que nos deu.
-
Eu lembro a vocês que agora nós fizemos
com uma base bem pequena de dados,
-
fizemos ali só em 08h00 de análise, hora
a hora, então oito dados antes e depois.
-
Mas vocês tem sempre que lembrar
-
quando estamos falando aqui
da ciência do dado, dos dados,
-
pode ser algo muito maior
uma análise de 300 horas,
-
300 dados antes e 300 depois.
-
Então não tem como você fazer uma análise
observando apenas os valores.
-
Você tem que pedir para uma ferramenta
-
ou uma linguagem como R
para fazer isso por você.
-
Vamos ver o quanto realmente está fazendo
sentido ou A
-
com o nível de confiança desse retorno
do que foi processado.
-
Vem comigo aqui,
nós vamos para a última parte.
-
Como sempre,
-
eu deixo aqui para vocês um breve resumo
para que vocês depois consigo.
-
Até recomendo na sequência
pausar ou voltar o vídeo
-
para verificar essas observações
que eu deixei para vocês.
-
Aqui nós vamos fazer duas instruções.
-
Nós temos aqui
essa primeira que nós vamos pedir para ele
-
calcular e depois para mostrar.
-
Vamos lá, deixa eu copiar aqui para baixo
ou apertar mais alguns
-
entre os aqui para ficar bem
dividido a tela para não confundir vocês.
-
Até mesmo aqui eu falo aqui
essa área que a gente programa,
-
a gente tem que ter um pouco limpa
para facilitar a interpretação.
-
Agora vou colar aqui para vocês.
-
Deixa eu apagar,
eu não vou executar sem antes explicar.
-
Então o que nós vamos fazer?
-
Como sempre,
criar uma variável para receber
-
ou armazenar o valor dessa execução.
-
E aqui nós temos o que o resultado?
-
Underline teste.
-
Que variável é essa?
-
Rafa, eu vou voltar um pouquinho
o resultado do teste
-
e quando nós pedimos para ele fazer
-
a comparação, lembra do antes
e o depois que saiu esse resultado?
-
Ah, legal Rafa, Lembre aí
você fala Rafa, mais uma instrução
-
você vai nos ensinar agora sim,
essa daqui também conhecido como
-
cifrão ou dólar, como vocês
queiram falar aí na hora da programação.
-
Conf ponto int.
-
Rafa, esse daí eu ainda não vi com você.
-
Tudo bem?
-
Vamos dar uma olhadinha aqui.
-
Como sempre, eu deixo anotado para vocês
essas observações
-
para facilitar
depois na hora da interpretação.
-
Não dei mancada novamente. Está aqui.
-
Então é aquele momento que se eu fosse
você dava uma pausa no vídeo
-
para deixar anotado no seu caderno
que é o cofre Ponto int.
-
Ele é usado que para acessar
o intervalo de confiança da nossa análise
-
de novo,
nós vamos querer que ele pegue aqui
-
esse resultado
que foi projetado anteriormente
-
e agora nós vamos projetar
uma outra execução sobre ele.
-
Olha aqui
e ele vai gerar uma análise estatística,
-
que é o que a nossa análise
descritiva legal.
-
Então eu vou pedir para ele
fazer essa análise, armazenar o valor aqui
-
e aí depois, como sempre,
nós iremos visualizar ele.
-
Mas você fala Rafa,
essa visualização não está simples não.
-
Vou trazer mais uma coisa aqui pra nossa
conversa, para nossa aula de agora
-
é só o texto Intervalo de confiança
para a diferença média
-
é que nós trouxemos aqui o intervalo
-
onde ele confia carro ou confiança.
-
Um A confiança dois Vou apertar o enter,
-
deixa eu mostrar o resultado
e vocês vão entender.
-
Então nós temos aqui isso é um texto
que sai, um texto simples saiu aqui.
-
Esse é um intervalo de confiança de quanto
a quanto isso é aderência de confiança.
-
Esse é um modelo confiável.
-
Ele vai de -23,56.
-
Aqui é da onde ele parte,
até aonde ele vai, até aonde ele vai.
-
E dois Percebam que vocês criaram
a variável com nome intervalo, confiança,
-
da onde ele inicia você coloca um
-
e dá onde ele termina,
até onde ele vai e o dois.
-
E esse é o intervalo de confiança
desse modelo de análise
-
que nós acabamos de processar.
-
O que eu espero com isso?
-
Eu espero que agora vocês tenham entendido
como que é isso,
-
e vamos dizer, real não,
mas com certeza isso existe.
-
Quando você trabalha uma empresa,
por exemplo, uma fábrica de software,
-
as vezes a performance da equipe
não está muito boa no desenvolvimento
-
e aí alguém vai fazer uma análise,
implementa uma melhoria
-
e depois eles querem medir para saber
se após a implementação da melhoria
-
a performance da equipe aumentou.
-
E aí,
quem vai nos ajudar a fazer essa análise?
-
A linguagem é
com a parte de estatística e.