Agora nós iremos falar sobre intervalo 
de confiança e teste de hipóteses.

Para entender isso na prática 
com a linguagem R,

se vocês verificarem no documento
que está disponível para vocês

sobre essa explicação,
trouxemos um case real.

Imagine que nós estamos trabalhando
em uma fábrica de software

e você se depara com a situação
de precisar melhorar a performance

dessa equipe de programadores.

Então, foi analisada essa possibilidade
de implementar uma melhoria,

foi descoberta uma ferramenta 
para ajudar, e aí precisamos medir

como estava a performance antes 
da implementação dessa ferramenta

e após a implementação dessa ferramenta.

Para verificar se após a implementação 
da ferramenta ficou igual a performance,

se ficou pior, ou se alcançou o objetivo, 
que era melhorar a performance,

nós precisamos analisar 
esses dados, o antes e o depois.

E é essa a nossa proposta agora.

Vamos lá?

Aqui eu trago para vocês um resumo.

Como é uma hashtag que está aqui marcada,
não é considerada na execução do código, tá?

Então, caso você queira relembrar
ou queira ter um resumo aí na sua mão,

porque às vezes é um material um pouquinho
extenso, eu deixo aqui para vocês, tá bom?

E agora vamos precisar criar a nossa 
situação, o cenário antes e depois.

Então nós temos aqui duas linhas
que nós vamos executar.

O que seria isso?

Eu vou copiar... Vamos fazer juntos aqui, tá?

Como funciona?

Deixe-me só tirar aqui esse
sinalzinho que nós copiamos ali.

Aqui é um comentário.

"Dados simulados,
linhas de código por hora

antes e depois da introdução dessa
ferramenta", para melhorar a performance.

E aí, para facilitar para vocês,
vamos deixar alinhados aqui:

Hora um, hora dois, hora três, 
hora quatro, hora cinco,

hora seis, hora sete, e hora oito.

Se você olhar o depois aqui, você 
já consegue ter essa certeza, né,

que a performance está sendo melhor.

Mas você não deve pensar que sempre
vai ser um cenário pequeno como esse,

num intervalo que você consiga 
analisar apenas olhando para a tela.

Pode ser uma base
com uma análise de 300 horas.

Então você precisa sim 
de uma linguagem como o R

para fazer essa análise por você, tá?

Nós já temos essa certeza, mas
vamos pedir para o R fazer essa análise?

Então primeiro nós vamos 
criar essas variáveis.

Vamos imprimir só 
para visualizar, como sempre.

Temos que ter uma garantia
que os dados foram armazenados.

"print(linhas_depois)".

Não erre, não pode digitar o nome errado,
senão ele não vai conseguir achar.

Eu vou apertar alguns 
Enters aqui para facilitar

para ir para o meio da tela 
para visualizarmos.

Então, legal, criamos a performance
das horas antes e depois.

Agora nós precisamos 
fazer essa comparação.

Será que realmente performou mais?

Aqui, novamente, eu deixo um script 
para vocês alguns comentários.

Agora nós vamos fazer
esse teste de hipóteses

para verificar 
se a performance aumentou, tá?

E aqui, o que eu vou 
interpretar com vocês,

eu deixei anotado aqui como 
comentário, um resumo, tá?

"Então, qual a instrução, Rafa,
que vai ser executada agora?".

Olha quanto comentário.

É para poder entender a saída da execução.

"Como fica essa instrução, Rafa?"

Vamos apertar mais uns Enters aqui.

Agora aqui nós vamos pedir
para comparar o antes e o depois.

Como iremos fazer isso?

Temos uma variável aqui
chamada "resultado_test".

Você pode colocar o nome 
que você quiser, como sempre.

Aqui nós temos uma primeira instrução,
que vocês tem que aprender agora: "t.teste".

Teste com "t" mudo porque é 
uma instrução em inglês do R.

Se vocês buscarem aqui,
eu deixei anotado aqui

para vocês poderem estudar depois
ou fazer uma anotação, tá?

O que que é o ponto teste?

Ele é usado para comparar o antes
e o depois.

É ele que vai fazer as análises dos dados
de antes e o depois.

Ora, a hora aqui que nós temos
temos que fornecer

qual que é o intervalo de valores
para que ele chama a linha antes?

Qual que é o outro intervalo de valores
e o linha depois?

E aqui novamente nós temos que fazer
uma outra instrução para ele,

que aqui nessa instrução
nós vamos dizer assim ó, os dados,

eles tem relação sim, é um dado que
está relacionado diretamente.

Eu tenho a informação hora a hora.

Eu só não sei
se realmente aumentou essa performance.

Olhando nós sabemos,
mas supondo que não sabemos ainda.

E aí você coloca true

ou false, você coloca true
quando está relacionado diretamente.

Às vezes você pode estar querendo
comparar coisas

que elas não estão relacionadas
diretamente.

Aí você colocaria o false, mas
não no nosso caso aqui vou apertar enter.

Aí você fala Poxa, mas e agora?

Cadê o resultado?

Tudo o que nós iremos analisar agora tá,

tá aqui agora você fala Rafa,
Então vamos imprimir sim, vamos imprimir.

Como que a gente faz aqui?

Primeiro você já sabe o valor dessa comparação foi armazenado aqui dentro print.

Resultado

aquela velha história
cuidado para digitar correta

o nome da variável e aí
nós temos o resultado aqui.

Poxa Rafa, parte do resultado
está escrito em inglês

e tem alguns números da estatística. Isso.

Agora nós vamos comparar o que eu vou
explicar para vocês.

Eu vou subir um pouquinho novamente
até conseguir

às vezes dar uma pausa,
fazer a formatação.

Nesse momento, eu acho bem rica essa parte 
dessas anotações, desses comentários.

É como sempre programar
deixar o código comentado para você

entender o que precisamos focar
nesse retorno dessa análise,

o quanto foi o valor retornado nesse value-p,

o que seria esse valor-p e Rafa
tem aqui para vocês.

Se o valor desse P vale,
o que é esse valor do resultado final?

For menor?

Eu deixei aqui anotado.

Menor que 0,05 menor que 0,05.

Sim, esse é um valor menor que 0,05.

Ele está mais distante aqui
do ponto da causa.

Quanto mais à direita ele está, mais
distante, então ele é menor.

Significa o quê?

Que há realmente uma diferença
significativa entre o antes e o depois?

Ai então o Rafa, como ele é

menor que 0,05, que é o que aconteceu
aqui,

quer dizer realmente
que há uma diferença significativa

entre a performance do antes
e o depois? Sim,

então faz sentido a nossa análise
que nós fizemos sem rodar o código.

Então ele refletiu o resultado
esperado pra nós.

Tudo bem.

E aí agora a gente conseguiu interpretar
nesse momento o que você deve se preocupar

é esse resultado para ver esse retorno,
se há realmente essa diferença teoria.

Entendeu?

Agora nós vamos para uma última parte.

Agora nós iremos para a última parte,
que é verificar não somente

se teve realmente significância
entre a performance do antes e o depois.

Isso nós já confirmamos.

Agora nós vamos ver a assertividade
o quanto isso está mais assertivo.

Esse retorno que nos deu.

Eu lembro a vocês que agora nós fizemos
com uma base bem pequena de dados,

fizemos ali só em 08h00 de análise, hora
a hora, então oito dados antes e depois.

Mas vocês tem sempre que lembrar

quando estamos falando aqui
da ciência do dado, dos dados,

pode ser algo muito maior
uma análise de 300 horas,

300 dados antes e 300 depois.

Então não tem como você fazer uma análise
observando apenas os valores.

Você tem que pedir para uma ferramenta

ou uma linguagem como R
para fazer isso por você.

Vamos ver o quanto realmente está fazendo
sentido ou A

com o nível de confiança desse retorno
do que foi processado.

Vem comigo aqui,
nós vamos para a última parte.

Como sempre,

eu deixo aqui para vocês um breve resumo
para que vocês depois consigo.

Até recomendo na sequência
pausar ou voltar o vídeo

para verificar essas observações
que eu deixei para vocês.

Aqui nós vamos fazer duas instruções.

Nós temos aqui
essa primeira que nós vamos pedir para ele

calcular e depois para mostrar.

Vamos lá, deixa eu copiar aqui para baixo
ou apertar mais alguns

entre os aqui para ficar bem
dividido a tela para não confundir vocês.

Até mesmo aqui eu falo aqui
essa área que a gente programa,

a gente tem que ter um pouco limpa
para facilitar a interpretação.

Agora vou colar aqui para vocês.

Deixa eu apagar,
eu não vou executar sem antes explicar.

Então o que nós vamos fazer?

Como sempre,
criar uma variável para receber

ou armazenar o valor dessa execução.

E aqui nós temos o que o resultado?

Underline teste.

Que variável é essa?

Rafa, eu vou voltar um pouquinho
o resultado do teste

e quando nós pedimos para ele fazer

a comparação, lembra do antes
e o depois que saiu esse resultado?

Ah, legal Rafa, Lembre aí
você fala Rafa, mais uma instrução

você vai nos ensinar agora sim,
essa daqui também conhecido como

cifrão ou dólar, como vocês
queiram falar aí na hora da programação.

Conf ponto int.

Rafa, esse daí eu ainda não vi com você.

Tudo bem?

Vamos dar uma olhadinha aqui.

Como sempre, eu deixo anotado para vocês
essas observações

para facilitar
depois na hora da interpretação.

Não dei mancada novamente. Está aqui.

Então é aquele momento que se eu fosse
você dava uma pausa no vídeo

para deixar anotado no seu caderno
que é o cofre Ponto int.

Ele é usado que para acessar
o intervalo de confiança da nossa análise

de novo,
nós vamos querer que ele pegue aqui

esse resultado
que foi projetado anteriormente

e agora nós vamos projetar
uma outra execução sobre ele.

Olha aqui
e ele vai gerar uma análise estatística,

que é o que a nossa análise
descritiva legal.

Então eu vou pedir para ele
fazer essa análise, armazenar o valor aqui

e aí depois, como sempre,
nós iremos visualizar ele.

Mas você fala Rafa,
essa visualização não está simples não.

Vou trazer mais uma coisa aqui pra nossa
conversa, para nossa aula de agora

é só o texto Intervalo de confiança
para a diferença média

é que nós trouxemos aqui o intervalo

onde ele confia carro ou confiança.

Um A confiança dois Vou apertar o enter,

deixa eu mostrar o resultado
e vocês vão entender.

Então nós temos aqui isso é um texto
que sai, um texto simples saiu aqui.

Esse é um intervalo de confiança de quanto
a quanto isso é aderência de confiança.

Esse é um modelo confiável.

Ele vai de -23,56.

Aqui é da onde ele parte,
até aonde ele vai, até aonde ele vai.

E dois Percebam que vocês criaram
a variável com nome intervalo, confiança,

da onde ele inicia você coloca um

e dá onde ele termina,
até onde ele vai e o dois.

E esse é o intervalo de confiança
desse modelo de análise

que nós acabamos de processar.

O que eu espero com isso?

Eu espero que agora vocês tenham entendido
como que é isso,

e vamos dizer, real não,
mas com certeza isso existe.

Quando você trabalha uma empresa,
por exemplo, uma fábrica de software,

as vezes a performance da equipe
não está muito boa no desenvolvimento

e aí alguém vai fazer uma análise,
implementa uma melhoria

e depois eles querem medir para saber
se após a implementação da melhoria

a performance da equipe aumentou.

E aí,
quem vai nos ajudar a fazer essa análise?

A linguagem é
com a parte de estatística e.