< Return to Video

DSCR CAP03 2024 VA02 LINGUAGEM R INTERVALOS DE CONFIANCA

  • 0:08 - 0:13
    Agora nós iremos falar sobre intervalo
    de confiança e teste de hipóteses.
  • 0:13 - 0:16
    Para entender isso na prática
    com a linguagem R,
  • 0:16 - 0:19
    se vocês verificarem no documento
    que está disponível para vocês
  • 0:19 - 0:22
    sobre essa explicação,
    trouxemos um case real.
  • 0:22 - 0:25
    Imagine que nós estamos trabalhando
    em uma fábrica de software
  • 0:25 - 0:30
    e você se depara com a situação
    de precisar melhorar a performance
  • 0:30 - 0:32
    dessa equipe de programadores.
  • 0:32 - 0:36
    Então, foi analisada essa possibilidade
    de implementar uma melhoria,
  • 0:36 - 0:41
    foi descoberta uma ferramenta
    para ajudar, e aí precisamos medir
  • 0:41 - 0:45
    como estava a performance antes
    da implementação dessa ferramenta
  • 0:45 - 0:48
    e após a implementação dessa ferramenta.
  • 0:48 - 0:54
    Para verificar se após a implementação
    da ferramenta ficou igual a performance,
  • 0:54 - 0:59
    se ficou pior, ou se alcançou o objetivo,
    que era melhorar a performance,
  • 0:59 - 1:02
    nós precisamos analisar
    esses dados, o antes e o depois.
  • 1:02 - 1:04
    E é essa a nossa proposta agora.
  • 1:04 - 1:05
    Vamos lá?
  • 1:05 - 1:08
    Aqui eu trago para vocês um resumo.
  • 1:08 - 1:14
    Como é uma hashtag que está aqui marcada,
    não é considerada na execução do código, tá?
  • 1:14 - 1:18
    Então, caso você queira relembrar
    ou queira ter um resumo aí na sua mão,
  • 1:18 - 1:22
    porque às vezes é um material um pouquinho
    extenso, eu deixo aqui para vocês, tá bom?
  • 1:22 - 1:26
    E agora vamos precisar criar a nossa
    situação, o cenário antes e depois.
  • 1:26 - 1:31
    Então nós temos aqui duas linhas
    que nós vamos executar.
  • 1:31 - 1:32
    O que seria isso?
  • 1:32 - 1:35
    Eu vou copiar...
    Vamos fazer juntos aqui, tá?
  • 1:35 - 1:36
    Como funciona?
  • 1:36 - 1:40
    Deixe-me só tirar aqui esse
    sinalzinho que nós copiamos.
  • 1:40 - 1:42
    Aqui é um comentário:
  • 1:42 - 1:45
    "Dados simulados,
    linhas de código por hora
  • 1:45 - 1:49
    antes e depois da introdução dessa
    ferramenta", para melhorar a performance.
  • 1:49 - 1:52
    E aí, para facilitar para vocês,
    vamos deixar alinhados aqui:
  • 1:52 - 1:58
    hora um, hora dois, hora três,
    hora quatro, hora cinco,
  • 1:58 - 2:01
    hora seis, hora sete, e hora oito.
  • 2:01 - 2:04
    Se você olhar depois aqui, você
    já consegue ter essa certeza, né,
  • 2:04 - 2:06
    que a performance está sendo melhor.
  • 2:06 - 2:11
    Mas você não deve pensar que sempre
    vai ser um cenário pequeno como esse,
  • 2:11 - 2:15
    de um intervalo que você consiga
    analisar apenas olhando para a tela.
  • 2:15 - 2:19
    Pode ser uma base
    com uma análise de 300 horas.
  • 2:19 - 2:22
    Então você precisa sim
    de uma linguagem como o R
  • 2:22 - 2:24
    para fazer essa análise por você, tá?
  • 2:24 - 2:28
    Nós já temos essa certeza, mas
    vamos pedir para o R fazer essa análise?
  • 2:28 - 2:30
    Então primeiro nós vamos
    criar essas variáveis.
  • 2:30 - 2:33
    Vamos imprimir só
    para visualizar, como sempre.
  • 2:33 - 2:37
    Temos que ter uma garantia
    que os dados foram armazenados.
  • 2:37 - 2:42
    "print(linhas_depois)".
  • 2:42 - 2:45
    Não erre, não pode digitar o nome errado,
    senão ele não vai conseguir achar.
  • 2:45 - 2:47
    Eu vou apertar alguns
    Enters aqui para facilitar,
  • 2:47 - 2:50
    e ir para o meio da tela
    para visualizarmos.
  • 2:50 - 2:55
    Então, legal, criamos a performance
    das horas antes e depois.
  • 2:55 - 2:59
    Agora nós precisamos
    fazer essa comparação.
  • 2:59 - 3:01
    Será que realmente performou mais?
  • 3:01 - 3:06
    Aqui, novamente, eu deixo um script
    para vocês, alguns comentários.
  • 3:06 - 3:09
    Agora nós vamos fazer
    esse teste de hipóteses
  • 3:09 - 3:11
    para verificar
    se a performance aumentou, tá?
  • 3:11 - 3:15
    E aqui, o que eu vou
    interpretar com vocês,
  • 3:15 - 3:18
    eu deixei anotado aqui como
    comentário, um resumo, tá?
  • 3:18 - 3:22
    "Então, qual a instrução, Rafa,
    que vai ser executada agora?".
  • 3:22 - 3:23
    Olha quanto comentário.
  • 3:23 - 3:27
    É para poder entender a saída da execução.
  • 3:27 - 3:30
    "Como fica essa instrução, Rafa?"
  • 3:30 - 3:32
    Vamos apertar mais uns Enters aqui.
  • 3:32 - 3:37
    Agora aqui nós vamos pedir
    para comparar o antes e o depois.
  • 3:37 - 3:38
    Como iremos fazer isso?
  • 3:38 - 3:42
    Temos uma variável aqui
    chamada "resultado_test".
  • 3:42 - 3:45
    Você pode colocar o nome
    que você quiser, como sempre.
  • 3:45 - 3:51
    Aqui nós temos uma primeira instrução,
    que vocês têm que aprender agora: "t.teste".
  • 3:51 - 3:54
    Teste com "t" mudo porque é
    uma instrução em inglês do R.
  • 3:54 - 3:57
    Se vocês buscarem aqui, eu deixei anotado
  • 3:57 - 4:01
    para vocês poderem estudar depois
    ou fazer uma anotação, tá?
  • 4:01 - 4:04
    O que é o t.teste?
  • 4:04 - 4:07
    Ele é usado para comparar
    o antes e o depois.
  • 4:07 - 4:13
    É ele que vai fazer essa análise dos dados
    de antes e depois, hora a hora.
  • 4:13 - 4:17
    Aqui nós temos que fornecer
    o intervalo de valores.
  • 4:17 - 4:19
    Está aqui. Se chama "linhas_antes".
  • 4:19 - 4:22
    Qual é o outro intervalo de valores?
  • 4:22 - 4:23
    É o "linhas_depois".
  • 4:23 - 4:27
    E aqui, novamente, nós temos
    que fazer uma outra instrução para ele.
  • 4:27 - 4:30
    Nessa instrução, nós vamos dizer assim:
  • 4:30 - 4:32
    "Os dados têm relação?".
  • 4:32 - 4:35
    Sim, é um dado que está
    relacionado diretamente.
  • 4:35 - 4:37
    Eu tenho a informação hora a hora,
  • 4:37 - 4:40
    eu só não sei se realmente
    aumentou essa performance.
  • 4:40 - 4:41
    Olhando, nós sabemos, né?
  • 4:41 - 4:44
    Mas supondo que ainda não sabemos.
  • 4:44 - 4:46
    E aí você coloca true ou false.
  • 4:46 - 4:49
    Você coloca true quando
    está relacionado diretamente.
  • 4:49 - 4:54
    Às vezes você pode querer comparar coisas
    que não estão relacionadas diretamente.
  • 4:54 - 4:56
    Aí você colocaria o false.
  • 4:56 - 4:58
    Mas não é o nosso caso aqui.
  • 4:58 - 5:00
    Eu vou apertar o Enter.
  • 5:00 - 5:02
    Aí você fala: "Poxa, Rafa, mas e agora?
  • 5:02 - 5:04
    Cadê o resultado?".
  • 5:04 - 5:08
    Tudo o que nós iremos
    analisar agora está aqui.
  • 5:08 - 5:10
    Agora você fala: "Rafa,
    então vamos imprimir?".
  • 5:10 - 5:11
    Sim, vamos imprimir.
  • 5:11 - 5:13
    Como fazemos aqui?
  • 5:13 - 5:14
    Imprimir, você já sabe, né?
  • 5:14 - 5:18
    O valor dessa comparação foi
    armazenado aqui dentro.
  • 5:18 - 5:18
    "print"...
  • 5:20 - 5:21
    "resultado"...
  • 5:21 - 5:25
    Aquela velha história, né, cuidado
    para digitar corretamente o nome da variável.
  • 5:25 - 5:28
    E aí nós temos o resultado aqui.
  • 5:28 - 5:33
    Você vai falar: "Poxa Rafa, parte
    do resultado está escrito em inglês
  • 5:33 - 5:35
    e tem alguns números da estatística".
  • 5:35 - 5:37
    Isso. Agora nós vamos comparar.
  • 5:37 - 5:38
    Eu vou explicar para vocês...
  • 5:38 - 5:40
    Eu vou subir um pouquinho.
  • 5:40 - 5:44
    Novamente, você pode dar uma pausa,
    fazer a sua anotação nesse momento.
  • 5:44 - 5:48
    Eu acho bem rica essa parte
    das anotações, desses comentários.
  • 5:48 - 5:52
    É como programar, sempre deixar o código
    comentado para você entender.
  • 5:52 - 5:57
    O que nós precisamos
    focar nesse retorno dessa análise?
  • 5:57 - 6:01
    Quanto de valor retornado nesse p-value.
  • 6:01 - 6:03
    "O que seria esse p-value, Rafa?"
  • 6:03 - 6:04
    Eu tenho aqui para vocês.
  • 6:04 - 6:10
    Se o valor desse p-value, que é esse
    valor, o resultado final, for menor...
  • 6:10 - 6:11
    Eu deixei aqui anotado, olhe.
  • 6:11 - 6:14
    Menor que 0,05...
  • 6:15 - 6:19
    Sim, esse é um valor menor que 0,05.
  • 6:19 - 6:22
    Ele está mais distante aqui
    do ponto da casa.
  • 6:22 - 6:25
    Quanto mais à direita ele está,
    mais distante, então ele é menor.
  • 6:25 - 6:27
    Significa o quê?
  • 6:27 - 6:32
    Que há realmente uma diferença
    significativa entre o antes e o depois.
  • 6:33 - 6:37
    "Ah, então, Rafa, como
    ele é menor que 0,05,
  • 6:37 - 6:39
    que é o que aconteceu aqui,
  • 6:39 - 6:43
    quer dizer que realmente
    há uma diferença significativa
  • 6:43 - 6:45
    entre a performance do antes e o depois?"
  • 6:45 - 6:46
    Sim.
  • 6:46 - 6:50
    Então faz sentido a análise
    que fizemos sem rodar o código.
  • 6:50 - 6:54
    Então ele refletiu o resultado
    esperado para nós, tudo bem?
  • 6:54 - 6:56
    E agora conseguimos interpretar.
  • 6:56 - 7:01
    Nesse momento, o que você deve se preocupar
    é com esse resultado, ver esse retorno,
  • 7:01 - 7:04
    se realmente há essa diferença.
  • 7:04 - 7:05
    Então ele atendeu.
  • 7:05 - 7:08
    Agora nós vamos para uma última parte.
  • 7:08 - 7:13
    Agora nós iremos para a última parte,
    que é verificar não somente
  • 7:13 - 7:18
    se teve realmente significância entre
    a performance do antes e o depois.
  • 7:18 - 7:20
    Isso nós já confirmamos.
  • 7:20 - 7:22
    Agora nós vamos ver a assertividade,
  • 7:22 - 7:26
    o quanto está mais assertivo
    esse retorno que ele nos deu.
  • 7:26 - 7:30
    Eu lembro a vocês que agora nós fizemos
    com uma base bem pequena de dados.
  • 7:30 - 7:36
    Fizemos ali só em oito horas de análise,
    hora a hora, então oito dados antes e depois.
  • 7:36 - 7:37
    Mas vocês sempre têm que lembrar
  • 7:37 - 7:40
    que, quando estamos falando
    da ciência dos dados,
  • 7:40 - 7:44
    pode ser algo muito maior,
    uma análise de 300 horas,
  • 7:44 - 7:48
    300 dados antes e 300 depois.
  • 7:48 - 7:52
    Então não tem como você fazer uma análise
    observando apenas os valores.
  • 7:52 - 7:54
    Você tem que pedir para uma ferramenta,
  • 7:54 - 7:57
    ou para uma linguagem como o R,
    para fazer isso por você.
  • 7:57 - 8:00
    Vamos ver o quanto realmente
    está fazendo sentido,
  • 8:00 - 8:04
    ou qual o nível de confiança desse
    retorno do que foi processado?
  • 8:04 - 8:05
    Vem comigo aqui.
  • 8:05 - 8:07
    Então nós vamos para a última parte.
  • 8:07 - 8:10
    Como sempre, eu deixo aqui
    para vocês um breve resumo
  • 8:10 - 8:13
    para que vocês depois consigam,
    e eu até recomendo,
  • 8:13 - 8:19
    pausar ou voltar o vídeo para verificar
    essas observações que eu deixei para vocês.
  • 8:20 - 8:22
    Aqui nós vamos fazer duas instruções.
  • 8:22 - 8:26
    Nós temos aqui essa primeira,
    que nós vamos pedir para ele calcular,
  • 8:26 - 8:28
    e depois para mostrar.
  • 8:28 - 8:29
    Vamos lá?
  • 8:29 - 8:32
    Deixe-me copiar aqui para baixo
    ou apertar mais alguns Enters
  • 8:32 - 8:35
    para ficar bem dividido a tela
    para não confundir vocês.
  • 8:35 - 8:38
    Eu falo que essa área que programamos
  • 8:38 - 8:41
    tem que ser um pouco limpa
    para facilitar a interpretação.
  • 8:41 - 8:43
    Agora vou colar aqui para vocês.
  • 8:43 - 8:44
    Deixe-me apagar.
  • 8:44 - 8:47
    Eu não vou executar sem antes explicar.
  • 8:47 - 8:48
    O que nós vamos fazer então?
  • 8:48 - 8:51
    Como sempre, criar
    uma variável para receber
  • 8:51 - 8:54
    ou armazenar o valor dessa execução.
  • 8:54 - 8:58
    E aqui nós temos "resultado_teste".
  • 8:58 - 9:00
    "Que variável é essa, Rafa?"
  • 9:00 - 9:02
    Eu vou voltar um pouquinho.
  • 9:02 - 9:07
    "resultado_teste" é quando nós pedimos
    para ele fazer a comparação
  • 9:07 - 9:10
    do antes e o depois,
    que saiu esse resultado.
  • 9:10 - 9:12
    "Ah, legal, Rafa! Lembrei."
  • 9:12 - 9:15
    Aí você fala: "Rafa, mais uma instrução
    você vai nos ensinar agora?"
  • 9:15 - 9:16
    Sim.
  • 9:16 - 9:19
    Essa aqui também é conhecida
    como cifrão ou dólar,
  • 9:19 - 9:24
    como vocês quiserem falar aí
    na área da programação, "conf.int".
  • 9:24 - 9:27
    "Rafa, esse aí eu ainda não vi com você."
  • 9:27 - 9:29
    Tudo bem. Vamos dar uma olhadinha aqui.
  • 9:29 - 9:33
    Como sempre, eu deixo anotado
    para vocês essas observações
  • 9:33 - 9:38
    para facilitar depois
    na hora da interpretação.
  • 9:38 - 9:40
    Não dei mancada novamente. Está aqui.
  • 9:40 - 9:44
    Então, é aquele momento que, se eu
    fosse você, dava uma pausa no vídeo
  • 9:44 - 9:45
    para deixar anotado no seu caderno.
  • 9:45 - 9:48
    O que é o conf.int?
  • 9:48 - 9:53
    Ele é usado para acessar o intervalo
    de confiança da nossa análise.
  • 9:53 - 9:55
    Vamos descer de novo.
  • 9:55 - 10:02
    Nós vamos querer que ele pegue aqui esse
    resultado que foi projetado anteriormente.
  • 10:02 - 10:07
    E agora nós vamos projetar uma outra
    execução sobre ele, olha aqui.
  • 10:07 - 10:11
    E ele vai gerar uma análise estatística,
  • 10:11 - 10:14
    que é a nossa análise descritiva.
  • 10:14 - 10:19
    Então eu vou pedir para ele fazer
    essa análise, armazenar o valor aqui,
  • 10:19 - 10:23
    e aí depois, como sempre,
    nós iremos visualizá-lo.
  • 10:23 - 10:26
    Aí você fala: "Rafa, essa
    visualização não está simples."
  • 10:26 - 10:29
    Não. Eu vou trazer mais uma coisa
    aqui para a nossa conversa,
  • 10:29 - 10:31
    para a nossa aula de agora.
  • 10:31 - 10:37
    Isso é um texto, olhe: "Intervalo
    de confiança para a diferença média".
  • 10:37 - 10:39
    E o que nós trouxemos aqui?
  • 10:39 - 10:45
    "intervalo_confianca[1],
    "a", intervalo_confianca[2]".
  • 10:45 - 10:47
    Vou apertar o Enter.
  • 10:47 - 10:50
    Deixe-me mostrar o resultado
    e aí vocês vão entender.
  • 10:50 - 10:55
    Então nós temos aqui um texto,
    um texto simples que saiu aqui.
  • 10:55 - 11:01
    Esse é um intervalo de confiança, de quanto
    a quanto é aderência de confiança.
  • 11:01 - 11:02
    Esse é um modelo confiável.
  • 11:02 - 11:07
    Ele vai de -23.56...
  • 11:07 - 11:11
    Aqui é de onde ele parte
    até onde ele vai.
  • 11:11 - 11:13
    Até onde ele vai, é 2.
  • 11:13 - 11:18
    Percebam que vocês criaram a variável
    com nome intervalo_confianca.
  • 11:18 - 11:20
    De onde ele inicia, você coloca o 1,
  • 11:20 - 11:24
    e dá onde ele termina
    até onde ele vai, é o 2.
  • 11:24 - 11:27
    E esse é o intervalo de confiança
    desse modelo de análise
  • 11:27 - 11:30
    que nós acabamos de processar.
  • 11:30 - 11:31
    O que eu espero com isso?
  • 11:31 - 11:34
    Eu espero que agora
    vocês tenham entendido.
  • 11:34 - 11:36
    Com um case real? Não.
  • 11:36 - 11:38
    Mas com certeza isso existe.
  • 11:38 - 11:42
    Quando você trabalha numa empresa,
    numa fábrica de software, por exemplo,
  • 11:42 - 11:46
    às vezes a performance da equipe
    não está muito boa no desenvolvimento
  • 11:46 - 11:49
    e aí alguém vai fazer uma análise,
    implementa uma melhoria,
  • 11:49 - 11:53
    e depois eles querem medir para saber
    se após a implementação da melhoria
  • 11:53 - 11:55
    a performance da equipe aumentou.
  • 11:55 - 11:58
    E aí, quem vai nos ajudar a fazer essa análise?
  • 11:58 - 12:00
    A linguagem R com a parte de estatística.
Title:
DSCR CAP03 2024 VA02 LINGUAGEM R INTERVALOS DE CONFIANCA
Video Language:
Portuguese, Brazilian
Duration:
12:04

Portuguese, Brazilian subtitles

Incomplete

Revisions Compare revisions