< Return to Video

vimeo.com/.../678965861

  • 0:10 - 0:12
    errrrApós entendermos
    os conceitos básicos
  • 0:12 - 0:15
    relacionados à associação
    e correlação,
  • 0:15 - 0:19
    é interessante conhecermos
    algumas aplicações práticas
  • 0:19 - 0:22
    e a gente vê como no Python
    a gente consegue utilizar os dados
  • 0:22 - 0:24
    para realizar essas medidas.
  • 0:24 - 0:30
    Então aqui no nosso navegador,
    vamos digitar colab.trisex.google.com,
  • 0:30 - 0:34
    vamos selecionar novo notebook,
    vamos criar mais uns blocos.
  • 0:34 - 0:38
    O segundo ponto que é interessante
    é nomear nosso notebook.
  • 0:38 - 0:45
    No caso aqui vai ser
    análise de associação e correlação.
  • 0:45 - 0:50
    Outro passo importante seria basicamente
    as ferramentas que nós vamos utilizar.
  • 0:50 - 0:53
    No caso, uma versão
    atualizada do SciPy
  • 0:53 - 0:58
    e uma versão atualizada
    da ferramenta Pingouin.
  • 0:58 - 1:02
    A gente consegue pedir para rodá-las,
    executar esses comandos,
  • 1:02 - 1:07
    após algum tempo eles vão fazer
    a instalação dessas ferramentas.
  • 1:07 - 1:09
    SciPy instalado com sucesso,
  • 1:09 - 1:13
    Pingouin vão fazer
    várias dependências
  • 1:13 - 1:16
    e no final ele vai instalar
    com sucesso.
  • 1:16 - 1:18
    E aqui ele finalizou
    a instalação do Pingouin.
  • 1:18 - 1:22
    Então após a instalação das
    ferramentas, a gente precisa agora
  • 1:22 - 1:24
    carregar o que a gente
    precisa de módulos.
  • 1:24 - 1:29
    Nós temos os módulos NumPy, Pandas,
    Seaborn e Matplotlib.
  • 1:29 - 1:34
    NumPy voltado à análise numérica,
    o Pandas voltado à análise de dados,
  • 1:34 - 1:37
    Seaborn e Matplotlib
    para a parte gráfica.
  • 1:37 - 1:43
    E no caso, o SciPy e o Pingouin
    para a gente buscar
  • 1:43 - 1:45
    as medidas de associação
    e correlação.
  • 1:45 - 1:49
    Então, a gente consegue carregar
    ambos os módulos.
  • 1:49 - 1:51
    E agora a gente precisa
    carregar os dados.
  • 1:51 - 1:55
    No caso aqui, vamos usar dados
    para fazer as medidas de associação
  • 1:55 - 1:57
    e dados para fazer
    as medidas de correlação.
  • 1:57 - 1:59
    Os dados que nós vamos trabalhar
  • 1:59 - 2:02
    serão os dados tratamentos
    e os dados do NPS.
  • 2:02 - 2:06
    Então a gente vai clicar
    de novo na pastinha,
  • 2:06 - 2:09
    clicar na setinha para cima.
  • 2:09 - 2:15
    E aí nós vamos usar o NPS
    e os dados do tratamento.
  • 2:15 - 2:17
    Primeiro.
  • 2:17 - 2:23
    E nós vamos ter mais um dado ainda,
    que vamos ter os dados da bolsa.
  • 2:26 - 2:31
    Então, vamos trabalhar com três tipos
    de dados para a gente ver
  • 2:31 - 2:33
    quando a gente aplica melhor
    as medidas de associação
  • 2:33 - 2:34
    ou correlação.
  • 2:34 - 2:37
    Então o próximo passo
    é a gente carregar esses dados.
  • 2:37 - 2:42
    Então vamos colocar aqui dados
    e a gente vai começar a carregar.
  • 2:42 - 2:45
    Primeiro seriam os dados
    dos tratamentos.
  • 2:45 - 2:49
    Então, aqui nós estamos usando
    a função do pandas,
  • 2:49 - 2:51
    chamada read_csv,
    onde a gente vai carregar
  • 2:51 - 2:56
    os dados específicos
    de tratamento de pacientes.
  • 2:56 - 2:58
    E o separador desse
    dado é ponto e vírgula.
  • 2:58 - 3:01
    Então por isso que a gente
    está usando essa função CEP
  • 3:01 - 3:03
    com ponto e vírgula.
  • 3:03 - 3:04
    E os dados de tratamento read,
  • 3:04 - 3:07
    mas vai nos ajudar a ver
    as primeiras linhas.
  • 3:07 - 3:09
    Então esse dataset tem três colunas.
  • 3:09 - 3:15
    A ID, que é a ID dos pacientes,
    no caso, a coluna tratamento
  • 3:15 - 3:17
    a a coluna evolução.
  • 3:17 - 3:21
    Então, aqui vai dizer se o indivíduo
    está sendo tratado ou não tratado.
  • 3:21 - 3:25
    E aqui vai dizer se ele melhorou
    ou não melhorou após o tratamento.
  • 3:25 - 3:28
    O próximo dado vai ser o do NPS.
  • 3:32 - 3:37
    E o segundo vai ser
    os dados da bolsa.
  • 3:42 - 3:43
    E aí alguns detalhes.
  • 3:43 - 3:46
    O NPS, de novo,
    o separador é ponto e vírgula.
  • 3:46 - 3:48
    E nos dados da bolsa
    a gente tem outro detalhe.
  • 3:48 - 3:52
    Que a gente precisa trabalhar
    com ponto e vírgula de separador.
  • 3:52 - 3:55
    E o decimal, nesse caso,
    era vírgula.
  • 3:55 - 3:58
    Então a gente precisou passar esse
    parâmetro para que o Python
  • 3:58 - 4:01
    consiga entender que agora
    a vírgula é ponto.
  • 4:01 - 4:04
    E aí, ele vai entender
    como um valor numérico
  • 4:04 - 4:08
    os retornos das ações da bolsa.
  • 4:08 - 4:11
    Nesse momento nós vamos trabalhar
    com esses cinco índices.
  • 4:11 - 4:14
    Vamos trabalhar com o FII,
    com o V de Cramer,
  • 4:14 - 4:17
    com o índice de correlação,
    o índice de Spearman
  • 4:17 - 4:18
    e o índice de Kendall.
  • 4:18 - 4:22
    Então, o que é que nós estamos
    trabalhando aqui para a gente estimar
  • 4:22 - 4:24
    esse coeficiente de FII?
  • 4:24 - 4:27
    Nós estamos usando
    a função cross-tab.
  • 4:27 - 4:30
    Essa função tem por objetivo
    criar uma tabela cruzada.
  • 4:30 - 4:36
    Então nós vamos cruzar os dados desse
    dataset chamado dados tratamento.
  • 4:36 - 4:38
    E aí nós vamos usar o tratamento,
  • 4:38 - 4:42
    uma coluna chamada tratamento,
    e outra coluna chamada evolução.
  • 4:42 - 4:46
    Então, o dado vai ficar
    com essa característica aqui.
  • 4:46 - 4:50
    Uma tabelinha cruzada mostrando
    os não tratados e tratados, e as
  • 4:50 - 4:52
    pessoas que melhoraram
    e não melhoraram.
  • 4:52 - 4:54
    Então, como é que a gente
    lê essa tabelinha aqui?
  • 4:54 - 4:56
    É bem simples, tá?
  • 4:56 - 4:59
    Quem foi tratado
    melhorou 35 pessoas.
  • 4:59 - 5:02
    Enquanto que 26 não foram tratados,
  • 5:02 - 5:03
    porém melhoraram.
  • 5:03 - 5:07
    Contudo, 29 pessoas que não
    foram tratadas não melhoraram.
  • 5:07 - 5:11
    Enquanto que 15 que foram
    tratados não melhoraram.
  • 5:11 - 5:14
    Então, a ideia agora é a gente ver
    se existe associação
  • 5:14 - 5:16
    entre essas colunas.
  • 5:16 - 5:19
    Tratamento e melhorou da doença.
  • 5:19 - 5:20
    Primeiro, nós vamos usar o SciPy.
  • 5:20 - 5:24
    Então, no caso do SciPy, nós vamos
    ter que fazer várias medidas aqui,
  • 5:24 - 5:27
    para a gente conseguir encontrar
    o valor que a gente precisa.
  • 5:27 - 5:29
    Para a gente combater o valor do FI,
  • 5:29 - 5:32
    a gente vai precisar fazer
    alguns cálculos antes,
  • 5:32 - 5:33
    e aí no final a gente
    vai obter esse valor.
  • 5:33 - 5:35
    Então, primeira coisa.
  • 5:35 - 5:38
    A gente vai ter que calcular
    esse valor denominado de Q2.
  • 5:38 - 5:42
    Esse valor, ele está associado
    à distribuição chamada de Q2.
  • 5:42 - 5:45
    Então, com essa função Stats,
  • 5:45 - 5:49
    a gente vai chamar a função
    SciToContinence,
  • 5:49 - 5:51
    onde nós vamos buscar
    a nossa tabelinha,
  • 5:51 - 5:54
    que a gente acabou
    de criar aqui em cima,
  • 5:54 - 5:55
    e nós vamos armazenar o valor de Q2.
  • 5:55 - 6:00
    Então, a gente basicamente
    armazenou o valor de 4,6625.
  • 6:00 - 6:05
    Segunda cálculo que a gente precisa
    fazer é o tamanho da amostra.
  • 6:05 - 6:08
    No caso, quantas pessoas
    participaram dessa pesquisa.
  • 6:08 - 6:12
    No caso, a gente vai somar
    todos os valores dessa tabela.
  • 6:12 - 6:15
    Então, nós temos 105
    pessoas que participaram.
  • 6:15 - 6:17
    E aí, por último, nós vamos
    obter o valor do FI,
  • 6:17 - 6:22
    que basicamente é a raiz quadrada,
    no caso, a gente está chamando no pai,
  • 6:22 - 6:26
    e essa função SQRT
    é para calcular a raiz quadrada.
  • 6:26 - 6:29
    E aqui nós temos
    o nosso valor de Q2
  • 6:29 - 6:32
    dividido pelo tamanho da amostra.
  • 6:32 - 6:35
    Então, esse é o valor do nosso FI,
    que foi de 0,21.
  • 6:35 - 6:39
    A escala do FI varia entre 0 e 1,
    quanto mais próximo de 1,
  • 6:39 - 6:40
    maior associação.
  • 6:40 - 6:43
    Nesse caso, o valor foi de 0,21.
  • 6:43 - 6:46
    Parece não ser
    uma associação muito grande.
  • 6:46 - 6:48
    E aí, devido a essa dúvida,
  • 6:48 - 6:50
    é interessante a gente
    fazer o teste de hipótese.
  • 6:50 - 6:54
    Então, nós vamos fazer
    o teste chamado teste Q2.
  • 6:54 - 6:58
    Esse teste, ele tem a ideia
    de que ele vai ver os níveis
  • 6:58 - 7:01
    observados e esperados
    da tabela,
  • 7:01 - 7:04
    vai usar a distribuição de Q2
    para testar a nossa hipótese.
  • 7:04 - 7:08
    E aqui nós vamos obter algumas
    estatísticas que precisamos.
  • 7:08 - 7:12
    Então, vamos armazenar aqui
    o valor de Q2, o valor P,
  • 7:12 - 7:16
    o grau de liberdade
    e a tabela esperada,
  • 7:16 - 7:22
    onde o teste de Q2 combina a tabela
    esperada com a nossa tabela real.
  • 7:22 - 7:26
    E aí, por último, a gente só vai
    precisar de duas estatísticas.
  • 7:26 - 7:27
    Aqui e o P.
  • 7:27 - 7:29
    E aí, temos o seguinte.
  • 7:29 - 7:33
    Temos a estatística de Q2,
    que foi de 4,66.
  • 7:33 - 7:36
    E a valor P, que é de 0,03.
  • 7:36 - 7:41
    E aí a interpretação, eu acho
    mais simples trabalhar com o valor P.
  • 7:41 - 7:43
    E aí a gente vai interpretar
    da seguinte forma.
  • 7:43 - 7:46
    Se o meu valor P
    foi menor que 0,05,
  • 7:46 - 7:52
    que no caso aqui foi 0,03, então
    podemos rejeitar essa hipótese nula,
  • 7:52 - 7:57
    indicando que existe associação
    entre ser tratado no medicamento
  • 7:57 - 8:00
    e você evoluir e ser curado da doença.
  • 8:00 - 8:05
    Ou seja, o tratamento desse medicamento
    aparentemente parece funcionar.
  • 8:05 - 8:09
    E aí a indústria farmacêutica
    deve fazer mais outros testes
  • 8:09 - 8:11
    para ver quando
    colocar no mercado.
  • 8:11 - 8:14
    Então, essa seria uma forma
    de a gente usar o FII.
  • 8:14 - 8:15
    Então, a gente medir o FII,
  • 8:15 - 8:18
    mostrando que existe
    uma associação de 0,21,
  • 8:18 - 8:22
    e a gente usa o teste aqui quadrado
    para complementar esse valor de FII.
  • 8:22 - 8:25
    Vamos agora iniciar um outro exemplo,
  • 8:25 - 8:28
    que a gente vai trabalhar
    com o V de Cramer.
  • 8:28 - 8:32
    E o V de Cramer, nós vamos
    trabalhar com os dados do nps.
  • 8:32 - 8:37
    Então, a primeira coisa que a gente
    vai fazer é filtrar os dados do nps.
  • 8:37 - 8:39
    O nps tem alguns probleminhas
    nesses dados.
  • 8:39 - 8:43
    Alguns probleminhas e algumas
    respostas estão incompletas,
  • 8:43 - 8:46
    então a gente vai precisar
    filtrar somente os questionários
  • 8:46 - 8:48
    que foram respondidos por completo.
  • 8:48 - 8:54
    O segundo ponto, a gente vai precisar
    de um score de nps das pessoas.
  • 8:54 - 8:58
    Então, se a pessoa não deu nota,
    ela não pode ser avaliada.
  • 8:58 - 9:00
    Então, a gente precisa
    filtrar essas pessoas.
  • 9:00 - 9:04
    E o segundo, a gente vai utilizar
    essa coluna chamada Gender,
  • 9:04 - 9:07
    que a gente quer ver a associação
    entre o gênero da pessoa
  • 9:07 - 9:08
    e a nota do nps.
  • 9:08 - 9:11
    Somente para entender
    se a empresa está atendendo melhor
  • 9:11 - 9:14
    as pessoas de gênero masculino
    ou as pessoas de gênero feminino,
  • 9:14 - 9:16
    conforme essa pesquisa.
  • 9:16 - 9:19
    Então, o gênero aqui também
    precisa estar respondido,
  • 9:19 - 9:21
    senão ele será filtrado.
  • 9:21 - 9:22
    Então, temos nossos dados filtrados.
  • 9:22 - 9:26
    O segundo detalhe que a gente precisa
    fazer nesse teste é criar os grupos.
  • 9:26 - 9:29
    O nps é uma avaliação
    da área de marketing
  • 9:29 - 9:31
    para ver se as pessoas
    estão satisfeitas
  • 9:31 - 9:33
    ou não com a empresa.
  • 9:33 - 9:35
    Então, a gente consegue dividir
    em três perfis de pessoas.
  • 9:35 - 9:38
    Nós temos as literaturas,
  • 9:38 - 9:40
    são pessoas que dão
    notas muito baixas,
  • 9:40 - 9:43
    no caso, pessoas que dão notas
    entre 1 a 5.
  • 9:43 - 9:47
    Temos pessoas que são os promotores,
    são pessoas que dão notas bem altas,
  • 9:47 - 9:48
    notas entre 9 e 10.
  • 9:48 - 9:53
    E temos as pessoas neutras,
    que vão dar notas entre 7 e 8.
  • 9:53 - 9:57
    E aí, nós vamos classificá-las
    olhando as notas do nps.
  • 9:57 - 10:00
    Então, aqui nós estamos criando
    uma função.
  • 10:00 - 10:03
    E aí, nós vamos usar
    a expressão def,
  • 10:03 - 10:05
    que vai nos dizer que vamos criar
    uma função no Python.
  • 10:05 - 10:10
    O nome dessa função no Python
    será createNPSGroups
  • 10:10 - 10:12
    e o parâmetro dessa função
    será o x.
  • 10:12 - 10:17
    E aí, se o x for menor ou igual a 5,
    a pessoa será detratora.
  • 10:17 - 10:20
    Se ela for maior que 9,
    será promotora.
  • 10:20 - 10:25
    Caso não entre dentro dessas faixas,
    será neutra.
  • 10:25 - 10:27
    E aí, vamos classificar as pessoas.
  • 10:27 - 10:31
    Então, somente para mostrar para vocês,
    nós estamos criando uma nova coluna
  • 10:31 - 10:33
    nesse dataset chamado NPSGroups.
  • 10:33 - 10:38
    Estamos fazendo isso
    usando nossa coluna NPSScore
  • 10:38 - 10:41
    e vamos utilizar a seguinte função.
  • 10:41 - 10:42
    Essa função apply,
  • 10:42 - 10:46
    ela vai aplicar uma função
    em cada linha do seu banco de dados.
  • 10:46 - 10:50
    Então, ele vai olhar a nota
    da pessoa e vai classificar
  • 10:50 - 10:53
    se ela é promotora,
    neutra ou detrator.
  • 10:53 - 10:57
    Então, a função lambda
    é uma função que vai nos definir
  • 10:57 - 11:02
    uma função genérica no Python,
    com parâmetro x.
  • 11:02 - 11:07
    E aí, nós vamos usar
    nossa função createNPSGroups,
  • 11:07 - 11:08
    com parâmetro x.
  • 11:08 - 11:13
    Só que ele vai ler exatamente
    nossa coluna NPSScore.
  • 11:13 - 11:19
    Só para a gente ver essa coluna aqui,
    dados NPSFiltrados.
  • 11:19 - 11:21
    Nós temos agora aqui, NPSGroups.
  • 11:21 - 11:24
    Então, por exemplo, se a pessoa
    deu nota 10, ela é promotora.
  • 11:24 - 11:30
    Uma análise interessante
    que pode ser feita
  • 11:30 - 11:32
    é contar quantas pessoas
    são promotoras,
  • 11:32 - 11:34
    detratoras ou neutras.
  • 11:34 - 11:34
    Então, vamos lá.
  • 11:34 - 11:37
    Vamos fazer essa contagem aqui,
    bem simples.
  • 11:37 - 11:39
    Então, a gente está usando
    o comando do grupby
  • 11:39 - 11:41
    para dizer o grupo
    que a gente quer contar.
  • 11:41 - 11:46
    A função size vai dizer o número
    de pessoas em cada grupo.
  • 11:46 - 11:50
    E a função toFrame vai
    criar uma coluna chamada N.
  • 11:50 - 11:52
    Então, nós temos aqui
    os nossos grupos.
  • 11:52 - 11:53
    Nessa empresa,
  • 11:53 - 11:59
    temos 12.047 promotores,
    171 neutras e 25 detratores.
  • 11:59 - 12:02
    E agora, a gente vai começar
    a calcular o V de Kramer.
  • 12:02 - 12:07
    Então, vamos mostrar para vocês
    usando a função do SciPy.
  • 12:07 - 12:08
    Então, antes de a gente
    utilizar as funções,
  • 12:08 - 12:13
    uma pequena correção
    é criar a tabela cruzada.
  • 12:13 - 12:16
    Vamos utilizar a função crosstab,
  • 12:16 - 12:20
    que nos ajuda a fazer
    cruzamento entre colunas.
  • 12:20 - 12:22
    Então, no caso, nós vamos cruzar.
  • 12:22 - 12:25
    Gander e cruzar NPS groups.
  • 12:25 - 12:27
    E aí temos a seguinte tabela.
  • 12:27 - 12:31
    Temos gênero do indivíduo,
    quantidade de detratores,
  • 12:31 - 12:33
    neutras e promotores.
  • 12:33 - 12:36
    Um detalhe interessante.
  • 12:36 - 12:43
    Temos 105 neutros do grupo
    fêmeo e 66 do masculino.
  • 12:43 - 12:48
    1.565 do feminino
    e 482 do masculino.
  • 12:48 - 12:52
    Ou seja, o grupo feminino está bem
    dominante contra neutros e promotores.
  • 12:52 - 12:55
    Porém, a gente vê uma inversão aqui.
  • 12:55 - 12:59
    Aparentemente, o grupo masculino
    não está muito feliz
  • 12:59 - 13:01
    com os serviços dessa empresa.
  • 13:01 - 13:05
    Então, você tem mais masculinos
    detratores do que femininos.
  • 13:05 - 13:08
    Porém, lógico, os números
    são bem baixos aqui.
  • 13:08 - 13:11
    Contudo, isso pode ser algum
    pequeno sinal que o grupo masculino
  • 13:11 - 13:14
    parece não estar tão satisfeito
    quanto o feminino.
  • 13:14 - 13:16
    Nesse caso, a gente vai precisar
    medir ou analisar
  • 13:16 - 13:18
    as medidas de associação
  • 13:18 - 13:21
    e fazer os testes de hipóteses
    necessários.
  • 13:21 - 13:26
    Com o SciPy, a gente vai basicamente
    utilizar uma única função.
  • 13:26 - 13:30
    A gente vai chamar o ST,
    que é do módulo status,
  • 13:30 - 13:34
    a função contingens e temos
    uma medida de associação.
  • 13:34 - 13:36
    Então, essa função association,
  • 13:36 - 13:40
    ela vai nos auxiliar a obter
    medidas de associação.
  • 13:40 - 13:43
    Então, no caso, a gente chamou
    o método Cramer,
  • 13:43 - 13:45
    porque é a nossa medida
    que a gente precisa.
  • 13:45 - 13:49
    E aqui é a nossa tabelinha
    que nós obtemos anteriormente.
  • 13:49 - 13:51
    Então, o V de Cramer foi de 0.11.
  • 13:51 - 13:56
    Então, o nível de associação
    entre o gênero e você ser detrator,
  • 13:56 - 13:59
    neutro e promotor, parece ser baixo.
  • 13:59 - 14:01
    A gente vai precisar fazer
    alguns testes de hipóteses.
  • 14:01 - 14:02
    Mas, antes disso,
  • 14:02 - 14:04
    vamos ver outra maneira
    de a gente calcular o V de Cramer.
  • 14:04 - 14:07
    Para a gente conseguir obter
    os valores do V de Cramer,
  • 14:07 - 14:09
    a primeira coisa é obter
    o valor do Q2,
  • 14:09 - 14:12
    igual a gente obteve anteriormente
    para o valor de Φ.
  • 14:12 - 14:16
    Então, olhando aqui para o nosso código,
    a gente calculou o valor de Q2,
  • 14:16 - 14:18
    em torno de 28.
  • 14:18 - 14:19
    O tamanho da amostra,
  • 14:19 - 14:23
    que é uma contagem de todas
    as pessoas aqui da tabela.
  • 14:25 - 14:31
    Esse valor aqui, chamado MinShape,
    é o mínimo entre o número de linhas
  • 14:31 - 14:32
    e o número de colunas.
  • 14:32 - 14:37
    Então, a ideia é que a gente vai
    contar quantas colunas, no caso, 3.
  • 14:37 - 14:38
    Quantas linhas?
  • 14:38 - 14:39
    2.
  • 14:39 - 14:42
    E aí, a gente vai obter
    essa medida MinShape.
  • 14:42 - 14:44
    No caso, o MinShape
    teve igual ao valor de 1.
  • 14:44 - 14:49
    A gente pegou o mínimo
    do número de linhas e colunas.
  • 14:49 - 14:51
    No caso, o mínimo
    entre 3 e 2 será 2.
  • 14:51 - 14:55
    E aí, pela fórmula,
    a gente precisa subtrair 1.
  • 14:55 - 14:58
    Então, no final,
    a gente fica com MinShape igual a 1.
  • 14:58 - 15:01
    E aí, a gente obtém
    o V de Cramer igual a 0.11,
  • 15:01 - 15:07
    que é exatamente igual
    ao valor do SciPy.
  • 15:07 - 15:11
    Então, por trás da fórmula
    fechada da ferramenta do SciPy,
  • 15:11 - 15:14
    nós vamos ter também
    a fórmula direta.
  • 15:14 - 15:16
    Logicamente, no dia a dia,
    a gente vai usar a fórmula do SciPy,
  • 15:16 - 15:20
    porque a gente consegue
    obter mais rápido,
  • 15:20 - 15:22
    economizando tempo de trabalho.
  • 15:22 - 15:25
    A gente agora vai fazer,
    de novo, o teste de hipótese.
  • 15:25 - 15:27
    Esse teste de hipótese
    terá o seguinte padrão.
  • 15:27 - 15:36
    A hipótese nula será que não
    existe associação entre...
  • 15:36 - 15:42
    No caso aqui, será gênero e nps.
  • 15:42 - 15:45
    E a hipótese alternativa, se por acaso
    rejeitarmos a nula,
  • 15:45 - 15:48
    quer dizer que existe
    associação entre gênero e nps.
  • 15:48 - 15:52
    Então, para fazer o teste
    do teste quadrado,
  • 15:52 - 15:54
    que é o nosso teste de hipótese,
    é bastante simples.
  • 15:54 - 15:57
    Nós vamos usar
    a função ChiToContinence
  • 15:57 - 16:00
    e usar a nossa tabelinha
    que a gente obteve anteriormente.
  • 16:00 - 16:04
    E aí a gente vai obter o Q
    e o valor Q.
  • 16:04 - 16:08
    Então, vemos que o valor
    de Q2 foi 28.87.
  • 16:08 - 16:10
    E esse valor aqui é um valor
    extremamente pequeno.
  • 16:10 - 16:19
    É um valor onde foi 0,07 vezes,
    que está em notação científica,
  • 16:19 - 16:21
    depois o 5 vai aparecer.
  • 16:21 - 16:23
    Então, quer dizer que esse valor
    é extremamente pequeno.
  • 16:23 - 16:25
    E aí, o teste de hipótese,
  • 16:25 - 16:27
    a interpretação
    vai ser bem parecida
  • 16:27 - 16:28
    com o que a gente fez aqui.
  • 16:28 - 16:31
    Então, vou só copiar
    para ajudar aqui.
  • 16:31 - 16:34
    E aí, a gente vai ver o seguinte.
  • 16:34 - 16:39
    Se o valor P for menor que 0.05,
    então eu rejeito a hipótese nula.
  • 16:39 - 16:41
    Esse valor é extremamente pequeno.
  • 16:41 - 16:45
    Então, esse valor será menor
    do que 0.05.
  • 16:45 - 16:48
    Ou seja, nós podemos rejeitar
    essa hipótese nula,
  • 16:48 - 16:56
    o que nos indica que existe
    a associação entre gênero e nps.
  • 16:56 - 16:57
    O que esses dados indicam?
  • 16:57 - 16:59
    Que aquele valor que a gente
    viu anteriormente,
  • 16:59 - 17:02
    de mais homens
    um pouco mais tristes
  • 17:02 - 17:06
    com a empresa em relação
    às mulheres,
  • 17:06 - 17:10
    aparentemente parece
    ser uma diferença significativa.
  • 17:10 - 17:12
    Porque nosso teste de hipótese
    demonstrou isso.
  • 17:12 - 17:15
    Logicamente,
    do ponto de vista prático,
  • 17:15 - 17:17
    de 13 para 12, é um valor
    bem pequeno.
  • 17:17 - 17:21
    Do ponto de vista de negócios,
    é um tipo de sinal fraco.
  • 17:21 - 17:24
    A empresa deve ter uma certa
    tensão que, possivelmente,
  • 17:24 - 17:27
    homens podem estar
    um pouco mais infelizes
  • 17:27 - 17:29
    do que as mulheres no serviço.
  • 17:29 - 17:31
    Porém, como essa diferença
    foi pequena,
  • 17:31 - 17:33
    é somente um ponto de atenção.
  • 17:33 - 17:35
    Se, por acaso, com novas pesquisas,
  • 17:35 - 17:38
    esses valores continuarem
    se repetindo,
  • 17:38 - 17:40
    quer dizer que a empresa
    precisa tomar alguma decisão.
  • 17:40 - 17:44
    Próximo, agora, nós vamos
    medir os índices de correlação.
  • 17:44 - 17:47
    Nós vamos trabalhar
    com os dados da Bolsa de Valores.
  • 17:47 - 17:51
    Só um adendo, esses dados
    da Bolsa de Valores
  • 17:51 - 17:55
    são de um tempo relativamente
    longe do nosso tempo atual.
  • 17:55 - 17:59
    Ou seja, não utilizem esses dados
    para fazer investimentos,
  • 17:59 - 18:02
    porque faz muito tempo que esses
    dados foram obtidos.
  • 18:02 - 18:04
    Então, vamos conversar sobre
    essas duas linhas de códigos aqui.
  • 18:04 - 18:06
    Nessa linha de código,
  • 18:06 - 18:09
    a gente está verificando se existe
    valor nulo em nossos dados.
  • 18:09 - 18:11
    Quando a gente pega dados da Bolsa,
  • 18:11 - 18:15
    vai vir dados todos os dias
    da semana, de domingo a domingo.
  • 18:15 - 18:18
    Porém, a gente só tem negociação
    durante a semana, período comercial,
  • 18:18 - 18:19
    de segunda a sexta.
  • 18:19 - 18:23
    Então, sempre os dados entre sábado
    e domingo vão ficar valores nulos.
  • 18:23 - 18:25
    Então, a gente precisa fazer
    essa limpeza dos dados.
  • 18:25 - 18:28
    Então, aqui eu estou mostrando
    para vocês
  • 18:28 - 18:32
    que tem muitos valores nulos
    aqui e a gente precisa ajustar.
  • 18:32 - 18:34
    Essa função aqui embaixo, dropNA,
  • 18:34 - 18:39
    ele vai apagar todos
    esses valores nulos aqui.
  • 18:39 - 18:40
    Vamos ver se a gente
    tem algum nulo aqui.
  • 18:40 - 18:45
    Uma vez que os nulos foram tratados,
    a gente vai dar um detalhe aqui,
  • 18:45 - 18:49
    mostrar o período que ocorreram
    a obtenção desses dados.
  • 18:49 - 18:54
    Esses dados foram obtidos
    entre 2004 e 2011.
  • 18:54 - 18:58
    Ou seja, faz bastante tempo
    que esses dados foram obtidos.
  • 18:58 - 19:00
    Então, novamente ressaltando,
  • 19:00 - 19:02
    não utiliza esses dados
    para investimentos agora.
  • 19:02 - 19:05
    Vamos agora trabalhar com os nossos
    índices de correlação.
  • 19:05 - 19:08
    Então, a gente vai trabalhar
    com o índice de Pearson,
  • 19:08 - 19:10
    Spirma e Kendall.
  • 19:10 - 19:14
    Então, para obter a correlação
    de Pearson, é bastante simples.
  • 19:14 - 19:19
    Basicamente, nós temos os dados
    filtrados e vamos usar a função core,
  • 19:19 - 19:21
    que é uma função de correlação.
  • 19:21 - 19:25
    E aí, o Python simplifica
    usando o core.
  • 19:25 - 19:29
    Então, aqui seria a correlação
    entre Petrobras e Bradesco,
  • 19:29 - 19:31
    em torno de 0,53.
  • 19:31 - 19:34
    Entre Petrobras e Vale, 7072.
  • 19:34 - 19:36
    Ambev, 0,39.
  • 19:36 - 19:39
    E Itaú, 0,59.
  • 19:39 - 19:40
    Um detalhe interessante
  • 19:40 - 19:42
    é que a correlação
    entre Petrobras e Vale
  • 19:42 - 19:45
    é bem alta, 0,182.
  • 19:45 - 19:49
    A leitura dessa tabela, algumas
    vezes, pode ser um pouco confusa,
  • 19:49 - 19:51
    principalmente quando
    você tiver mais dados,
  • 19:51 - 19:53
    mais colunas para obter a correlação.
  • 19:53 - 19:57
    Então, a dica que eu dou
    é usar esse comando aqui.
  • 19:57 - 20:01
    Esse comando vai nos ajudar
    a criar uma tabela
  • 20:01 - 20:03
    com cores diferentes
    entre as correlações.
  • 20:03 - 20:06
    Aí vai ficar mais fácil a leitura.
  • 20:06 - 20:08
    Então, nesse caso aqui,
    a gente também fez um ajuste
  • 20:08 - 20:11
    para o número de casos
    depois da vírgula,
  • 20:11 - 20:13
    com essa função set para o sígio.
  • 20:13 - 20:16
    E aí nós temos uma tabela de correlação
    um pouco mais fácil de ser lida.
  • 20:16 - 20:21
    Então, a gente vê, por exemplo,
    a correlação entre Petro e Vale
  • 20:21 - 20:26
    como altas e a Itaú
    e Bradesco também.
  • 20:26 - 20:28
    Até porque faz sentido
    essa correlação alta,
  • 20:28 - 20:31
    já que Itaú e Bradesco
    são do setor bancário.
  • 20:31 - 20:33
    Então, tem que ter
    uma correlação alta.
  • 20:33 - 20:37
    E Vale e Petrobras
    são do setor de mineração.
  • 20:37 - 20:40
    Então, tendem a ter uma correlação
    alta também.
  • 20:40 - 20:44
    O próximo passo é, de novo,
    fazer o nosso teste de hipóteses.
  • 20:44 - 20:48
    A ideia é verificar se existe
    alguma correlação aqui
  • 20:48 - 20:51
    que é significativamente
    diferente de zero.
  • 20:51 - 20:55
    A menor correlação aqui,
    aliás, é o 0.39,
  • 20:55 - 20:57
    que já é uma correlação
    relativamente alta
  • 20:57 - 20:59
    quando a gente pensa
    em mercado financeiro.
  • 20:59 - 21:01
    Então, nessa primeira
    linha de código,
  • 21:01 - 21:05
    a gente está filtrando quais colunas
    precisamos fazer os testes.
  • 21:05 - 21:08
    No caso, vamos trabalhar
    com as ações.
  • 21:08 - 21:13
    Bradê, Petrobras, Bradesco,
    Vale, Ambev e Itaú.
  • 21:13 - 21:20
    E agora, nós vamos utilizar essa função
    do Pingouin, do PG, Paralysed Core,
  • 21:20 - 21:23
    onde nós vamos verificar
    a correlação 1 a 1.
  • 21:23 - 21:26
    Então, a gente vai pegar
    a correlação da Petrobras
  • 21:26 - 21:30
    e testar se ela é estatisticamente
    diferente com a VAR.
  • 21:30 - 21:33
    Depois, nós vamos fazer
    isso Petrobras com Bradesco.
  • 21:33 - 21:35
    Depois, Petrobras com Itaú.
  • 21:35 - 21:37
    Vamos analisar todas
    as correlações
  • 21:37 - 21:41
    e verificar se existe alguma
    diferença significativa entre elas.
  • 21:41 - 21:43
    Então, aqui, esses são nossos dados.
  • 21:43 - 21:45
    São dados voos e filtrados.
  • 21:45 - 21:49
    Essas são nossas colunas
    da correlação.
  • 21:49 - 21:54
    E esse aqui é o nosso método,
    que é a correlação de Pearson.
  • 21:54 - 21:56
    E aí, nós vamos ter
    essa tabelinha aqui.
  • 21:56 - 21:57
    Como é que a gente lê essa tabela?
  • 21:57 - 22:00
    O X é uma das nossas ações.
  • 22:00 - 22:03
    O Y é uma das nossas outras
    colunas de correlações.
  • 22:03 - 22:05
    Então, aqui, a gente
    está verificando a correlação
  • 22:05 - 22:07
    entre Petrobras e Bradesco.
  • 22:07 - 22:09
    Aqui, Petrobras e VAR.
  • 22:09 - 22:14
    E assim por diante, até a gente
    terminar em Ambev contra Itaú.
  • 22:14 - 22:15
    O método for Pearson.
  • 22:15 - 22:17
    Essa é a nossa hipótese.
  • 22:17 - 22:19
    A gente está analisando o seguinte.
  • 22:19 - 22:21
    Se nossa correlação
    é igual a zero
  • 22:21 - 22:23
    ou se nossa correlação
    é diferente de zero.
  • 22:23 - 22:27
    Essa coluna R vai dizer a correlação.
  • 22:27 - 22:28
    Então, aqui, por exemplo,
  • 22:28 - 22:32
    a correlação entre Petrobras
    e Bradesco foi zero, 53.
  • 22:32 - 22:35
    E um outro valor importante
    é esse PANC aqui.
  • 22:35 - 22:37
    Esse PANC é o nosso valor P.
  • 22:37 - 22:40
    E aí, eu vou dar uma dica
    para vocês como a gente interpreta.
  • 22:40 - 22:45
    A gente consegue ver que todos
    esses valores de PVELO
  • 22:45 - 22:46
    são extremamente pequenos.
  • 22:46 - 22:50
    Portanto, quer dizer que todas
    essas correlações foram significantes.
  • 22:50 - 22:54
    Ou seja, se por acaso o preço
    da Petrobras aumentar,
  • 22:54 - 22:59
    possivelmente o preço
    da Vale irá subir também.
  • 22:59 - 23:06
    Se por acaso o preço do Itaú aumentar,
    o preço da Vale e da Petrobras,
  • 23:06 - 23:07
    por exemplo, pode aumentar também.
  • 23:07 - 23:10
    Porque todas as correlações
    foram positivas.
  • 23:10 - 23:13
    E aí, é uma dica, por exemplo,
    quando você for investir,
  • 23:13 - 23:17
    saber quando seria
    o melhor momento para investir.
  • 23:17 - 23:20
    Por exemplo, se uma Petrobras
    estiver começando a subir,
  • 23:20 - 23:23
    talvez vá você dar uma olhada
    na Vale também
  • 23:23 - 23:24
    e ver se vale comprar as duas.
  • 23:24 - 23:28
    Os nossos próximos exemplos
    é basicamente mostrar para vocês
  • 23:28 - 23:31
    quando a gente usa o Spirma
    ou quando vai usar o Kindle.
  • 23:31 - 23:34
    Para obter a correlação
    de Spirma é bem simples.
  • 23:34 - 23:38
    Enquanto que na função do Pearson
    a gente usou a função CORE,
  • 23:38 - 23:40
    a gente obtive a correlação,
  • 23:40 - 23:43
    aqui é basicamente
    trocar o parâmetro.
  • 23:43 - 23:47
    A gente vai trocar o parâmetro
    para obter a correlação de Spirma.
  • 23:47 - 23:50
    Então, aqui, como a gente
    consegue ver no código,
  • 23:50 - 23:53
    o parâmetro METHOD
    vai ser o parâmetro do Spirma.
  • 23:53 - 23:56
    Então, a gente vai conseguir
    obter a correlação de Spirma.
  • 23:56 - 23:59
    Mais uma vez, a gente pode
    fazer alguns ajustes aqui.
  • 23:59 - 24:03
    E aí, a gente tem a matriz
    de correlação.
  • 24:03 - 24:06
    Basicamente, como essas
    índices de correlação
  • 24:06 - 24:09
    são muito parecidos,
  • 24:09 - 24:12
    as correlações vão ser bem similares
    ao primeiro caso,
  • 24:12 - 24:13
    que foi o caso do Pearson.
  • 24:13 - 24:16
    Portanto, nesse caso
    do mercado financeiro,
  • 24:16 - 24:22
    não vale tanto você ficar usando
    Pearson, Spirma ou Kendall.
  • 24:22 - 24:25
    Mas a ideia aqui é mostrar
    como obter essas correlações.
  • 24:25 - 24:28
    O teste de hipótese é bem parecido.
  • 24:28 - 24:33
    Nós vamos separar as colunas,
    que a gente precisa verificar,
  • 24:33 - 24:35
    e depois nós vamos
    fazer o teste de hipótese.
  • 24:35 - 24:37
    E aí, vamos voltar
    lá no Pearson rapidinho.
  • 24:37 - 24:42
    A gente viu que a gente
    usou o método Pearson.
  • 24:42 - 24:45
    Então, no caso, se estamos
    utilizando a correlação de Spirma,
  • 24:45 - 24:49
    então nós vamos utilizar
    o método Spirma.
  • 24:49 - 24:51
    Então, de novo, nós temos
    as correlações nessa coluna R,
  • 24:51 - 24:56
    e na coluna P, Anc, o valor P.
  • 24:56 - 24:59
    De novo, todos esses
    valores P são baixos.
  • 24:59 - 25:02
    E a interpretação é similar
    à correlação de Pearson.
  • 25:07 - 25:10
    Então, se algum do nosso valor
    P for menor do que 0.05,
  • 25:10 - 25:12
    então a nossa correlação
    é significante.
  • 25:12 - 25:15
    Nesse caso, todas as correlações
    foram significantes.
  • 25:15 - 25:19
    Para obter a correlação de Candle,
    também é bem simples.
  • 25:19 - 25:23
    Então, aqui no método,
    a gente vai usar Candle.
  • 25:23 - 25:24
    Nós temos a correlação.
  • 25:26 - 25:28
    Conseguimos, do mesmo jeito,
  • 25:28 - 25:32
    obter a minha matriz
    um pouco mais simplificada.
  • 25:32 - 25:36
    Usamos o objeto Candle Coral.
  • 25:36 - 25:39
    E aí, a gente vai ter
    de novo as correlações.
  • 25:39 - 25:43
    As correlações usando Candle são
    significativamente menores
  • 25:43 - 25:45
    do que as outras, porém,
  • 25:45 - 25:49
    isso não indica que essas correlações
    são menos importantes do que as outras.
  • 25:49 - 25:52
    Somente um método
    que é um pouco diferente.
  • 25:52 - 25:57
    Nós temos aqui as colunas, as cinco
    ações que estamos trabalhando,
  • 25:57 - 26:02
    e por último, o método, que é o Candle,
    e a gente vai testar as correlações.
  • 26:02 - 26:07
    Vou fazer um rapidinho,
    deixa eu só rodar aqui, rodar aqui.
  • 26:07 - 26:11
    Nós temos, de novo,
    as correlações entre essas ações.
  • 26:11 - 26:15
    O valor das correlações,
    e por último, o valor a P,
  • 26:15 - 26:18
    nessa coluna P-Anc,
    e a interpretação é similar.
  • 26:23 - 26:26
    Se o valor P menor que 0.05,
    então a correlação é significante.
  • 26:26 - 26:28
    A gente consegue ver nessa tabela
  • 26:28 - 26:31
    que todas as correlações
    foram significantes.
  • 26:31 - 26:33
    Então, basicamente,
    se você quiser trabalhar
  • 26:33 - 26:37
    com as ferramentas de associação
    e correlação no Python,
  • 26:37 - 26:40
    essas são algumas das funções
    que nós vamos trabalhar,
  • 26:40 - 26:41
    e aí vai, de novo,
  • 26:41 - 26:47
    da escolha de um ambiente de trabalho
    ou o que você acha mais fácil utilizar.
  • 26:47 - 26:50
    Tanto ou a função stats,
    ou a função pingouin,
  • 26:50 - 26:53
    e aí você vai conseguir
    obter todas as correlações
  • 26:53 - 26:55
    e associações necessárias
    para o seu trabalho.
Title:
vimeo.com/.../678965861
Video Language:
Portuguese, Brazilian
Duration:
27:00

Portuguese, Brazilian subtitles

Revisions Compare revisions