-
Após entendermos
os conceitos básicos
-
relacionados à associação
e correlação,
-
é interessante conhecermos
algumas aplicações práticas
-
e a gente vê como no Python
a gente consegue utilizar os dados
-
para realizar essas medidas.
-
Então aqui no nosso navegador,
vamos digitar colab.research.google.com,
-
vamos selecionar novo notebook,
vamos criar mais uns blocos.
-
O segundo ponto que é interessante
é nomear nosso notebook.
-
No caso aqui vai ser
análise de associação e correlação.
-
Outro passo importante
seria basicamente
-
as ferramentas
que nós vamos utilizar.
-
No caso, uma versão
atualizada do SciPy
-
e uma versão atualizada
da ferramenta Pingouin.
-
A gente consegue pedir para rodá-las,
executar esses comandos,
-
após algum tempo, eles vão fazer
a instalação dessas ferramentas.
-
SciPy instalado com sucesso,
-
Pingouin vão fazer
várias dependências
-
e no final ele vai instalar
com sucesso.
-
E aqui ele finalizou
a instalação do Pingouin.
-
Então após a instalação das
ferramentas, a gente precisa agora
-
carregar o que a gente
precisa de módulos.
-
Nós temos os módulos NumPy,
Pandas, Seaborn e Matplotlib.
-
NumPy voltado à análise numérica,
o Pandas voltado à análise de dados,
-
Seaborn e Matplotlib
para a parte gráfica.
-
E no caso, o SciPy e o Pingouin
para a gente buscar
-
as medidas de associação
e correlação.
-
Então, a gente consegue carregar
ambos os módulos.
-
E agora a gente precisa
carregar os dados.
-
No caso aqui, vamos usar dados
para fazer as medidas de associação
-
e dados para fazer
as medidas de correlação.
-
Os dados que nós vamos trabalhar
-
serão os dados tratamentos
e os dados do nps.
-
Então a gente vai clicar
de novo na pastinha
-
e clicar na setinha para cima.
-
E aí, nós vamos usar o nps
e os dados do tratamento, primeiro.
-
E nós vamos ter mais um dado ainda,
que vamos ter os dados da bolsa.
-
Então, vamos trabalhar com três tipos
de dados para a gente ver
-
quando a gente aplica melhor
as medidas de associação
-
ou correlação.
-
Então, o próximo passo
é a gente carregar esses dados.
-
Vamos colocar aqui "Dados"
e a gente vai começar a carregar.
-
Primeiro seriam os dados
dos tratamentos.
-
Então, aqui nós estamos usando
a função do pandas,
-
chamada read_csv,
onde a gente vai carregar
-
os dados específicos
de tratamento de pacientes.
-
E o separador desse
dado é ponto e vírgula.
-
Então, por isso que a gente
está usando essa função sep
-
com ponto e vírgula.
-
E os dados de tratamento head,
-
mas vai nos ajudar a ver
as primeiras linhas.
-
Então, esse dataset tem três colunas.
-
A ID, que é a ID dos pacientes,
no caso, a coluna tratamento
-
e a coluna evolução.
-
Então, aqui vai dizer se o indivíduo
está sendo tratado ou não tratado.
-
E aqui vai dizer se ele melhorou
ou não melhorou após o tratamento.
-
O próximo dado vai ser o do nps.
-
E o segundo vai ser
os dados da bolsa.
-
E aí, alguns detalhes.
-
O nps, de novo,
o separador é ponto e vírgula.
-
E nos dados da bolsa
a gente tem outro detalhe.
-
A gente precisa trabalhar
com ponto e vírgula de separador.
-
E o decimal, nesse caso,
era vírgula.
-
Então, a gente precisou passar esse
parâmetro para que o Python
-
consiga entender que agora
a vírgula é ponto.
-
E aí, ele vai entender
como um valor numérico
-
os retornos das ações da bolsa.
-
Nesse momento nós vamos trabalhar
com esses cinco índices.
-
Vamos trabalhar com o Phi,
com o V de Cramer,
-
com o índice de correlação,
o índice de Spearman
-
e o índice de Kendall.
-
Então, o que nós estamos
trabalhando aqui para a gente estimar
-
esse coeficiente de Phi?
-
Nós estamos usando
a função crosstab.
-
Essa função tem por objetivo
criar uma tabela cruzada.
-
Então, nós vamos cruzar os dados desse
dataset chamado dados_tratamentos.
-
E aí, nós vamos usar o tratamento,
-
uma coluna chamada tratamento,
e outra coluna chamada evolução.
-
Então, o dado vai ficar
com essa característica aqui.
-
Uma tabelinha cruzada mostrando
os não tratados e tratados,
-
e as pessoas que melhoraram
e não melhoraram.
-
Então, como é que a gente
lê essa tabelinha aqui?
-
É bem simples, tá?
-
Quem foi tratado
melhorou 35 pessoas.
-
Enquanto que 26 não foram tratados,
porém melhoraram.
-
Contudo, 29 pessoas que não
foram tratadas não melhoraram.
-
Enquanto que 15 que foram
tratados não melhoraram.
-
Então, a ideia agora é a gente ver
se existe associação
-
entre essas colunas, "tratamento"
e se "melhorou da doença".
-
Primeiro, nós vamos usar o SciPy.
-
Então, no caso do SciPy, nós vamos
ter que fazer várias medidas aqui,
-
para a gente conseguir encontrar
o valor que a gente precisa.
-
Para a gente combater o valor do Phi,
-
a gente vai precisar fazer
alguns cálculos antes,
-
e aí no final a gente
vai obter esse valor.
-
Então, primeira coisa.
-
A gente vai ter que calcular
esse valor denominado de Q2.
-
Esse valor, ele está associado
à distribuição chamada de Q2.
-
Então, com essa função Stats,
-
a gente vai chamar a função
chi2_contigency,
-
onde nós vamos buscar
a nossa tabelinha,
-
que a gente acabou
de criar aqui em cima,
-
e nós vamos armazenar o valor de Q2.
-
Então, a gente basicamente
armazenou o valor de 4.6625.
-
O segundo cálculo que a gente precisa
fazer é o tamanho da amostra.
-
No caso, quantas pessoas
participaram dessa pesquisa.
-
No caso, a gente vai somar
todos os valores dessa tabela.
-
Então, nós temos 105
pessoas que participaram.
-
E aí, por último, nós vamos
obter o valor do Phi,
-
que basicamente é a raiz quadrada,
no caso, a gente está chamando NumPy,
-
e essa função "sqrt"
é para calcular a raiz quadrada.
-
E aqui nós temos
o nosso valor de Q2
-
dividido pelo tamanho da amostra.
-
Então, esse é o valor do nosso Phi,
que foi de 0.21.
-
A escala do Phi varia entre 0 e 1,
quanto mais próximo de 1,
-
maior associação.
-
Nesse caso, o valor foi de 0.21.
-
Parece não ser
uma associação muito grande.
-
E aí, devido a essa dúvida,
-
é interessante a gente
fazer o teste de hipótese.
-
Então, nós vamos fazer
o teste chamado teste qui-quadrado.
-
Esse teste, ele tem a ideia
de que ele vai ver os níveis
-
observados e esperados
da tabela,
-
vai usar a distribuição
de qui-quadrado
-
para testar a nossa hipótese.
-
E aqui nós vamos obter algumas
estatísticas que precisamos.
-
Então, vamos armazenar
aqui o valor de qui-quadrado,
-
o valor P, o grau de liberdade
e a tabela esperada,
-
onde o teste de qui-quadrado
-
combina a tabela esperada
com a nossa tabela real.
-
E aí, por último, a gente só vai
precisar de duas estatísticas.
-
Aqui e o P.
-
E aí, temos o seguinte.
-
Temos a estatística
de qui-quadrado, que foi de 4.66.
-
E a valor P, que é de 0.03.
-
E aí, a interpretação, eu acho
mais simples trabalhar com o valor P.
-
E aí a gente vai interpretar
da seguinte forma.
-
Se o meu valor P
foi menor que 0.05,
-
que no caso aqui foi 0.03, então
podemos rejeitar essa hipótese nula,
-
indicando que existe associação
entre ser tratado no medicamento
-
e você evoluir e ser curado da doença.
-
Ou seja, o tratamento
desse medicamento
-
aparentemente parece funcionar.
-
E aí, a indústria farmacêutica
deve fazer mais outros testes
-
para ver quando
colocar no mercado.
-
Então, essa seria uma forma
de a gente usar o Phi.
-
Então, a gente medir o Phi,
-
mostrando que existe
uma associação de 0.21,
-
e a gente usa o teste qui-quadrado
para complementar esse valor de Phi.
-
Vamos agora iniciar
um outro exemplo,
-
que a gente vai trabalhar
com o V de Cramer.
-
E o V de Cramer, nós vamos
trabalhar com os dados do nps.
-
Então, a primeira coisa que a gente
vai fazer é filtrar os dados do nps.
-
O nps tem alguns probleminhas
nesses dados.
-
Alguns probleminhas é que algumas
respostas estão incompletas,
-
então, a gente vai precisar
filtrar somente os questionários
-
que foram respondidos por completo.
-
O segundo ponto, a gente vai precisar
de um score de nps das pessoas.
-
Então, se a pessoa não deu nota,
ela não pode ser avaliada.
-
Então, a gente precisa
filtrar essas pessoas.
-
E o segundo, a gente vai utilizar
essa coluna chamada "gender",
-
que a gente quer ver a associação
entre o gênero da pessoa
-
e a nota do nps.
-
Somente para entender
se a empresa está atendendo melhor
-
as pessoas de gênero masculino
ou as pessoas de gênero feminino,
-
conforme essa pesquisa.
-
Então, o gênero aqui também
precisa estar respondido,
-
senão ele será filtrado.
-
Então, temos nossos dados filtrados.
-
O segundo detalhe que a gente precisa
fazer nesse teste é criar os grupos.
-
O nps é uma avaliação
da área de marketing
-
para ver se as pessoas
estão satisfeitas
-
ou não com a empresa.
-
Então, a gente consegue dividir
em três perfis de pessoas.
-
Nós temos as detratoras,
-
são pessoas que dão
notas muito baixas,
-
no caso, pessoas que dão notas
entre 1 a 5.
-
Temos pessoas que são os promotores,
são pessoas que dão notas bem altas,
-
notas entre 9 e 10.
-
E temos as pessoas neutras,
que vão dar notas entre 7 e 8.
-
E aí, nós vamos classificá-las
olhando as notas do nps.
-
Então, aqui nós estamos criando
uma função.
-
E aí, nós vamos usar
a expressão def,
-
que vai nos dizer que vamos criar
uma função no Python.
-
O nome dessa função no Python
será create_nps_groups
-
e o parâmetro dessa função será o x.
-
E aí, se o x for menor ou igual a 5,
a pessoa será detratora.
-
Se ela for maior que 9,
será promotora.
-
Caso não entre dentro dessas faixas,
será neutra.
-
E aí, vamos classificar as pessoas.
-
Então, somente para mostrar para vocês,
nós estamos criando uma nova coluna
-
nesse dataset chamado nps_groups.
-
Estamos fazendo isso
usando nossa coluna nps_score
-
e vamos utilizar a seguinte função.
-
Essa função apply,
-
ela vai aplicar uma função
em cada linha do seu banco de dados.
-
Então, ele vai olhar a nota
da pessoa e vai classificar
-
se ela é promotora,
neutra ou detrator.
-
Então, a função lambda
é uma função que vai nos definir
-
uma função genérica no Python,
com parâmetro x.
-
E aí, nós vamos usar nossa função
create_nps_groups com parâmetro x,
-
só que ele vai ler exatamente
nossa coluna nps_score.
-
Só para a gente ver essa coluna aqui,
dados_nps_filtrados.
-
Nós temos agora aqui, nps_groups.
-
Então, por exemplo, se a pessoa
deu nota 10, ela é promotora.
-
Uma análise interessante
que pode ser feita
-
é contar quantas pessoas
são promotoras,
-
detratoras ou neutras.
-
Então, vamos lá.
-
Vamos fazer essa contagem aqui,
bem simples.
-
Então, a gente está usando
o comando do groupby
-
para dizer o grupo
que a gente quer contar.
-
A função size vai dizer o número
de pessoas em cada grupo.
-
E a função to_frame vai
criar uma coluna chamada N.
-
Então, nós temos aqui
os nossos grupos.
-
Nessa empresa,
temos 2.047 promotores,
-
171 neutros e 25 detratores.
-
E agora, a gente vai começar
a calcular o V de Kramer.
-
Então, vamos mostrar para vocês
usando a função do SciPy.
-
Então, antes de a gente
utilizar as funções,
-
uma pequena correção
é criar a tabela cruzada.
-
Vamos utilizar a função crosstab,
-
que nos ajuda a fazer
cruzamento entre colunas.
-
Então, no caso, nós vamos cruzar
gender e cruzar nps_groups.
-
E aí, temos a seguinte tabela.
-
Temos gênero do indivíduo,
quantidade de detratores,
-
neutras e promotores.
-
Um detalhe interessante.
-
Temos 105 neutros do grupo
female e 66 do masculino.
-
1.565 do feminino
e 482 do masculino.
-
Ou seja, o grupo feminino está bem
dominante contra neutros e promotores.
-
Porém, a gente vê uma inversão aqui.
-
Aparentemente, o grupo masculino
não está muito feliz
-
com os serviços dessa empresa.
-
Então, você tem mais masculinos
detratores do que femininos.
-
Porém, lógico, os números
são bem baixos aqui.
-
Contudo, isso pode ser algum
pequeno sinal que o grupo masculino
-
parece não estar tão satisfeito
quanto o feminino.
-
Nesse caso, a gente vai precisar
medir ou analisar
-
as medidas de associação
-
e fazer os testes de hipóteses
necessários.
-
Com o SciPy, a gente vai basicamente
utilizar uma única função.
-
A gente vai chamar o st,
que é do módulo status,
-
a função contingency e temos
uma medida de associação.
-
Então, essa função association,
-
ela vai nos auxiliar a obter
medidas de associação.
-
Então, no caso, a gente chamou
o método Cramer,
-
porque é a nossa medida
que a gente precisa.
-
E aqui é a nossa tabelinha
que nós obtemos anteriormente.
-
Então, o V de Cramer foi de 0.11.
-
Então, o nível de associação
entre o gênero e você ser detrator,
-
neutro e promotor, parece ser baixo.
-
A gente vai precisar fazer
alguns testes de hipóteses.
-
Mas, antes disso,
-
vamos ver outra maneira
de a gente calcular o V de Cramer.
-
Para a gente conseguir obter
os valores do V de Cramer,
-
a primeira coisa é obter
o valor do qui-quadrado,
-
igual a gente obteve anteriormente
para o valor de Phi.
-
Então, olhando aqui
para o nosso código,
-
a gente calculou
o valor de qui-quadrado,
-
em torno de 28,
o tamanho da amostra,
-
que é uma contagem de todas
as pessoas aqui da tabela.
-
Esse valor aqui, chamado MinShape,
é o mínimo entre o número de linhas
-
e o número de colunas.
-
Então, a ideia é que a gente vai
contar quantas colunas, no caso, 3.
-
Quantas linhas?
-
2.
-
E aí, a gente vai obter
essa medida MinShape.
-
No caso, o MinShape
teve igual ao valor de 1.
-
A gente pegou o mínimo
do número de linhas e colunas.
-
No caso, o mínimo
entre 3 e 2 será 2.
-
E aí, pela fórmula,
a gente precisa subtrair 1.
-
Então, no final,
a gente fica com MinShape igual a 1.
-
E aí, a gente obtém
o V de Cramer igual a 0.11,
-
que é exatamente igual
ao valor do SciPy.
-
Então, por trás da fórmula
fechada da ferramenta do SciPy,
-
nós vamos ter também
a fórmula direta.
-
Logicamente, no dia a dia,
a gente vai usar a fórmula do SciPy,
-
porque a gente consegue
obter mais rápido,
-
economizando tempo de trabalho.
-
A gente agora vai fazer,
de novo, o teste de hipótese.
-
Esse teste de hipótese
terá o seguinte padrão.
-
A hipótese nula será que não
existe associação entre...
-
No caso aqui, será gênero e nps.
-
E a hipótese alternativa, se por acaso
rejeitarmos a nula,
-
quer dizer que existe
associação entre gênero e nps.
-
Então, para fazer o teste
do teste de qui-quadrado,
-
que é o nosso teste de hipótese,
é bastante simples.
-
Nós vamos usar
a função chi2_contingency
-
e usar a nossa tabelinha
que a gente obteve anteriormente.
-
E aí, a gente vai obter o qui
e o valor...
-
Então, vemos que o valor
de qui-quadrado foi 28.87.
-
E esse valor aqui é um valor
extremamente pequeno.
-
É um valor onde foi 0.07 vezes,
que está em notação científica,
-
depois o 5 vai aparecer.
-
Então, quer dizer que esse valor
é extremamente pequeno.
-
E aí, o teste de hipótese,
-
a interpretação
vai ser bem parecida
-
com o que a gente fez aqui.
-
Então, vou só copiar
para ajudar aqui.
-
E aí, a gente vai ver o seguinte.
-
Se o valor P for menor que 0.05,
então eu rejeito a hipótese nula.
-
Esse valor é extremamente pequeno.
-
Então, esse valor será menor
do que 0.05.
-
Ou seja, nós podemos rejeitar
essa hipótese nula,
-
o que nos indica que existe
a associação entre gênero e nps.
-
O que esses dados indicam?
-
Que aquele valor que a gente
viu anteriormente,
-
de mais homens
um pouco mais tristes
-
com a empresa em relação
às mulheres,
-
aparentemente parece
ser uma diferença significativa.
-
Porque nosso teste de hipótese
demonstrou isso.
-
Logicamente,
do ponto de vista prático,
-
de 13 para 12, é um valor
bem pequeno.
-
Do ponto de vista de negócios,
é um tipo de sinal fraco.
-
A empresa deve ter uma certa
tensão que, possivelmente,
-
homens podem estar
um pouco mais infelizes
-
do que as mulheres no serviço.
-
Porém, como essa diferença
foi pequena,
-
é somente um ponto de atenção.
-
Se, por acaso, com novas pesquisas,
-
esses valores continuarem
se repetindo,
-
quer dizer que a empresa
precisa tomar alguma decisão.
-
Próximo, agora, nós vamos
medir os índices de correlação.
-
Nós vamos trabalhar
com os dados da Bolsa de Valores.
-
Só um adendo, esses dados
da Bolsa de Valores
-
são de um tempo relativamente
longe do nosso tempo atual.
-
Ou seja, não utilizem esses dados
para fazer investimentos,
-
porque faz muito tempo que esses
dados foram obtidos.
-
Então, vamos conversar sobre
essas duas linhas de códigos aqui.
-
Nessa linha de código,
-
a gente está verificando se existe
valor nulo em nossos dados.
-
Quando a gente pega dados da Bolsa,
-
vai vir dados todos os dias
da semana, de domingo a domingo.
-
Porém, a gente só tem negociação
durante a semana, período comercial,
-
de segunda a sexta.
-
Então, sempre os dados entre sábado
e domingo vão ficar valores nulos.
-
Então, a gente precisa fazer
essa limpeza dos dados.
-
Então, aqui eu estou mostrando
para vocês
-
que tem muitos valores nulos
aqui e a gente precisa ajustar.
-
Essa função aqui embaixo, "dropna",
-
ela vai apagar todos
esses valores nulos aqui.
-
Vamos ver se a gente
tem algum nulo aqui.
-
Uma vez que os nulos foram tratados...
-
Vale um detalhe aqui,
-
mostrar o período que ocorreram
a obtenção desses dados.
-
Esses dados foram obtidos
entre 2004 e 2011.
-
Ou seja, faz bastante tempo
que esses dados foram obtidos.
-
Então, novamente ressaltando,
-
não utiliza esses dados
para investimentos agora.
-
Vamos agora trabalhar com os nossos
índices de correlação.
-
Então, a gente vai trabalhar
com o índice de Pearson,
-
Spearman e Kendall.
-
Então, para obter a correlação
de Pearson, é bastante simples.
-
Basicamente, nós temos os dados
filtrados e vamos usar a função core,
-
que é uma função de correlação.
-
E aí, o Python simplifica
usando o core.
-
Então, aqui seria a correlação
entre Petrobras e Bradesco,
-
em torno de 0.53.
-
Entre Petrobras e Vale, 0.72.
-
Ambev, 0.39.
-
E Itaú, 0.59.
-
Um detalhe interessante
-
é que a correlação
entre Petrobras e Vale
-
é bem alta, 0.72.
-
A leitura dessa tabela, algumas
vezes, pode ser um pouco confusa,
-
principalmente quando
você tiver mais dados,
-
mais colunas para obter a correlação.
-
Então, a dica que eu dou
é usar esse comando aqui.
-
Esse comando vai nos ajudar
a criar uma tabela
-
com cores diferentes
entre as correlações.
-
Aí, vai ficar mais fácil a leitura.
-
Então, nesse caso aqui,
a gente também fez um ajuste
-
para o número de casos
depois da vírgula,
-
com essa função set_precision.
-
E aí, nós temos
uma tabela de correlação
-
um pouco mais fácil de ser lida.
-
Então, a gente vê, por exemplo,
a correlação entre Petro e Vale
-
como altas e a Itaú
e Bradesco também.
-
Até porque faz sentido
essa correlação alta,
-
já que Itaú e Bradesco
são do setor bancário.
-
Então, tem que ter
uma correlação alta.
-
E Vale e Petrobras
são do setor de mineração.
-
Então, tendem a ter uma correlação
alta também.
-
O próximo passo é, de novo,
fazer o nosso teste de hipóteses.
-
A ideia é verificar se existe
alguma correlação aqui
-
que é significativamente
diferente de zero.
-
A menor correlação aqui,
aliás, é o 0.39,
-
que já é uma correlação
relativamente alta
-
quando a gente pensa
em mercado financeiro.
-
Então, nessa primeira
linha de código,
-
a gente está filtrando quais colunas
precisamos fazer os testes.
-
No caso, vamos trabalhar
com as ações.
-
Petrobras, Bradesco,
Vale, Ambev e Itaú.
-
E agora, nós vamos utilizar
essa função do Pingouin,
-
pg.pairwise_corr
-
onde nós vamos verificar
a correlação 1 a 1.
-
Então, a gente vai pegar
a correlação da Petrobras
-
e testar se ela é estatisticamente
diferente com a Vale.
-
Depois, nós vamos fazer
isso da Petrobras com Bradesco.
-
Depois, Petrobras com Itaú.
-
Vamos analisar todas
as correlações
-
e verificar se existe alguma
diferença significativa entre elas.
-
Então, aqui, esses são nossos dados.
-
São dados_bolsa_filtrados.
-
Essas são nossas colunas
da correlação.
-
E esse aqui é o nosso método,
que é a correlação de Pearson.
-
E aí, nós vamos ter
essa tabelinha aqui.
-
Como é que a gente lê essa tabela?
-
O X é uma das nossas ações.
-
O Y é uma das nossas outras
colunas de correlações.
-
Então, aqui, a gente
está verificando a correlação
-
entre Petrobras e Bradesco.
-
Aqui, Petrobras e Vale.
-
E assim por diante, até a gente
terminar em Ambev contra Itaú.
-
O método foi o Pearson.
-
Essa é a nossa hipótese.
-
A gente está analisando o seguinte.
-
Se nossa correlação
é igual a zero
-
ou se nossa correlação
é diferente de zero.
-
Essa coluna R vai dizer a correlação.
-
Então, aqui, por exemplo,
-
a correlação entre Petrobras
e Bradesco foi 0.53.
-
E um outro valor importante
é esse p-unc aqui.
-
Esse p-unc é o nosso valor P.
-
E aí, eu vou dar uma dica
para vocês como a gente interpreta.
-
A gente consegue ver que todos
esses valores de p-value
-
são extremamente pequenos.
-
Portanto, quer dizer que todas
essas correlações foram significantes.
-
Ou seja, se por acaso o preço
da Petrobras aumentar,
-
possivelmente o preço
da Vale irá subir também.
-
Se por acaso o preço do Itaú aumentar,
o preço da Vale e da Petrobras,
-
por exemplo, pode aumentar também.
-
Porque todas as correlações
foram positivas.
-
E aí, é uma dica, por exemplo,
quando você for investir,
-
saber quando seria
o melhor momento para investir.
-
Por exemplo, se uma Petrobras
estiver começando a subir,
-
talvez vá você dar uma olhada
na Vale também
-
e ver se vale comprar as duas.
-
Os nossos próximos exemplos
é basicamente mostrar para vocês
-
quando a gente usa o Spearman
ou quando vai usar o Kendall.
-
Para obter a correlação
de Spearman é bem simples.
-
Enquanto que na função do Pearson
a gente usou a função corr,
-
a gente obtive a correlação,
-
aqui é basicamente
trocar o parâmetro.
-
A gente vai trocar o parâmetro
para obter a correlação de Spearman.
-
Então, aqui, como a gente
consegue ver no código,
-
o parâmetro method
vai ser o parâmetro do Spearman.
-
Então, a gente vai conseguir
obter a correlação de Spearman.
-
Mais uma vez, a gente pode
fazer alguns ajustes aqui.
-
E aí, a gente tem a matriz
de correlação.
-
Basicamente, como essas
índices de correlação
-
são muito parecidos,
-
as correlações vão ser bem similares
ao primeiro caso,
-
que foi o caso do Pearson.
-
Portanto, nesse caso
do mercado financeiro,
-
não vale tanto você ficar usando
Pearson, Spearman ou Kendall.
-
Mas a ideia aqui é mostrar
como obter essas correlações.
-
O teste de hipótese é bem parecido.
-
Nós vamos separar as colunas,
que a gente precisa verificar,
-
e depois nós vamos
fazer o teste de hipótese.
-
E aí, vamos voltar
lá no Pearson rapidinho.
-
A gente viu que a gente
usou o método Pearson.
-
Então, no caso, se estamos
utilizando a correlação de Spearman,
-
então nós vamos utilizar
o método Spearman.
-
Então, de novo, nós temos
as correlações nessa coluna R,
-
e na coluna p-unc, o valor P.
-
De novo, todos esses
valores P são baixos.
-
E a interpretação é similar
à correlação de Pearson.
-
Então, se algum do nosso valor
P for menor do que 0.05,
-
então a nossa correlação
é significante.
-
Nesse caso, todas as correlações
foram significantes.
-
Para obter a correlação de Kendall,
também é bem simples.
-
Então, aqui no método,
a gente vai usar Kendall.
-
Nós temos a correlação.
-
Conseguimos, do mesmo jeito,
-
obter a minha matriz
um pouco mais simplificada.
-
Usamos o objeto kendall_correl.
-
E aí, a gente vai ter
de novo as correlações.
-
As correlações usando Kendall
são significativamente menores
-
do que as outras, porém,
-
isso não indica que essas correlações
são menos importantes do que as outras.
-
Somente um método
que é um pouco diferente.
-
Nós temos aqui as colunas, as cinco
ações que estamos trabalhando,
-
e por último, o método, que é o Kendall,
e a gente vai testar as correlações.
-
Vou fazer um rapidinho,
deixa eu só rodar aqui.
-
Nós temos, de novo,
as correlações entre essas ações.
-
O valor das correlações,
e por último, o valor a P,
-
nessa coluna p-unc,
e a interpretação é similar.
-
Se o valor p é menor que 0.05,
então a correlação é significante.
-
A gente consegue ver nessa tabela
-
que todas as correlações
foram significantes.
-
Então, basicamente,
se você quiser trabalhar
-
com as ferramentas de associação
e correlação no Python,
-
essas são algumas das funções
que nós vamos trabalhar,
-
e aí, vai de novo, da escolha
de um ambiente de trabalho
-
ou o que você acha mais fácil utilizar.
-
Tanto a função stats,
ou a função pingouin,
-
e aí você vai conseguir
obter todas as correlações
-
e associações necessárias
para o seu trabalho.