vimeo.com/.../678965861

Edit subtitles

0:10 - 0:12

Após entendermos
os conceitos básicos
0:12 - 0:15

relacionados à associação
e correlação,
0:15 - 0:19

é interessante conhecermos
algumas aplicações práticas
0:19 - 0:22

e a gente vê como no Python
a gente consegue utilizar os dados
0:22 - 0:24

para realizar essas medidas.
0:24 - 0:30

Então aqui no nosso navegador,
vamos digitar colab.research.google.com,
0:30 - 0:34

vamos selecionar novo notebook,
vamos criar mais uns blocos.
0:34 - 0:38

O segundo ponto que é interessante
é nomear nosso notebook.
0:38 - 0:45

No caso aqui vai ser
análise de associação e correlação.
0:45 - 0:47

Outro passo importante
seria basicamente
0:47 - 0:50

as ferramentas
que nós vamos utilizar.
0:50 - 0:54

No caso, uma versão
atualizada do SciPy
0:54 - 0:58

e uma versão atualizada
da ferramenta Pingouin.
0:58 - 1:02

A gente consegue pedir para rodá-las,
executar esses comandos,
1:02 - 1:07

após algum tempo, eles vão fazer
a instalação dessas ferramentas.
1:07 - 1:09

SciPy instalado com sucesso,
1:09 - 1:13

Pingouin vão fazer
várias dependências
1:13 - 1:16

e no final ele vai instalar
com sucesso.
1:16 - 1:18

E aqui ele finalizou
a instalação do Pingouin.
1:18 - 1:22

Então após a instalação das
ferramentas, a gente precisa agora
1:22 - 1:24

carregar o que a gente
precisa de módulos.
1:24 - 1:29

Nós temos os módulos NumPy,
Pandas, Seaborn e Matplotlib.
1:29 - 1:34

NumPy voltado à análise numérica,
o Pandas voltado à análise de dados,
1:34 - 1:37

Seaborn e Matplotlib
para a parte gráfica.
1:37 - 1:43

E no caso, o SciPy e o Pingouin
para a gente buscar
1:43 - 1:45

as medidas de associação
e correlação.
1:45 - 1:49

Então, a gente consegue carregar
ambos os módulos.
1:49 - 1:51

E agora a gente precisa
carregar os dados.
1:51 - 1:55

No caso aqui, vamos usar dados
para fazer as medidas de associação
1:55 - 1:57

e dados para fazer
as medidas de correlação.
1:57 - 1:59

Os dados que nós vamos trabalhar
1:59 - 2:03

serão os dados tratamentos
e os dados do nps.
2:03 - 2:06

Então a gente vai clicar
de novo na pastinha
2:06 - 2:09

e clicar na setinha para cima.
2:09 - 2:19

E aí, nós vamos usar o nps
e os dados do tratamento, primeiro.
2:19 - 2:25

E nós vamos ter mais um dado ainda,
que vamos ter os dados da bolsa.
2:28 - 2:31

Então, vamos trabalhar com três tipos
de dados para a gente ver
2:31 - 2:33

quando a gente aplica melhor
as medidas de associação
2:33 - 2:35

ou correlação.
2:35 - 2:37

Então, o próximo passo
é a gente carregar esses dados.
2:37 - 2:42

Vamos colocar aqui "Dados"
e a gente vai começar a carregar.
2:42 - 2:45

Primeiro seriam os dados
dos tratamentos.
2:45 - 2:49

Então, aqui nós estamos usando
a função do pandas,
2:49 - 2:52

chamada read_csv,
onde a gente vai carregar
2:52 - 2:56

os dados específicos
de tratamento de pacientes.
2:56 - 2:58

E o separador desse
dado é ponto e vírgula.
2:58 - 3:01

Então, por isso que a gente
está usando essa função sep
3:01 - 3:03

com ponto e vírgula.
3:03 - 3:04

E os dados de tratamento head,
3:04 - 3:07

mas vai nos ajudar a ver
as primeiras linhas.
3:07 - 3:09

Então, esse dataset tem três colunas.
3:09 - 3:15

A ID, que é a ID dos pacientes,
no caso, a coluna tratamento
3:15 - 3:17

e a coluna evolução.
3:17 - 3:21

Então, aqui vai dizer se o indivíduo
está sendo tratado ou não tratado.
3:21 - 3:26

E aqui vai dizer se ele melhorou
ou não melhorou após o tratamento.
3:26 - 3:30

O próximo dado vai ser o do nps.
3:32 - 3:38

E o segundo vai ser
os dados da bolsa.
3:42 - 3:43

E aí, alguns detalhes.
3:43 - 3:46

O nps, de novo,
o separador é ponto e vírgula.
3:46 - 3:48

E nos dados da bolsa
a gente tem outro detalhe.
3:48 - 3:52

A gente precisa trabalhar
com ponto e vírgula de separador.
3:52 - 3:55

E o decimal, nesse caso,
era vírgula.
3:55 - 3:58

Então, a gente precisou passar esse
parâmetro para que o Python
3:58 - 4:01

consiga entender que agora
a vírgula é ponto.
4:01 - 4:04

E aí, ele vai entender
como um valor numérico
4:04 - 4:08

os retornos das ações da bolsa.
4:08 - 4:11

Nesse momento nós vamos trabalhar
com esses cinco índices.
4:11 - 4:14

Vamos trabalhar com o Phi,
com o V de Cramer,
4:14 - 4:17

com o índice de correlação,
o índice de Spearman
4:17 - 4:18

e o índice de Kendall.
4:18 - 4:22

Então, o que nós estamos
trabalhando aqui para a gente estimar
4:22 - 4:24

esse coeficiente de Phi?
4:24 - 4:27

Nós estamos usando
a função crosstab.
4:27 - 4:30

Essa função tem por objetivo
criar uma tabela cruzada.
4:30 - 4:36

Então, nós vamos cruzar os dados desse
dataset chamado dados_tratamentos.
4:36 - 4:39

E aí, nós vamos usar o tratamento,
4:39 - 4:42

uma coluna chamada tratamento,
e outra coluna chamada evolução.
4:42 - 4:46

Então, o dado vai ficar
com essa característica aqui.
4:46 - 4:49

Uma tabelinha cruzada mostrando
os não tratados e tratados,
4:49 - 4:52

e as pessoas que melhoraram
e não melhoraram.
4:52 - 4:54

Então, como é que a gente
lê essa tabelinha aqui?
4:54 - 4:56

É bem simples, tá?
4:56 - 4:59

Quem foi tratado
melhorou 35 pessoas.
4:59 - 5:03

Enquanto que 26 não foram tratados,
porém melhoraram.
5:03 - 5:07

Contudo, 29 pessoas que não
foram tratadas não melhoraram.
5:07 - 5:11

Enquanto que 15 que foram
tratados não melhoraram.
5:11 - 5:14

Então, a ideia agora é a gente ver
se existe associação
5:14 - 5:19

entre essas colunas, "tratamento"
e se "melhorou da doença".
5:19 - 5:21

Primeiro, nós vamos usar o SciPy.
5:21 - 5:25

Então, no caso do SciPy, nós vamos
ter que fazer várias medidas aqui,
5:25 - 5:27

para a gente conseguir encontrar
o valor que a gente precisa.
5:27 - 5:29

Para a gente combater o valor do Phi,
5:29 - 5:32

a gente vai precisar fazer
alguns cálculos antes,
5:32 - 5:34

e aí no final a gente
vai obter esse valor.
5:34 - 5:35

Então, primeira coisa.
5:35 - 5:38

A gente vai ter que calcular
esse valor denominado de Q2.
5:38 - 5:43

Esse valor, ele está associado
à distribuição chamada de Q2.
5:43 - 5:45

Então, com essa função Stats,
5:45 - 5:49

a gente vai chamar a função
chi2_contigency,
5:49 - 5:52

onde nós vamos buscar
a nossa tabelinha,
5:52 - 5:54

que a gente acabou
de criar aqui em cima,
5:54 - 5:56

e nós vamos armazenar o valor de Q2.
5:56 - 6:00

Então, a gente basicamente
armazenou o valor de 4.6625.
6:00 - 6:05

O segundo cálculo que a gente precisa
fazer é o tamanho da amostra.
6:05 - 6:08

No caso, quantas pessoas
participaram dessa pesquisa.
6:08 - 6:12

No caso, a gente vai somar
todos os valores dessa tabela.
6:12 - 6:15

Então, nós temos 105
pessoas que participaram.
6:15 - 6:17

E aí, por último, nós vamos
obter o valor do Phi,
6:17 - 6:22

que basicamente é a raiz quadrada,
no caso, a gente está chamando NumPy,
6:22 - 6:26

e essa função "sqrt"
é para calcular a raiz quadrada.
6:26 - 6:29

E aqui nós temos
o nosso valor de Q2
6:29 - 6:32

dividido pelo tamanho da amostra.
6:32 - 6:35

Então, esse é o valor do nosso Phi,
que foi de 0.21.
6:35 - 6:39

A escala do Phi varia entre 0 e 1,
quanto mais próximo de 1,
6:39 - 6:40

maior associação.
6:40 - 6:43

Nesse caso, o valor foi de 0.21.
6:43 - 6:46

Parece não ser
uma associação muito grande.
6:46 - 6:48

E aí, devido a essa dúvida,
6:48 - 6:50

é interessante a gente
fazer o teste de hipótese.
6:50 - 6:54

Então, nós vamos fazer
o teste chamado teste qui-quadrado.
6:54 - 6:58

Esse teste, ele tem a ideia
de que ele vai ver os níveis
6:58 - 7:01

observados e esperados
da tabela,
7:01 - 7:03

vai usar a distribuição
de qui-quadrado
7:03 - 7:04

para testar a nossa hipótese.
7:04 - 7:08

E aqui nós vamos obter algumas
estatísticas que precisamos.
7:08 - 7:11

Então, vamos armazenar
aqui o valor de qui-quadrado,
7:11 - 7:16

o valor P, o grau de liberdade
e a tabela esperada,
7:16 - 7:19

onde o teste de qui-quadrado
7:19 - 7:22

combina a tabela esperada
com a nossa tabela real.
7:22 - 7:26

E aí, por último, a gente só vai
precisar de duas estatísticas.
7:26 - 7:28

Aqui e o P.
7:28 - 7:29

E aí, temos o seguinte.
7:29 - 7:33

Temos a estatística
de qui-quadrado, que foi de 4.66.
7:33 - 7:36

E a valor P, que é de 0.03.
7:36 - 7:41

E aí, a interpretação, eu acho
mais simples trabalhar com o valor P.
7:41 - 7:43

E aí a gente vai interpretar
da seguinte forma.
7:43 - 7:46

Se o meu valor P
foi menor que 0.05,
7:46 - 7:52

que no caso aqui foi 0.03, então
podemos rejeitar essa hipótese nula,
7:52 - 7:57

indicando que existe associação
entre ser tratado no medicamento
7:57 - 8:00

e você evoluir e ser curado da doença.
8:00 - 8:03

Ou seja, o tratamento
desse medicamento
8:03 - 8:05

aparentemente parece funcionar.
8:05 - 8:09

E aí, a indústria farmacêutica
deve fazer mais outros testes
8:09 - 8:11

para ver quando
colocar no mercado.
8:11 - 8:14

Então, essa seria uma forma
de a gente usar o Phi.
8:14 - 8:15

Então, a gente medir o Phi,
8:15 - 8:18

mostrando que existe
uma associação de 0.21,
8:18 - 8:22

e a gente usa o teste qui-quadrado
para complementar esse valor de Phi.
8:22 - 8:25

Vamos agora iniciar
um outro exemplo,
8:25 - 8:28

que a gente vai trabalhar
com o V de Cramer.
8:28 - 8:33

E o V de Cramer, nós vamos
trabalhar com os dados do nps.
8:33 - 8:37

Então, a primeira coisa que a gente
vai fazer é filtrar os dados do nps.
8:37 - 8:39

O nps tem alguns probleminhas
nesses dados.
8:39 - 8:43

Alguns probleminhas é que algumas
respostas estão incompletas,
8:43 - 8:46

então, a gente vai precisar
filtrar somente os questionários
8:46 - 8:48

que foram respondidos por completo.
8:48 - 8:54

O segundo ponto, a gente vai precisar
de um score de nps das pessoas.
8:54 - 8:58

Então, se a pessoa não deu nota,
ela não pode ser avaliada.
8:58 - 9:00

Então, a gente precisa
filtrar essas pessoas.
9:00 - 9:04

E o segundo, a gente vai utilizar
essa coluna chamada "gender",
9:04 - 9:07

que a gente quer ver a associação
entre o gênero da pessoa
9:07 - 9:08

e a nota do nps.
9:08 - 9:11

Somente para entender
se a empresa está atendendo melhor
9:11 - 9:14

as pessoas de gênero masculino
ou as pessoas de gênero feminino,
9:14 - 9:16

conforme essa pesquisa.
9:16 - 9:19

Então, o gênero aqui também
precisa estar respondido,
9:19 - 9:21

senão ele será filtrado.
9:21 - 9:22

Então, temos nossos dados filtrados.
9:22 - 9:26

O segundo detalhe que a gente precisa
fazer nesse teste é criar os grupos.
9:26 - 9:29

O nps é uma avaliação
da área de marketing
9:29 - 9:31

para ver se as pessoas
estão satisfeitas
9:31 - 9:33

ou não com a empresa.
9:33 - 9:35

Então, a gente consegue dividir
em três perfis de pessoas.
9:35 - 9:38

Nós temos as detratoras,
9:38 - 9:40

são pessoas que dão
notas muito baixas,
9:40 - 9:43

no caso, pessoas que dão notas
entre 1 a 5.
9:43 - 9:47

Temos pessoas que são os promotores,
são pessoas que dão notas bem altas,
9:47 - 9:49

notas entre 9 e 10.
9:49 - 9:54

E temos as pessoas neutras,
que vão dar notas entre 7 e 8.
9:54 - 9:58

E aí, nós vamos classificá-las
olhando as notas do nps.
9:58 - 10:00

Então, aqui nós estamos criando
uma função.
10:00 - 10:03

E aí, nós vamos usar
a expressão def,
10:03 - 10:05

que vai nos dizer que vamos criar
uma função no Python.
10:05 - 10:10

O nome dessa função no Python
será create_nps_groups
10:10 - 10:12

e o parâmetro dessa função será o x.
10:12 - 10:17

E aí, se o x for menor ou igual a 5,
a pessoa será detratora.
10:17 - 10:20

Se ela for maior que 9,
será promotora.
10:20 - 10:25

Caso não entre dentro dessas faixas,
será neutra.
10:25 - 10:27

E aí, vamos classificar as pessoas.
10:27 - 10:31

Então, somente para mostrar para vocês,
nós estamos criando uma nova coluna
10:31 - 10:34

nesse dataset chamado nps_groups.
10:34 - 10:38

Estamos fazendo isso
usando nossa coluna nps_score
10:38 - 10:41

e vamos utilizar a seguinte função.
10:41 - 10:42

Essa função apply,
10:42 - 10:47

ela vai aplicar uma função
em cada linha do seu banco de dados.
10:47 - 10:50

Então, ele vai olhar a nota
da pessoa e vai classificar
10:50 - 10:53

se ela é promotora,
neutra ou detrator.
10:53 - 10:58

Então, a função lambda
é uma função que vai nos definir
10:58 - 11:03

uma função genérica no Python,
com parâmetro x.
11:03 - 11:08

E aí, nós vamos usar nossa função
create_nps_groups com parâmetro x,
11:08 - 11:13

só que ele vai ler exatamente
nossa coluna nps_score.
11:13 - 11:19

Só para a gente ver essa coluna aqui,
dados_nps_filtrados.
11:19 - 11:22

Nós temos agora aqui, nps_groups.
11:22 - 11:26

Então, por exemplo, se a pessoa
deu nota 10, ela é promotora.
11:27 - 11:30

Uma análise interessante
que pode ser feita
11:30 - 11:32

é contar quantas pessoas
são promotoras,
11:32 - 11:34

detratoras ou neutras.
11:34 - 11:34

Então, vamos lá.
11:34 - 11:37

Vamos fazer essa contagem aqui,
bem simples.
11:37 - 11:39

Então, a gente está usando
o comando do groupby
11:39 - 11:42

para dizer o grupo
que a gente quer contar.
11:42 - 11:46

A função size vai dizer o número
de pessoas em cada grupo.
11:46 - 11:50

E a função to_frame vai
criar uma coluna chamada N.
11:50 - 11:52

Então, nós temos aqui
os nossos grupos.
11:52 - 11:55

Nessa empresa,
temos 2.047 promotores,
11:55 - 11:59

171 neutros e 25 detratores.
11:59 - 12:03

E agora, a gente vai começar
a calcular o V de Kramer.
12:03 - 12:07

Então, vamos mostrar para vocês
usando a função do SciPy.
12:07 - 12:08

Então, antes de a gente
utilizar as funções,
12:08 - 12:13

uma pequena correção
é criar a tabela cruzada.
12:13 - 12:16

Vamos utilizar a função crosstab,
12:16 - 12:20

que nos ajuda a fazer
cruzamento entre colunas.
12:20 - 12:25

Então, no caso, nós vamos cruzar
gender e cruzar nps_groups.
12:25 - 12:27

E aí, temos a seguinte tabela.
12:27 - 12:31

Temos gênero do indivíduo,
quantidade de detratores,
12:31 - 12:34

neutras e promotores.
12:34 - 12:36

Um detalhe interessante.
12:36 - 12:43

Temos 105 neutros do grupo
female e 66 do masculino.
12:43 - 12:48

1.565 do feminino
e 482 do masculino.
12:48 - 12:52

Ou seja, o grupo feminino está bem
dominante contra neutros e promotores.
12:52 - 12:55

Porém, a gente vê uma inversão aqui.
12:55 - 12:59

Aparentemente, o grupo masculino
não está muito feliz
12:59 - 13:01

com os serviços dessa empresa.
13:01 - 13:05

Então, você tem mais masculinos
detratores do que femininos.
13:05 - 13:08

Porém, lógico, os números
são bem baixos aqui.
13:08 - 13:11

Contudo, isso pode ser algum
pequeno sinal que o grupo masculino
13:11 - 13:14

parece não estar tão satisfeito
quanto o feminino.
13:14 - 13:16

Nesse caso, a gente vai precisar
medir ou analisar
13:16 - 13:18

as medidas de associação
13:18 - 13:20

e fazer os testes de hipóteses
necessários.
13:20 - 13:26

Com o SciPy, a gente vai basicamente
utilizar uma única função.
13:26 - 13:30

A gente vai chamar o st,
que é do módulo status,
13:30 - 13:34

a função contingency e temos
uma medida de associação.
13:34 - 13:36

Então, essa função association,
13:36 - 13:40

ela vai nos auxiliar a obter
medidas de associação.
13:40 - 13:43

Então, no caso, a gente chamou
o método Cramer,
13:43 - 13:45

porque é a nossa medida
que a gente precisa.
13:45 - 13:49

E aqui é a nossa tabelinha
que nós obtemos anteriormente.
13:49 - 13:52

Então, o V de Cramer foi de 0.11.
13:52 - 13:57

Então, o nível de associação
entre o gênero e você ser detrator,
13:57 - 13:59

neutro e promotor, parece ser baixo.
13:59 - 14:01

A gente vai precisar fazer
alguns testes de hipóteses.
14:01 - 14:02

Mas, antes disso,
14:02 - 14:04

vamos ver outra maneira
de a gente calcular o V de Cramer.
14:04 - 14:07

Para a gente conseguir obter
os valores do V de Cramer,
14:07 - 14:10

a primeira coisa é obter
o valor do qui-quadrado,
14:10 - 14:12

igual a gente obteve anteriormente
para o valor de Phi.
14:12 - 14:15

Então, olhando aqui
para o nosso código,
14:15 - 14:17

a gente calculou
o valor de qui-quadrado,
14:17 - 14:20

em torno de 28,
o tamanho da amostra,
14:20 - 14:23

que é uma contagem de todas
as pessoas aqui da tabela.
14:25 - 14:31

Esse valor aqui, chamado MinShape,
é o mínimo entre o número de linhas
14:31 - 14:32

e o número de colunas.
14:32 - 14:37

Então, a ideia é que a gente vai
contar quantas colunas, no caso, 3.
14:37 - 14:38

Quantas linhas?
14:38 - 14:39

2.
14:39 - 14:42

E aí, a gente vai obter
essa medida MinShape.
14:42 - 14:44

No caso, o MinShape
teve igual ao valor de 1.
14:44 - 14:49

A gente pegou o mínimo
do número de linhas e colunas.
14:49 - 14:53

No caso, o mínimo
entre 3 e 2 será 2.
14:53 - 14:55

E aí, pela fórmula,
a gente precisa subtrair 1.
14:55 - 14:58

Então, no final,
a gente fica com MinShape igual a 1.
14:58 - 15:01

E aí, a gente obtém
o V de Cramer igual a 0.11,
15:01 - 15:07

que é exatamente igual
ao valor do SciPy.
15:07 - 15:11

Então, por trás da fórmula
fechada da ferramenta do SciPy,
15:11 - 15:14

nós vamos ter também
a fórmula direta.
15:14 - 15:17

Logicamente, no dia a dia,
a gente vai usar a fórmula do SciPy,
15:17 - 15:20

porque a gente consegue
obter mais rápido,
15:20 - 15:22

economizando tempo de trabalho.
15:22 - 15:25

A gente agora vai fazer,
de novo, o teste de hipótese.
15:25 - 15:28

Esse teste de hipótese
terá o seguinte padrão.
15:28 - 15:36

A hipótese nula será que não
existe associação entre...
15:36 - 15:42

No caso aqui, será gênero e nps.
15:42 - 15:45

E a hipótese alternativa, se por acaso
rejeitarmos a nula,
15:45 - 15:49

quer dizer que existe
associação entre gênero e nps.
15:49 - 15:52

Então, para fazer o teste
do teste de qui-quadrado,
15:52 - 15:54

que é o nosso teste de hipótese,
é bastante simples.
15:54 - 15:57

Nós vamos usar
a função chi2_contingency
15:57 - 16:00

e usar a nossa tabelinha
que a gente obteve anteriormente.
16:00 - 16:04

E aí, a gente vai obter o qui
e o valor...
16:04 - 16:08

Então, vemos que o valor
de qui-quadrado foi 28.87.
16:08 - 16:11

E esse valor aqui é um valor
extremamente pequeno.
16:11 - 16:19

É um valor onde foi 0.07 vezes,
que está em notação científica,
16:19 - 16:21

depois o 5 vai aparecer.
16:21 - 16:23

Então, quer dizer que esse valor
é extremamente pequeno.
16:23 - 16:25

E aí, o teste de hipótese,
16:25 - 16:27

a interpretação
vai ser bem parecida
16:27 - 16:28

com o que a gente fez aqui.
16:28 - 16:31

Então, vou só copiar
para ajudar aqui.
16:31 - 16:34

E aí, a gente vai ver o seguinte.
16:34 - 16:39

Se o valor P for menor que 0.05,
então eu rejeito a hipótese nula.
16:39 - 16:41

Esse valor é extremamente pequeno.
16:41 - 16:45

Então, esse valor será menor
do que 0.05.
16:45 - 16:48

Ou seja, nós podemos rejeitar
essa hipótese nula,
16:48 - 16:56

o que nos indica que existe
a associação entre gênero e nps.
16:56 - 16:57

O que esses dados indicam?
16:57 - 16:59

Que aquele valor que a gente
viu anteriormente,
16:59 - 17:02

de mais homens
um pouco mais tristes
17:02 - 17:06

com a empresa em relação
às mulheres,
17:06 - 17:10

aparentemente parece
ser uma diferença significativa.
17:10 - 17:12

Porque nosso teste de hipótese
demonstrou isso.
17:12 - 17:15

Logicamente,
do ponto de vista prático,
17:15 - 17:17

de 13 para 12, é um valor
bem pequeno.
17:17 - 17:21

Do ponto de vista de negócios,
é um tipo de sinal fraco.
17:21 - 17:24

A empresa deve ter uma certa
tensão que, possivelmente,
17:24 - 17:27

homens podem estar
um pouco mais infelizes
17:27 - 17:29

do que as mulheres no serviço.
17:29 - 17:31

Porém, como essa diferença
foi pequena,
17:31 - 17:33

é somente um ponto de atenção.
17:33 - 17:35

Se, por acaso, com novas pesquisas,
17:35 - 17:38

esses valores continuarem
se repetindo,
17:38 - 17:40

quer dizer que a empresa
precisa tomar alguma decisão.
17:40 - 17:44

Próximo, agora, nós vamos
medir os índices de correlação.
17:44 - 17:47

Nós vamos trabalhar
com os dados da Bolsa de Valores.
17:47 - 17:51

Só um adendo, esses dados
da Bolsa de Valores
17:51 - 17:55

são de um tempo relativamente
longe do nosso tempo atual.
17:55 - 17:59

Ou seja, não utilizem esses dados
para fazer investimentos,
17:59 - 18:02

porque faz muito tempo que esses
dados foram obtidos.
18:02 - 18:04

Então, vamos conversar sobre
essas duas linhas de códigos aqui.
18:04 - 18:06

Nessa linha de código,
18:06 - 18:09

a gente está verificando se existe
valor nulo em nossos dados.
18:09 - 18:11

Quando a gente pega dados da Bolsa,
18:11 - 18:15

vai vir dados todos os dias
da semana, de domingo a domingo.
18:15 - 18:18

Porém, a gente só tem negociação
durante a semana, período comercial,
18:18 - 18:19

de segunda a sexta.
18:19 - 18:23

Então, sempre os dados entre sábado
e domingo vão ficar valores nulos.
18:23 - 18:26

Então, a gente precisa fazer
essa limpeza dos dados.
18:26 - 18:28

Então, aqui eu estou mostrando
para vocês
18:28 - 18:32

que tem muitos valores nulos
aqui e a gente precisa ajustar.
18:32 - 18:34

Essa função aqui embaixo, "dropna",
18:34 - 18:39

ela vai apagar todos
esses valores nulos aqui.
18:39 - 18:41

Vamos ver se a gente
tem algum nulo aqui.
18:41 - 18:43

Uma vez que os nulos foram tratados...
18:44 - 18:45

Vale um detalhe aqui,
18:45 - 18:49

mostrar o período que ocorreram
a obtenção desses dados.
18:49 - 18:54

Esses dados foram obtidos
entre 2004 e 2011.
18:54 - 18:58

Ou seja, faz bastante tempo
que esses dados foram obtidos.
18:58 - 19:00

Então, novamente ressaltando,
19:00 - 19:02

não utiliza esses dados
para investimentos agora.
19:02 - 19:05

Vamos agora trabalhar com os nossos
índices de correlação.
19:05 - 19:08

Então, a gente vai trabalhar
com o índice de Pearson,
19:08 - 19:10

Spearman e Kendall.
19:10 - 19:14

Então, para obter a correlação
de Pearson, é bastante simples.
19:14 - 19:19

Basicamente, nós temos os dados
filtrados e vamos usar a função core,
19:19 - 19:21

que é uma função de correlação.
19:21 - 19:25

E aí, o Python simplifica
usando o core.
19:25 - 19:29

Então, aqui seria a correlação
entre Petrobras e Bradesco,
19:29 - 19:31

em torno de 0.53.
19:31 - 19:34

Entre Petrobras e Vale, 0.72.
19:34 - 19:36

Ambev, 0.39.
19:36 - 19:40

E Itaú, 0.59.
19:40 - 19:40

Um detalhe interessante
19:40 - 19:42

é que a correlação
entre Petrobras e Vale
19:42 - 19:45

é bem alta, 0.72.
19:45 - 19:49

A leitura dessa tabela, algumas
vezes, pode ser um pouco confusa,
19:49 - 19:51

principalmente quando
você tiver mais dados,
19:51 - 19:53

mais colunas para obter a correlação.
19:53 - 19:57

Então, a dica que eu dou
é usar esse comando aqui.
19:57 - 20:01

Esse comando vai nos ajudar
a criar uma tabela
20:01 - 20:03

com cores diferentes
entre as correlações.
20:03 - 20:06

Aí, vai ficar mais fácil a leitura.
20:06 - 20:08

Então, nesse caso aqui,
a gente também fez um ajuste
20:08 - 20:11

para o número de casos
depois da vírgula,
20:11 - 20:13

com essa função set_precision.
20:13 - 20:15

E aí, nós temos
uma tabela de correlação
20:15 - 20:17

um pouco mais fácil de ser lida.
20:17 - 20:22

Então, a gente vê, por exemplo,
a correlação entre Petro e Vale
20:22 - 20:26

como altas e a Itaú
e Bradesco também.
20:26 - 20:28

Até porque faz sentido
essa correlação alta,
20:28 - 20:31

já que Itaú e Bradesco
são do setor bancário.
20:31 - 20:33

Então, tem que ter
uma correlação alta.
20:33 - 20:37

E Vale e Petrobras
são do setor de mineração.
20:37 - 20:40

Então, tendem a ter uma correlação
alta também.
20:40 - 20:44

O próximo passo é, de novo,
fazer o nosso teste de hipóteses.
20:44 - 20:48

A ideia é verificar se existe
alguma correlação aqui
20:48 - 20:51

que é significativamente
diferente de zero.
20:51 - 20:55

A menor correlação aqui,
aliás, é o 0.39,
20:55 - 20:57

que já é uma correlação
relativamente alta
20:57 - 20:59

quando a gente pensa
em mercado financeiro.
20:59 - 21:01

Então, nessa primeira
linha de código,
21:01 - 21:05

a gente está filtrando quais colunas
precisamos fazer os testes.
21:05 - 21:08

No caso, vamos trabalhar
com as ações.
21:08 - 21:13

Petrobras, Bradesco,
Vale, Ambev e Itaú.
21:13 - 21:18

E agora, nós vamos utilizar
essa função do Pingouin,
21:18 - 21:20

pg.pairwise_corr
21:20 - 21:23

onde nós vamos verificar
a correlação 1 a 1.
21:23 - 21:26

Então, a gente vai pegar
a correlação da Petrobras
21:26 - 21:30

e testar se ela é estatisticamente
diferente com a Vale.
21:30 - 21:33

Depois, nós vamos fazer
isso da Petrobras com Bradesco.
21:33 - 21:35

Depois, Petrobras com Itaú.
21:35 - 21:37

Vamos analisar todas
as correlações
21:37 - 21:41

e verificar se existe alguma
diferença significativa entre elas.
21:41 - 21:43

Então, aqui, esses são nossos dados.
21:43 - 21:45

São dados_bolsa_filtrados.
21:45 - 21:49

Essas são nossas colunas
da correlação.
21:49 - 21:54

E esse aqui é o nosso método,
que é a correlação de Pearson.
21:54 - 21:56

E aí, nós vamos ter
essa tabelinha aqui.
21:56 - 21:57

Como é que a gente lê essa tabela?
21:57 - 22:00

O X é uma das nossas ações.
22:00 - 22:03

O Y é uma das nossas outras
colunas de correlações.
22:03 - 22:05

Então, aqui, a gente
está verificando a correlação
22:05 - 22:07

entre Petrobras e Bradesco.
22:07 - 22:09

Aqui, Petrobras e Vale.
22:09 - 22:14

E assim por diante, até a gente
terminar em Ambev contra Itaú.
22:14 - 22:15

O método foi o Pearson.
22:15 - 22:17

Essa é a nossa hipótese.
22:17 - 22:19

A gente está analisando o seguinte.
22:19 - 22:21

Se nossa correlação
é igual a zero
22:21 - 22:23

ou se nossa correlação
é diferente de zero.
22:23 - 22:27

Essa coluna R vai dizer a correlação.
22:27 - 22:28

Então, aqui, por exemplo,
22:28 - 22:32

a correlação entre Petrobras
e Bradesco foi 0.53.
22:32 - 22:35

E um outro valor importante
é esse p-unc aqui.
22:35 - 22:37

Esse p-unc é o nosso valor P.
22:37 - 22:41

E aí, eu vou dar uma dica
para vocês como a gente interpreta.
22:41 - 22:45

A gente consegue ver que todos
esses valores de p-value
22:45 - 22:46

são extremamente pequenos.
22:46 - 22:51

Portanto, quer dizer que todas
essas correlações foram significantes.
22:51 - 22:54

Ou seja, se por acaso o preço
da Petrobras aumentar,
22:54 - 22:59

possivelmente o preço
da Vale irá subir também.
22:59 - 23:06

Se por acaso o preço do Itaú aumentar,
o preço da Vale e da Petrobras,
23:06 - 23:07

por exemplo, pode aumentar também.
23:07 - 23:10

Porque todas as correlações
foram positivas.
23:10 - 23:13

E aí, é uma dica, por exemplo,
quando você for investir,
23:13 - 23:17

saber quando seria
o melhor momento para investir.
23:17 - 23:20

Por exemplo, se uma Petrobras
estiver começando a subir,
23:20 - 23:23

talvez vá você dar uma olhada
na Vale também
23:23 - 23:24

e ver se vale comprar as duas.
23:24 - 23:28

Os nossos próximos exemplos
é basicamente mostrar para vocês
23:28 - 23:31

quando a gente usa o Spearman
ou quando vai usar o Kendall.
23:31 - 23:34

Para obter a correlação
de Spearman é bem simples.
23:34 - 23:38

Enquanto que na função do Pearson
a gente usou a função corr,
23:38 - 23:40

a gente obtive a correlação,
23:40 - 23:43

aqui é basicamente
trocar o parâmetro.
23:43 - 23:47

A gente vai trocar o parâmetro
para obter a correlação de Spearman.
23:47 - 23:50

Então, aqui, como a gente
consegue ver no código,
23:50 - 23:53

o parâmetro method
vai ser o parâmetro do Spearman.
23:53 - 23:56

Então, a gente vai conseguir
obter a correlação de Spearman.
23:56 - 23:59

Mais uma vez, a gente pode
fazer alguns ajustes aqui.
23:59 - 24:03

E aí, a gente tem a matriz
de correlação.
24:03 - 24:06

Basicamente, como essas
índices de correlação
24:06 - 24:09

são muito parecidos,
24:09 - 24:12

as correlações vão ser bem similares
ao primeiro caso,
24:12 - 24:13

que foi o caso do Pearson.
24:13 - 24:16

Portanto, nesse caso
do mercado financeiro,
24:16 - 24:22

não vale tanto você ficar usando
Pearson, Spearman ou Kendall.
24:22 - 24:25

Mas a ideia aqui é mostrar
como obter essas correlações.
24:25 - 24:28

O teste de hipótese é bem parecido.
24:28 - 24:33

Nós vamos separar as colunas,
que a gente precisa verificar,
24:33 - 24:35

e depois nós vamos
fazer o teste de hipótese.
24:35 - 24:39

E aí, vamos voltar
lá no Pearson rapidinho.
24:39 - 24:42

A gente viu que a gente
usou o método Pearson.
24:42 - 24:45

Então, no caso, se estamos
utilizando a correlação de Spearman,
24:45 - 24:49

então nós vamos utilizar
o método Spearman.
24:49 - 24:53

Então, de novo, nós temos
as correlações nessa coluna R,
24:53 - 24:56

e na coluna p-unc, o valor P.
24:56 - 24:59

De novo, todos esses
valores P são baixos.
24:59 - 25:03

E a interpretação é similar
à correlação de Pearson.
25:07 - 25:10

Então, se algum do nosso valor
P for menor do que 0.05,
25:10 - 25:12

então a nossa correlação
é significante.
25:12 - 25:15

Nesse caso, todas as correlações
foram significantes.
25:15 - 25:19

Para obter a correlação de Kendall,
também é bem simples.
25:19 - 25:23

Então, aqui no método,
a gente vai usar Kendall.
25:23 - 25:25

Nós temos a correlação.
25:26 - 25:28

Conseguimos, do mesmo jeito,
25:28 - 25:32

obter a minha matriz
um pouco mais simplificada.
25:32 - 25:36

Usamos o objeto kendall_correl.
25:36 - 25:39

E aí, a gente vai ter
de novo as correlações.
25:39 - 25:43

As correlações usando Kendall
são significativamente menores
25:43 - 25:45

do que as outras, porém,
25:45 - 25:49

isso não indica que essas correlações
são menos importantes do que as outras.
25:49 - 25:52

Somente um método
que é um pouco diferente.
25:52 - 25:57

Nós temos aqui as colunas, as cinco
ações que estamos trabalhando,
25:57 - 26:03

e por último, o método, que é o Kendall,
e a gente vai testar as correlações.
26:03 - 26:07

Vou fazer um rapidinho,
deixa eu só rodar aqui.
26:07 - 26:11

Nós temos, de novo,
as correlações entre essas ações.
26:11 - 26:15

O valor das correlações,
e por último, o valor a P,
26:15 - 26:20

nessa coluna p-unc,
e a interpretação é similar.
26:23 - 26:27

Se o valor p é menor que 0.05,
então a correlação é significante.
26:27 - 26:28

A gente consegue ver nessa tabela
26:28 - 26:31

que todas as correlações
foram significantes.
26:31 - 26:33

Então, basicamente,
se você quiser trabalhar
26:33 - 26:37

com as ferramentas de associação
e correlação no Python,
26:37 - 26:40

essas são algumas das funções
que nós vamos trabalhar,
26:40 - 26:44

e aí, vai de novo, da escolha
de um ambiente de trabalho
26:44 - 26:47

ou o que você acha mais fácil utilizar.
26:47 - 26:50

Tanto a função stats,
ou a função pingouin,
26:50 - 26:53

e aí você vai conseguir
obter todas as correlações
26:53 - 26:55

e associações necessárias
para o seu trabalho.

Title:: vimeo.com/.../678965861
Video Language:: Portuguese, Brazilian
Duration:: 27:00

	Roberto Severiano Junior edited Portuguese, Brazilian subtitles for vimeo.com/.../678965861
	Roberto Severiano Junior edited Portuguese, Brazilian subtitles for vimeo.com/.../678965861
	Roberto Severiano Junior edited Portuguese, Brazilian subtitles for vimeo.com/.../678965861
	Roberto Severiano Junior edited Portuguese, Brazilian subtitles for vimeo.com/.../678965861
	Roberto Severiano Junior edited Portuguese, Brazilian subtitles for vimeo.com/.../678965861
	Roberto Severiano Junior edited Portuguese, Brazilian subtitles for vimeo.com/.../678965861
	Roberto Severiano Junior edited Portuguese, Brazilian subtitles for vimeo.com/.../678965861
	Roberto Severiano Junior edited Portuguese, Brazilian subtitles for vimeo.com/.../678965861

Show all

Portuguese, Brazilian subtitles

Revisions Compare revisions

Revision 15 Edited

Roberto Severiano Junior
Revision 14 Edited

Roberto Severiano Junior
Revision 13 Edited

Roberto Severiano Junior
Revision 12 Edited

Roberto Severiano Junior
Revision 11 Edited

Roberto Severiano Junior
Revision 10 Edited

Roberto Severiano Junior
Revision 9 Edited

Roberto Severiano Junior
Revision 8 Edited

Roberto Severiano Junior
Revision 7 Uploaded

Roberto Severiano Junior
Revision 6 Edited

Roberto Severiano Junior
Revision 5 Edited

Roberto Severiano Junior
Revision 4 Edited

Roberto Severiano Junior
Revision 3 Edited

Roberto Severiano Junior
Revision 2 Edited

Roberto Severiano Junior
Revision 1 Uploaded

Roberto Severiano Junior

	Revision Number	Author	Created
	15	Roberto Severiano Junior
	14	Roberto Severiano Junior
	13	Roberto Severiano Junior
	12	Roberto Severiano Junior
	11	Roberto Severiano Junior
	10	Roberto Severiano Junior
	9	Roberto Severiano Junior
	8	Roberto Severiano Junior
	7	Roberto Severiano Junior
	6	Roberto Severiano Junior
	5	Roberto Severiano Junior
	4	Roberto Severiano Junior
	3	Roberto Severiano Junior
	2	Roberto Severiano Junior
	1	Roberto Severiano Junior

vimeo.com/.../678965861

Revisions Compare revisions

Our website uses cookies

Operating cookies (Required)