vimeo.com/.../678965861

Rollback to version 3

0:10 - 0:11

Após entendermos
os conceitos básicos
0:11 - 0:17

relacionados à associação
e correlação,
0:17 - 0:19

é interessante conhecermos
algumas aplicações práticas
0:19 - 0:22

e a gente vê como no Python
a gente consegue utilizar os dados
0:22 - 0:24

para realizar essas medidas.
0:24 - 0:28

Então aqui no nosso navegador,
vamos digitar colab.trisex.google.com,
0:28 - 0:34

vamos selecionar novo notebook,
vamos criar mais uns blocos.
0:34 - 0:38

O segundo ponto que é interessante
é nomear nosso notebook.
0:38 - 0:45

No caso aqui vai ser
análise de associação e correlação.
0:45 - 0:50

Outro passo importante seria basicamente
as ferramentas que nós vamos utilizar.
0:50 - 0:54

No caso, uma versão
atualizada do SciPy
0:54 - 0:58

e uma versão atualizada
da ferramenta Pingouin.
0:58 - 1:02

A gente consegue pedir para rodá-las,
executar esses comandos,
1:02 - 1:07

após algum tempo eles vão fazer
a instalação dessas ferramentas.
1:07 - 1:09

SciPy instalado com sucesso,
1:09 - 1:13

Pingouin vão fazer
várias dependências
1:13 - 1:16

e no final ele vai instalar
com sucesso.
1:16 - 1:18

E aqui ele finalizou
a instalação do Pingouin.
1:18 - 1:22

Então após a instalação das
ferramentas, a gente precisa agora
1:22 - 1:24

carregar o que a gente
precisa de módulos.
1:24 - 1:29

Nós temos os módulos NumPy, Pandas,
Seaborn e Matplotlib.
1:29 - 1:35

NumPy voltado à análise numérica,
o Pandas voltado à análise de dados,
1:35 - 1:37

Seaborn e Matplotlib
para a parte gráfica.
1:37 - 1:41

E no caso, o SciPy e o Pingouin
para a gente buscar
1:41 - 1:45

as medidas de associação
e correlação.
1:45 - 1:49

Então, a gente consegue carregar
ambos os módulos.
1:49 - 1:51

E agora a gente precisa
carregar os dados.
1:51 - 1:53

No caso aqui, vamos usar dados
para fazer as medidas de associação
1:53 - 1:58

e dados para fazer
as medidas de correlação.
1:58 - 1:59

Os dados que nós vamos trabalhar
1:59 - 2:03

serão os dados tratamentos
e os dados do NPS.
2:03 - 2:06

Então a gente vai clicar
de novo na pastinha,
2:06 - 2:09

clicar na setinha para cima.
2:09 - 2:16

E aí nós vamos usar o NPS
e os dados do tratamento.
2:16 - 2:19

Primeiro.
2:19 - 2:23

E nós vamos ter mais um dado ainda,
que vamos ter os dados da bolsa.
2:28 - 2:30

Então, vamos trabalhar com três tipos
de dados para a gente ver
2:30 - 2:32

quando a gente aplica melhor
as medidas de associação
2:32 - 2:35

ou correlação.
2:35 - 2:37

Então o próximo passo
é a gente carregar esses dados.
2:37 - 2:42

Então vamos colocar aqui dados
e a gente vai começar a carregar.
2:42 - 2:46

Primeiro seriam os dados
dos tratamentos.
2:46 - 2:47

Então, aqui nós estamos usando
a função do pandas,
2:47 - 2:52

chamada read_csv,
onde a gente vai carregar
2:52 - 2:56

os dados específicos
de tratamento de pacientes.
2:56 - 2:58

E o separador desse
dado é ponto e vírgula.
2:58 - 3:00

Então por isso que a gente
está usando essa função CEP
3:00 - 3:03

com ponto e vírgula.
3:03 - 3:05

E os dados de tratamento read,
3:05 - 3:07

mas vai nos ajudar a ver
as primeiras linhas.
3:07 - 3:09

Então esse dataset tem três colunas.
3:09 - 3:15

A ID, que é a ID dos pacientes,
no caso, a coluna tratamento
3:15 - 3:17

a a coluna evolução.
3:17 - 3:21

Então, aqui vai dizer se o indivíduo
está sendo tratado ou não tratado.
3:21 - 3:26

E aqui vai dizer se ele melhorou
ou não melhorou após o tratamento.
3:26 - 3:28

O próximo dado vai ser o do NPS.
3:32 - 3:38

E o segundo vai ser
os dados da bolsa.
3:42 - 3:43

E aí alguns detalhes.
3:43 - 3:46

O NPS, de novo,
o separador é ponto e vírgula.
3:46 - 3:49

E nos dados da bolsa
a gente tem outro detalhe.
3:49 - 3:52

Que a gente precisa trabalhar
com ponto e vírgula de separador.
3:52 - 3:55

E o decimal, nesse caso,
era vírgula.
3:55 - 3:57

Então a gente precisou passar esse
parâmetro para que o Python
3:57 - 4:02

consiga entender que agora
a vírgula é ponto.
4:02 - 4:05

E aí, ele vai entender
como um valor numérico
4:05 - 4:08

os retornos das ações da bolsa.
4:08 - 4:11

Nesse momento nós vamos trabalhar
com esses cinco índices.
4:11 - 4:13

Vamos trabalhar com o FII,
com o V de Cramer,
4:13 - 4:16

com o índice de correlação,
o índice de Spearman
4:16 - 4:19

e o índice de Kendall.
4:19 - 4:22

Então, o que é que nós estamos
trabalhando aqui para a gente estimar
4:22 - 4:24

esse coeficiente de FII?
4:24 - 4:27

Nós estamos usando
a função cross-tab.
4:27 - 4:30

Essa função tem por objetivo
criar uma tabela cruzada.
4:30 - 4:36

Então nós vamos cruzar os dados desse
dataset chamado dados tratamento.
4:36 - 4:39

E aí nós vamos usar o tratamento,
4:39 - 4:42

uma coluna chamada tratamento,
e outra coluna chamada evolução.
4:42 - 4:46

Então, o dado vai ficar
com essa característica aqui.
4:46 - 4:50

Uma tabelinha cruzada mostrando
os não tratados e tratados, e as
4:50 - 4:53

pessoas que melhoraram
e não melhoraram.
4:53 - 4:54

Então, como é que a gente
lê essa tabelinha aqui?
4:54 - 4:56

É bem simples, tá?
4:56 - 4:59

Quem foi tratado
melhorou 35 pessoas.
4:59 - 5:02

Enquanto que 26 não foram tratados,
5:02 - 5:03

porém melhoraram.
5:03 - 5:07

Contudo, 29 pessoas que não
foram tratadas não melhoraram.
5:07 - 5:11

Enquanto que 15 que foram
tratados não melhoraram.
5:11 - 5:13

Então, a ideia agora é a gente ver
se existe associação
5:13 - 5:16

entre essas colunas.
5:16 - 5:19

Tratamento e melhorou da doença.
5:19 - 5:21

Primeiro, nós vamos usar o SciPy.
5:21 - 5:25

Então, no caso do SciPy, nós vamos
ter que fazer várias medidas aqui,
5:25 - 5:27

para a gente conseguir encontrar
o valor que a gente precisa.
5:27 - 5:30

Para a gente combater o valor do FI,
5:30 - 5:32

a gente vai precisar fazer
alguns cálculos antes,
5:32 - 5:34

e aí no final a gente
vai obter esse valor.
5:34 - 5:35

Então, primeira coisa.
5:35 - 5:39

A gente vai ter que calcular
esse valor denominado de Q2.
5:39 - 5:43

Esse valor, ele está associado
à distribuição chamada de Q2.
5:43 - 5:45

Então, com essa função Stats,
5:45 - 5:48

a gente vai chamar a função
SciToContinence,
5:48 - 5:51

onde nós vamos buscar
a nossa tabelinha,
5:51 - 5:54

que a gente acabou
de criar aqui em cima,
5:54 - 5:56

e nós vamos armazenar o valor de Q2.
5:56 - 6:01

Então, a gente basicamente
armazenou o valor de 4,6625.
6:01 - 6:05

Segunda cálculo que a gente precisa
fazer é o tamanho da amostra.
6:05 - 6:08

No caso, quantas pessoas
participaram dessa pesquisa.
6:08 - 6:12

No caso, a gente vai somar
todos os valores dessa tabela.
6:12 - 6:15

Então, nós temos 105
pessoas que participaram.
6:15 - 6:17

E aí, por último, nós vamos
obter o valor do FI,
6:17 - 6:20

que basicamente é a raiz quadrada,
no caso, a gente está chamando no pai,
6:20 - 6:26

e essa função SQRT
é para calcular a raiz quadrada.
6:26 - 6:29

E aqui nós temos
o nosso valor de Q2
6:29 - 6:32

dividido pelo tamanho da amostra.
6:32 - 6:36

Então, esse é o valor do nosso FI,
que foi de 0,21.
6:36 - 6:38

A escala do FI varia entre 0 e 1,
quanto mais próximo de 1,
6:38 - 6:40

maior associação.
6:40 - 6:43

Nesse caso, o valor foi de 0,21.
6:43 - 6:46

Parece não ser
uma associação muito grande.
6:46 - 6:48

E aí, devido a essa dúvida,
6:48 - 6:50

é interessante a gente
fazer o teste de hipótese.
6:50 - 6:54

Então, nós vamos fazer
o teste chamado teste Q2.
6:54 - 6:55

Esse teste, ele tem a ideia
de que ele vai ver os níveis
6:55 - 6:59

observados e esperados
da tabela,
6:59 - 7:05

vai usar a distribuição de Q2
para testar a nossa hipótese.
7:05 - 7:07

E aqui nós vamos obter algumas
estatísticas que precisamos.
7:07 - 7:12

Então, vamos armazenar aqui
o valor de Q2, o valor P,
7:12 - 7:14

o grau de liberdade
e a tabela esperada,
7:14 - 7:22

onde o teste de Q2 combina a tabela
esperada com a nossa tabela real.
7:22 - 7:26

E aí, por último, a gente só vai
precisar de duas estatísticas.
7:26 - 7:27

Aqui e o P.
7:27 - 7:29

E aí, temos o seguinte.
7:29 - 7:32

Temos a estatística de Q2,
que foi de 4,66.
7:32 - 7:36

E a valor P, que é de 0,03.
7:36 - 7:41

E aí a interpretação, eu acho
mais simples trabalhar com o valor P.
7:41 - 7:43

E aí a gente vai interpretar
da seguinte forma.
7:43 - 7:46

Se o meu valor P
foi menor que 0,05,
7:46 - 7:52

que no caso aqui foi 0,03, então
podemos rejeitar essa hipótese nula,
7:52 - 7:56

indicando que existe associação
entre ser tratado no medicamento
7:56 - 8:00

e você evoluir e ser curado da doença.
8:00 - 8:05

Ou seja, o tratamento desse medicamento
aparentemente parece funcionar.
8:05 - 8:08

E aí a indústria farmacêutica
deve fazer mais outros testes
8:08 - 8:11

para ver quando
colocar no mercado.
8:11 - 8:14

Então, essa seria uma forma
de a gente usar o FII.
8:14 - 8:16

Então, a gente medir o FII,
8:16 - 8:18

mostrando que existe
uma associação de 0,21,
8:18 - 8:22

e a gente usa o teste aqui quadrado
para complementar esse valor de FII.
8:22 - 8:25

Vamos agora iniciar um outro exemplo,
8:25 - 8:28

que a gente vai trabalhar
com o V de Cramer.
8:28 - 8:33

E o V de Cramer, nós vamos
trabalhar com os dados do nps.
8:33 - 8:37

Então, a primeira coisa que a gente
vai fazer é filtrar os dados do nps.
8:37 - 8:40

O nps tem alguns probleminhas
nesses dados.
8:40 - 8:42

Alguns probleminhas e algumas
respostas estão incompletas,
8:42 - 8:45

então a gente vai precisar
filtrar somente os questionários
8:45 - 8:48

que foram respondidos por completo.
8:48 - 8:55

O segundo ponto, a gente vai precisar
de um score de nps das pessoas.
8:55 - 8:58

Então, se a pessoa não deu nota,
ela não pode ser avaliada.
8:58 - 9:00

Então, a gente precisa
filtrar essas pessoas.
9:00 - 9:03

E o segundo, a gente vai utilizar
essa coluna chamada Gender,
9:03 - 9:06

que a gente quer ver a associação
entre o gênero da pessoa
9:06 - 9:09

e a nota do nps.
9:09 - 9:11

Somente para entender
se a empresa está atendendo melhor
9:11 - 9:13

as pessoas de gênero masculino
ou as pessoas de gênero feminino,
9:13 - 9:16

conforme essa pesquisa.
9:16 - 9:18

Então, o gênero aqui também
precisa estar respondido,
9:18 - 9:21

senão ele será filtrado.
9:21 - 9:22

Então, temos nossos dados filtrados.
9:22 - 9:26

O segundo detalhe que a gente precisa
fazer nesse teste é criar os grupos.
9:26 - 9:28

O nps é uma avaliação
da área de marketing
9:28 - 9:31

para ver se as pessoas
estão satisfeitas
9:31 - 9:33

ou não com a empresa.
9:33 - 9:36

Então, a gente consegue dividir
em três perfis de pessoas.
9:36 - 9:38

Nós temos as literaturas,
9:38 - 9:40

são pessoas que dão
notas muito baixas,
9:40 - 9:43

no caso, pessoas que dão notas
entre 1 a 5.
9:43 - 9:47

Temos pessoas que são os promotores,
são pessoas que dão notas bem altas,
9:47 - 9:49

notas entre 9 e 10.
9:49 - 9:54

E temos as pessoas neutras,
que vão dar notas entre 7 e 8.
9:54 - 9:58

E aí, nós vamos classificá-las
olhando as notas do nps.
9:58 - 10:01

Então, aqui nós estamos criando
uma função.
10:01 - 10:02

E aí, nós vamos usar
a expressão def,
10:02 - 10:05

que vai nos dizer que vamos criar
uma função no Python.
10:05 - 10:09

O nome dessa função no Python
será createNPSGroups
10:09 - 10:12

e o parâmetro dessa função
será o x.
10:12 - 10:17

E aí, se o x for menor ou igual a 5,
a pessoa será detratora.
10:17 - 10:20

Se ela for maior que 9,
será promotora.
10:20 - 10:25

Caso não entre dentro dessas faixas,
será neutra.
10:25 - 10:27

E aí, vamos classificar as pessoas.
10:27 - 10:30

Então, somente para mostrar para vocês,
nós estamos criando uma nova coluna
10:30 - 10:34

nesse dataset chamado NPSGroups.
10:34 - 10:37

Estamos fazendo isso
usando nossa coluna
10:37 - 10:41

NPSScore e vamos utilizar
a seguinte função.
10:41 - 10:43

Essa função apply, ela vai aplicar
10:43 - 10:47

uma função em cada linha
do seu banco de dados.
10:47 - 10:51

Então, ele vai olhar a nota
da pessoa e vai classificar se ela é
10:51 - 10:54

promotora, neutra ou detrator.
10:54 - 10:58

Então, a função lambda
é uma função que vai nos
10:58 - 11:03

definir uma função genérica
no Python, com parâmetro x.
11:03 - 11:05

E aí, nós vamos usar nossa função
11:05 - 11:08

createNPSGroups, com parâmetro x.
11:08 - 11:13

Só que ele vai ler exatamente
nossa coluna NPSScore.
11:13 - 11:19

Só para a gente ver essa coluna aqui,
dados NPSFiltrados.
11:19 - 11:21

Nós temos agora aqui, NPSGroups.
11:21 - 11:25

Então, por exemplo, se a pessoa
deu nota 10, ela é promotora.
11:27 - 11:31

Uma análise interessante que pode
ser feita é contar quantas pessoas
11:31 - 11:34

são promotoras,
detratoras ou neutras.
11:34 - 11:34

Então, vamos lá.
11:34 - 11:37

Vamos fazer essa contagem aqui,
bem simples.
11:37 - 11:39

Então, a gente está
usando o comando do grupo
11:39 - 11:42

by para dizer o grupo
que a gente quer contar.
11:42 - 11:46

A função size vai dizer o número
de pessoas em cada grupo.
11:46 - 11:50

E a função toFrame vai
criar uma coluna chamada N.
11:50 - 11:52

Então,
nós temos aqui os nossos grupos.
11:52 - 11:55

Nessa empresa,
temos 12.
11:55 - 11:59

047 promotores,
171 neutras e 25 detratores.
11:59 - 12:03

E agora, a gente vai começar
a calcular o V de Kramer.
12:03 - 12:07

Então, vamos mostrar para vocês
usando a função do SciPy.
12:07 - 12:09

Então,
antes de a gente utilizar as funções,
12:09 - 12:13

uma pequena correção
é criar a tabela cruzada.
12:13 - 12:16

Vamos utilizar a função crosstab,
12:16 - 12:20

que nos ajuda a fazer
cruzamento entre colunas.
12:20 - 12:22

Então, no caso, nós vamos cruzar.
12:22 - 12:26

Gander e cruzar NPS groups.
12:26 - 12:27

E aí temos a seguinte tabela.
12:27 - 12:30

Temos gênero do indivíduo,
12:30 - 12:34

quantidade de detratores,
neutras e promotores.
12:34 - 12:35

Um detalhe interessante.
12:35 - 12:43

Temos 105 neutros do grupo
fêmeo e 66 do masculino.
12:43 - 12:48

1.565 do feminino
e 482 do masculino.
12:48 - 12:52

Ou seja, o grupo feminino está bem
dominante contra neutros e promotores.
12:52 - 12:55

Porém, a gente vê uma inversão aqui.
12:55 - 12:58

Aparentemente, o grupo masculino não
12:58 - 13:01

está muito feliz
com os serviços dessa empresa.
13:01 - 13:05

Então, você tem mais masculinos
detratores do que femininos.
13:05 - 13:08

Porém, lógico,
os números são bem baixos aqui.
13:08 - 13:12

Contudo, isso pode ser algum pequeno
sinal que o grupo masculino parece
13:12 - 13:14

não estar tão satisfeito
quanto o feminino.
13:14 - 13:17

Nesse caso, a gente vai precisar
medir ou analisar as medidas de
13:17 - 13:21

associação e fazer os testes
de hipóteses necessários.
13:21 - 13:26

Com o SciPy, a gente vai basicamente
utilizar uma única função.
13:26 - 13:30

A gente vai chamar o ST,
que é do módulo status,
13:30 - 13:34

a função contingens e temos
uma medida de associação.
13:34 - 13:36

Então, essa função association, ela
13:36 - 13:40

vai nos auxiliar a obter
medidas de associação.
13:40 - 13:43

Então, no caso,
a gente chamou o método Cramer,
13:43 - 13:45

porque é a nossa medida
que a gente precisa.
13:45 - 13:49

E aqui é a nossa tabelinha
que nós obtemos anteriormente.
13:49 - 13:52

Então, o V de Cramer foi de 0.11.
13:52 - 13:56

Então, o nível de associação
entre o gênero e você
13:56 - 13:59

ser detrator,
neutro e promotor, parece ser baixo.
13:59 - 14:01

A gente vai precisar fazer
alguns testes de hipóteses.
14:01 - 14:03

Mas, antes disso, vamos ver outra
14:03 - 14:05

maneira de a gente
calcular o V de Cramer.
14:05 - 14:08

Para a gente conseguir obter
os valores do V de Cramer, a primeira
14:08 - 14:10

coisa é obter o valor do Q², igual
14:10 - 14:12

a gente obteve anteriormente
para o valor de Φ.
14:12 - 14:16

Então, olhando aqui para o nosso código,
a gente calculou o valor de
14:16 - 14:18

Q², em torno de 28.
14:18 - 14:20

O tamanho da amostra, que é uma
14:20 - 14:25

contagem de todas
as pessoas aqui da tabela.
14:25 - 14:29

Esse valor aqui,
chamado MinShape, é o mínimo
14:29 - 14:32

entre o número de linhas
e o número de colunas.
14:32 - 14:37

Então, a ideia é que a gente vai
contar quantas colunas, no caso, 3.
14:37 - 14:38

Quantas linhas?
14:38 - 14:39

2.
14:39 - 14:42

E aí, a gente vai obter
essa medida MinShape.
14:42 - 14:44

No caso,
o MinShape teve igual ao valor de 1.
14:44 - 14:49

A gente pegou o mínimo
do número de linhas e colunas.
14:49 - 14:53

No caso,
o mínimo entre 3 e 2 será 2.
14:53 - 14:55

E aí, pela fórmula,
a gente precisa subtrair 1.
14:55 - 14:58

Então, no final,
a gente fica com MinShape igual a 1.
14:58 - 15:00

E aí, a gente obtém o V
de Cramer igual a 0.
15:00 - 15:05

11,
que é exatamente igual
15:05 - 15:07

ao valor do SciPy.
15:07 - 15:11

Então, por trás da fórmula
fechada da ferramenta
15:11 - 15:14

do SciPy, nós vamos ter
também a fórmula direta.
15:14 - 15:16

Logicamente, no dia a dia,
a gente vai usar a fórmula
15:16 - 15:20

do SciPy, porque a gente
consegue obter mais rápido,
15:20 - 15:22

economizando tempo de trabalho.
15:22 - 15:25

A gente agora vai fazer,
de novo, o teste de hipótese.
15:25 - 15:28

Esse teste de hipótese
terá o seguinte padrão.
15:28 - 15:36

A hipótese nula será que não
existe associação entre...
15:36 - 15:42

No caso aqui, será gênero e NPS.
15:42 - 15:46

E a hipótese alternativa, se por acaso
rejeitarmos a nula, quer dizer
15:46 - 15:50

que existe associação
entre gênero e NPS.
15:50 - 15:52

Então, para fazer o teste do teste
15:52 - 15:54

quadrado, que é o nosso teste
de hipótese, é bastante simples.
15:54 - 15:56

Nós vamos usar a função
15:56 - 15:58

ChiToContinence e usar a nossa
15:58 - 16:00

tabelinha que a gente
obteve anteriormente.
16:00 - 16:04

E aí a gente vai
obter o Q e o valor Q.
16:04 - 16:08

Então, vemos que o valor
de Q quadrado foi 28,87.
16:08 - 16:11

E esse valor aqui é um valor
extremamente pequeno.
16:11 - 16:17

É um valor onde foi 0,07 vezes, que
16:17 - 16:21

está em notação científica,
depois o 5 vai aparecer.
16:21 - 16:23

Então, quer dizer que esse
valor é extremamente pequeno.
16:23 - 16:26

E aí, o teste de hipótese,
a interpretação vai
16:26 - 16:28

ser bem parecida
com o que a gente Fez aqui.
16:28 - 16:32

Então,
vou só copiar para ajudar aqui.
16:32 - 16:34

E aí a gente vai ver o seguinte.
16:34 - 16:37

Se o valor P for menor que 0,05,
16:37 - 16:39

então eu rejeito a hipótese nula.
16:39 - 16:41

Esse valor é extremamente pequeno.
16:41 - 16:45

Então,
esse valor será menor do que 0,05.
16:45 - 16:51

Ou seja, nós podemos rejeitar
essa hipótese nula, o que nos indica que.
16:51 - 16:56

existe a associação
entre gênero e NPS.
16:56 - 16:57

O que esses dados indicam?
16:57 - 17:01

Que aquele valor que a gente viu
anteriormente, de mais homens um
17:01 - 17:07

pouco mais tristes com a empresa
em relação às mulheres, aparentemente
17:07 - 17:10

parece ser uma diferença
significativa.
17:10 - 17:12

Porque nosso teste
de hipótese demonstrou isso.
17:12 - 17:14

Logicamente, do ponto de vista
17:14 - 17:17

prático, de 13 para 12,
é um valor bem pequeno.
17:17 - 17:21

Do ponto de vista de negócios,
é um tipo de sinal fraco.
17:21 - 17:25

A empresa deve ter uma certa tensão
que, possivelmente, homens podem
17:25 - 17:29

estar um pouco mais infelizes
do que as mulheres no serviço.
17:29 - 17:33

Porém, como essa diferença foi
pequena, é somente um ponto de atenção.
17:33 - 17:35

Se, por acaso, com novas pesquisas,
17:35 - 17:38

esses valores continuarem
se repetindo, quer
17:38 - 17:40

dizer que a empresa precisa
tomar alguma decisão.
17:40 - 17:44

Próximo, agora, nós vamos
medir os índices de correlação.
17:44 - 17:47

Nós vamos trabalhar com os dados
da Bolsa de Valores.
17:47 - 17:52

Só um adendo, esses dados da Bolsa
de Valores são de um tempo
17:52 - 17:56

relativamente longe
do nosso tempo atual.
17:56 - 18:00

Ou seja, não utilizem esses dados
para fazer investimentos, porque faz
18:00 - 18:02

muito tempo que esses
dados foram obtidos.
18:02 - 18:05

Então, vamos conversar sobre
essas duas linhas de códigos aqui.
18:05 - 18:06

Nessa linha de código, a gente está
18:06 - 18:09

verificando se existe
valor nulo em nossos dados.
18:09 - 18:11

Quando a gente pega dados da Bolsa,
18:11 - 18:15

vai vir dados todos os dias
da semana, de domingo a domingo.
18:15 - 18:18

Porém, a gente só tem negociação
durante a semana, período comercial,
18:18 - 18:19

de segunda a sexta.
18:19 - 18:23

Então, sempre os dados entre sábado
e domingo vão ficar valores nulos.
18:23 - 18:26

Então, a gente precisa fazer
essa limpeza dos dados.
18:26 - 18:28

Então, aqui eu estou
mostrando para vocês que tem
18:28 - 18:32

muitos valores nulos aqui
e a gente precisa ajustar.
18:32 - 18:35

Essa função aqui embaixo, dropNA,
18:35 - 18:39

ele vai apagar todos
esses valores nulos aqui.
18:39 - 18:41

Vamos ver se a gente
tem algum nulo aqui.
18:41 - 18:44

Uma vez que os nulos foram tratados,
18:44 - 18:45

a gente vai dar um detalhe aqui,
18:45 - 18:49

mostrar o período que ocorreram
a obtenção desses dados.
18:49 - 18:54

Esses dados foram obtidos
entre 2004 e 2011.
18:54 - 18:58

Ou seja, faz bastante tempo
que esses dados foram obtidos.
18:58 - 19:00

Então,
novamente ressaltando, não utiliza
19:00 - 19:02

esses dados
para investimentos agora.
19:02 - 19:05

Vamos agora trabalhar
com os nossos índices de correlação.
19:05 - 19:07

Então, a gente vai trabalhar com o
19:07 - 19:10

índice de Pearson, Spirma e Kendall.
19:10 - 19:14

Então, para obter a correlação
de Pearson, é bastante simples.
19:14 - 19:18

Basicamente, nós temos os dados
filtrados e vamos usar a função
19:18 - 19:21

core,
que é uma função de correlação.
19:21 - 19:25

E aí,
o Python simplifica usando o core.
19:25 - 19:27

Então, aqui seria a correlação entre
19:27 - 19:31

Petrobras e Bradesco,
em torno de 0,53.
19:31 - 19:34

Entre Petrobras e Vale, 7072.
19:34 - 19:36

Ambev, 0,39.
19:36 - 19:40

E Itaú, 0,59.
19:40 - 19:41

Um detalhe interessante
é que a correlação
19:41 - 19:45

entre Petrobras e Vale é bem alta,
0,182.
19:45 - 19:49

A leitura dessa tabela, algumas
vezes, pode ser um pouco confusa,
19:49 - 19:50

principalmente quando você tiver
19:50 - 19:54

mais dados,
mais colunas para obter a correlação.
19:54 - 19:57

Então, a dica que eu dou
é usar esse comando aqui.
19:57 - 20:01

Esse comando vai nos
ajudar a criar uma tabela
20:01 - 20:03

com cores diferentes
entre as correlações.
20:03 - 20:06

Aí vai ficar mais fácil a leitura.
20:06 - 20:09

Então, nesse caso aqui, a gente
também Fez um ajuste para o número
20:09 - 20:13

de casos depois da vírula,
com essa função set para o sígio.
20:13 - 20:17

E aí nós temos uma tabela de correlação
um pouco mais fácil de ser Lida.
20:17 - 20:19

Então, a gente vê, por exemplo,
20:19 - 20:26

a correlação entre Petro e Vale como
altas e a Itaú e Bradesco também.
20:26 - 20:29

Até porque faz sentido
essa correlação alta, já que Itaú e
20:29 - 20:32

Bradesco são do setor bancário.
20:32 - 20:33

Então,
tem que ter uma correlação alta.
20:33 - 20:37

E Vale e Petrobras são
do setor de mineração.
20:37 - 20:40

Então, tendem a ter
uma correlação alta também.
20:40 - 20:44

O próximo passo é, de novo,
fazer o nosso teste de hipóteses.
20:44 - 20:49

A ideia é verificar se existe
alguma correlação aqui que é
20:49 - 20:51

significativamente
diferente de zero.
20:51 - 20:55

A menor correlação aqui,
aliás, é o 0.39, que já
20:55 - 20:58

é uma correlação relativamente
alta quando a gente
20:58 - 21:00

pensa em mercado financeiro.
21:00 - 21:02

Então, nessa primeira linha
de código, a gente está
21:02 - 21:05

filtrando quais colunas
precisamos fazer os testes.
21:05 - 21:08

No caso,
vamos trabalhar com as ações.
21:08 - 21:14

Bradê, Petrobras,
Bradesco, Vale, Ambev e Itaú.
21:14 - 21:20

E agora, nós vamos utilizar essa função
do Pingouin, do PG, Paralysed
21:20 - 21:24

Core, onde nós vamos
verificar a correlação 1 a 1.
21:24 - 21:27

Então, a gente vai pegar
a correlação da Petrobras e testar se
21:27 - 21:30

ela é estatisticamente
diferente com a VAR.
21:30 - 21:34

Depois, nós vamos fazer
isso Petrobras com Bradesco.
21:34 - 21:35

Depois, Petrobras com Itaú.
21:35 - 21:38

Vamos analisar todas
as correlações e verificar se
21:38 - 21:41

existe alguma diferença
significativa entre elas.
21:41 - 21:43

Então, aqui, esses são nossos dados.
21:43 - 21:45

São dados voos e filtrados.
21:45 - 21:50

Essas são nossas colunas
da correlação.
21:50 - 21:54

E esse aqui é o nosso método,
que é a correlação de Pearson.
21:54 - 21:56

E aí,
nós vamos ter essa tabelinha aqui.
21:56 - 21:57

Como é que a gente lê essa tabela?
21:57 - 22:00

O X é uma das nossas ações.
22:00 - 22:03

O Y é uma das nossas outras
colunas de correlações.
22:03 - 22:04

Então,
aqui, a gente está verificando
22:04 - 22:07

a correlação entre
Petrobras e Bradesco.
22:07 - 22:09

Aqui, Petrobras e VAR.
22:09 - 22:14

E assim por diante, até a gente
terminar em Ambev contra Itaú.
22:14 - 22:15

O método for Pearson.
22:15 - 22:17

Essa é a nossa hipótese.
22:17 - 22:19

A gente está analisando o seguinte.
22:19 - 22:21

Se nossa correlação é igual a zero
22:21 - 22:24

ou se nossa correlação
é diferente de zero.
22:24 - 22:27

Essa coluna R vai
dizer a correlação.
22:27 - 22:29

Então,
aqui, por exemplo, a correlação
22:29 - 22:32

entre Petrobras e Bradesco foi zero,
53.
22:32 - 22:35

E um outro valor importante
é esse PANC aqui.
22:35 - 22:38

Esse PANC
é o nosso valor P.
22:38 - 22:41

E aí, eu vou dar uma dica
para vocês como a gente interpreta.
22:41 - 22:42

A gente consegue ver que todos esses
22:42 - 22:46

valores de PVELO são
extremamente pequenos.
22:46 - 22:51

Portanto, quer dizer que todas essas
correlações foram significantes.
22:51 - 22:55

Ou seja, se por acaso o preço
da Petrobras aumentar,
22:55 - 22:59

possivelmente o preço
da Vale irá subir também.
22:59 - 23:02

Se por acaso o preço do Itaú
23:02 - 23:05

aumentar,
o preço da Vale e da Petrobras,
23:05 - 23:08

por exemplo,
pode aumentar também.
23:08 - 23:11

Porque todas as correlações
foram positivas.
23:11 - 23:14

E aí, é uma dica, por exemplo,
quando você for investir, saber
23:14 - 23:17

quando seria o melhor
momento para investir.
23:17 - 23:21

Por exemplo, se uma Petrobras
estiver começando a subir, talvez vá
23:21 - 23:24

você dar uma olhada na Vale também
e ver se vale comprar as duas.
23:24 - 23:28

Os nossos próximos exemplos
é basicamente mostrar para vocês
23:28 - 23:31

quando a gente usa o Spirma
ou quando vai usar o Kindle.
23:31 - 23:34

Para obter a correlação
de Spirma é bem simples.
23:34 - 23:38

Enquanto que na função do Pearson
a gente usou a função CORE, a gente
23:38 - 23:43

obtive a correlação, aqui
é basicamente trocar o parâmetro.
23:43 - 23:47

A gente vai trocar o parâmetro
para obter a correlação de Spirma.
23:47 - 23:51

Então, aqui, como a gente consegue
ver no código, o parâmetro METHOD
23:51 - 23:53

vai ser o parâmetro do Spirma.
23:53 - 23:56

Então, a gente vai conseguir
obter a correlação de Spirma.
23:56 - 24:00

Mais uma vez, a gente pode
fazer alguns ajustes aqui.
24:00 - 24:03

E aí,
a gente tem a matriz de correlação.
24:03 - 24:08

Basicamente, como essas
índices de correlação são muito
24:08 - 24:11

parecidos, as correlações
vão ser bem similares ao
24:11 - 24:13

primeiro caso,
que foi o caso do Pearson.
24:13 - 24:18

Portanto, nesse caso do mercado
financeiro, não vale tanto você
24:18 - 24:22

ficar usando Pearson,
Spirma ou Kendall.
24:22 - 24:25

Mas a ideia aqui é mostrar
como obter essas correlações.
24:25 - 24:28

O teste de hipótese é bem parecido.
24:28 - 24:32

Nós vamos separar as colunas,
que a gente precisa
24:32 - 24:36

verificar, e depois nós vamos
fazer o teste de hipótese.
24:36 - 24:39

E aí,
vamos voltar lá no Pearson rapidinho.
24:39 - 24:42

A gente viu que a gente
usou o método Pearson.
24:42 - 24:45

Então, no caso, se estamos
utilizando a correlação de Spirma,
24:45 - 24:49

então nós vamos utilizar
o método Spirma.
24:49 - 24:53

Então, de novo, nós temos
as correlações nessa coluna R, e na
24:53 - 24:56

coluna P,
Anc, o valor P.
24:56 - 24:59

De novo,
todos esses valores P são baixos.
24:59 - 25:02

E a interpretação é similar
à correlação de Pearson.
25:07 - 25:09

Então, se algum do nosso valor
P for menor do que 0.
25:09 - 25:12

05, então a nossa correlação
é significante.
25:12 - 25:15

Nesse caso, todas as correlações
foram significantes.
25:15 - 25:17

Para obter a correlação de Candle,
25:17 - 25:19

também é bem simples.
25:19 - 25:23

Então, aqui no método,
a gente vai usar Candle.
25:23 - 25:24

Nós temos a correlação.
25:26 - 25:29

Conseguimos, do mesmo jeito, obter
25:29 - 25:32

a minha matriz um pouco
mais simplificada.
25:32 - 25:36

Usamos o objeto Candle Coral.
25:36 - 25:39

E aí, a gente vai ter
de novo as correlações.
25:39 - 25:43

As correlações usando Candle são
significativamente menores do que as
25:43 - 25:46

outras,
porém, isso não indica que essas
25:46 - 25:50

correlações são menos
importantes do que as outras.
25:50 - 25:52

Somente um método
que é um pouco diferente.
25:52 - 25:58

Nós temos aqui as colunas, as cinco
ações que estamos trabalhando, e por
25:58 - 26:03

último, o método, que é o Candle,
e a gente vai testar as correlações.
26:03 - 26:07

Vou fazer um rapidinho,
deixa eu só rodar aqui, rodar aqui.
26:07 - 26:09

Nós temos, de novo, as correlações
26:09 - 26:11

entre essas ações.
26:11 - 26:15

O valor das correlações,
e por último, o valor a P,
26:15 - 26:18

nessa coluna P-Anc,
e a interpretação é similar.
26:23 - 26:25

Se o valor P menor que 0, 0, 5,
26:25 - 26:27

então a correlação é significante.
26:27 - 26:28

A gente consegue ver nessa tabela
26:28 - 26:31

que todas as correlações
foram significantes.
26:31 - 26:33

Então,
basicamente, se você quiser trabalhar
26:33 - 26:37

com as ferramentas de associação
e correlação no Python,
26:37 - 26:40

essas são algumas das funções
que nós vamos trabalhar,
26:40 - 26:44

e aí vai,
de novo, da escolha de um ambiente de
26:44 - 26:47

trabalho ou o que você
acha mais fácil utilizar.
26:47 - 26:50

Tanto ou a função stats,
ou a função ping-o-in,
26:50 - 26:53

e aí você vai conseguir
obter todas as correlações e
26:53 - 26:55

associações necessárias
para o seu trabalho.
26:55 - 26:56

E aí.

Title:: vimeo.com/.../678965861
Video Language:: Portuguese, Brazilian
Duration:: 27:00

	Roberto Severiano Junior edited Portuguese, Brazilian subtitles for vimeo.com/.../678965861
	Roberto Severiano Junior edited Portuguese, Brazilian subtitles for vimeo.com/.../678965861
	Roberto Severiano Junior edited Portuguese, Brazilian subtitles for vimeo.com/.../678965861
	Roberto Severiano Junior edited Portuguese, Brazilian subtitles for vimeo.com/.../678965861
	Roberto Severiano Junior edited Portuguese, Brazilian subtitles for vimeo.com/.../678965861
	Roberto Severiano Junior edited Portuguese, Brazilian subtitles for vimeo.com/.../678965861
	Roberto Severiano Junior edited Portuguese, Brazilian subtitles for vimeo.com/.../678965861
	Roberto Severiano Junior edited Portuguese, Brazilian subtitles for vimeo.com/.../678965861

Show all

Portuguese, Brazilian subtitles

Revisions Compare revisions

Revision 15 Edited

Roberto Severiano Junior
Revision 14 Edited

Roberto Severiano Junior
Revision 13 Edited

Roberto Severiano Junior
Revision 12 Edited

Roberto Severiano Junior
Revision 11 Edited

Roberto Severiano Junior
Revision 10 Edited

Roberto Severiano Junior
Revision 9 Edited

Roberto Severiano Junior
Revision 8 Edited

Roberto Severiano Junior
Revision 7 Uploaded

Roberto Severiano Junior
Revision 6 Edited

Roberto Severiano Junior
Revision 5 Edited

Roberto Severiano Junior
Revision 4 Edited

Roberto Severiano Junior
Revision 3 Edited

Roberto Severiano Junior
Revision 2 Edited

Roberto Severiano Junior
Revision 1 Uploaded

Roberto Severiano Junior

	Revision Number	Author	Created
	15	Roberto Severiano Junior
	14	Roberto Severiano Junior
	13	Roberto Severiano Junior
	12	Roberto Severiano Junior
	11	Roberto Severiano Junior
	10	Roberto Severiano Junior
	9	Roberto Severiano Junior
	8	Roberto Severiano Junior
	7	Roberto Severiano Junior
	6	Roberto Severiano Junior
	5	Roberto Severiano Junior
	4	Roberto Severiano Junior
	3	Roberto Severiano Junior
	2	Roberto Severiano Junior
	1	Roberto Severiano Junior

vimeo.com/.../678965861

Revisions Compare revisions

Our website uses cookies

Operating cookies (Required)