vimeo.com/.../678965861

Rollback to version 7

0:10 - 0:12

errrrApós entendermos
os conceitos básicos
0:12 - 0:15

relacionados à associação
e correlação,
0:15 - 0:19

é interessante conhecermos
algumas aplicações práticas
0:19 - 0:22

e a gente vê como no Python
a gente consegue utilizar os dados
0:22 - 0:24

para realizar essas medidas.
0:24 - 0:30

Então aqui no nosso navegador,
vamos digitar colab.trisex.google.com,
0:30 - 0:34

vamos selecionar novo notebook,
vamos criar mais uns blocos.
0:34 - 0:38

O segundo ponto que é interessante
é nomear nosso notebook.
0:38 - 0:45

No caso aqui vai ser
análise de associação e correlação.
0:45 - 0:50

Outro passo importante seria basicamente
as ferramentas que nós vamos utilizar.
0:50 - 0:53

No caso, uma versão
atualizada do SciPy
0:53 - 0:58

e uma versão atualizada
da ferramenta Pingouin.
0:58 - 1:02

A gente consegue pedir para rodá-las,
executar esses comandos,
1:02 - 1:07

após algum tempo eles vão fazer
a instalação dessas ferramentas.
1:07 - 1:09

SciPy instalado com sucesso,
1:09 - 1:13

Pingouin vão fazer
várias dependências
1:13 - 1:16

e no final ele vai instalar
com sucesso.
1:16 - 1:18

E aqui ele finalizou
a instalação do Pingouin.
1:18 - 1:22

Então após a instalação das
ferramentas, a gente precisa agora
1:22 - 1:24

carregar o que a gente
precisa de módulos.
1:24 - 1:29

Nós temos os módulos NumPy, Pandas,
Seaborn e Matplotlib.
1:29 - 1:34

NumPy voltado à análise numérica,
o Pandas voltado à análise de dados,
1:34 - 1:37

Seaborn e Matplotlib
para a parte gráfica.
1:37 - 1:43

E no caso, o SciPy e o Pingouin
para a gente buscar
1:43 - 1:45

as medidas de associação
e correlação.
1:45 - 1:49

Então, a gente consegue carregar
ambos os módulos.
1:49 - 1:51

E agora a gente precisa
carregar os dados.
1:51 - 1:55

No caso aqui, vamos usar dados
para fazer as medidas de associação
1:55 - 1:57

e dados para fazer
as medidas de correlação.
1:57 - 1:59

Os dados que nós vamos trabalhar
1:59 - 2:02

serão os dados tratamentos
e os dados do NPS.
2:02 - 2:06

Então a gente vai clicar
de novo na pastinha,
2:06 - 2:09

clicar na setinha para cima.
2:09 - 2:15

E aí nós vamos usar o NPS
e os dados do tratamento.
2:15 - 2:17

Primeiro.
2:17 - 2:23

E nós vamos ter mais um dado ainda,
que vamos ter os dados da bolsa.
2:26 - 2:31

Então, vamos trabalhar com três tipos
de dados para a gente ver
2:31 - 2:33

quando a gente aplica melhor
as medidas de associação
2:33 - 2:34

ou correlação.
2:34 - 2:37

Então o próximo passo
é a gente carregar esses dados.
2:37 - 2:42

Então vamos colocar aqui dados
e a gente vai começar a carregar.
2:42 - 2:45

Primeiro seriam os dados
dos tratamentos.
2:45 - 2:49

Então, aqui nós estamos usando
a função do pandas,
2:49 - 2:51

chamada read_csv,
onde a gente vai carregar
2:51 - 2:56

os dados específicos
de tratamento de pacientes.
2:56 - 2:58

E o separador desse
dado é ponto e vírgula.
2:58 - 3:01

Então por isso que a gente
está usando essa função CEP
3:01 - 3:03

com ponto e vírgula.
3:03 - 3:04

E os dados de tratamento read,
3:04 - 3:07

mas vai nos ajudar a ver
as primeiras linhas.
3:07 - 3:09

Então esse dataset tem três colunas.
3:09 - 3:15

A ID, que é a ID dos pacientes,
no caso, a coluna tratamento
3:15 - 3:17

a a coluna evolução.
3:17 - 3:21

Então, aqui vai dizer se o indivíduo
está sendo tratado ou não tratado.
3:21 - 3:25

E aqui vai dizer se ele melhorou
ou não melhorou após o tratamento.
3:25 - 3:28

O próximo dado vai ser o do NPS.
3:32 - 3:37

E o segundo vai ser
os dados da bolsa.
3:42 - 3:43

E aí alguns detalhes.
3:43 - 3:46

O NPS, de novo,
o separador é ponto e vírgula.
3:46 - 3:48

E nos dados da bolsa
a gente tem outro detalhe.
3:48 - 3:52

Que a gente precisa trabalhar
com ponto e vírgula de separador.
3:52 - 3:55

E o decimal, nesse caso,
era vírgula.
3:55 - 3:58

Então a gente precisou passar esse
parâmetro para que o Python
3:58 - 4:01

consiga entender que agora
a vírgula é ponto.
4:01 - 4:04

E aí, ele vai entender
como um valor numérico
4:04 - 4:08

os retornos das ações da bolsa.
4:08 - 4:11

Nesse momento nós vamos trabalhar
com esses cinco índices.
4:11 - 4:14

Vamos trabalhar com o FII,
com o V de Cramer,
4:14 - 4:17

com o índice de correlação,
o índice de Spearman
4:17 - 4:18

e o índice de Kendall.
4:18 - 4:22

Então, o que é que nós estamos
trabalhando aqui para a gente estimar
4:22 - 4:24

esse coeficiente de FII?
4:24 - 4:27

Nós estamos usando
a função cross-tab.
4:27 - 4:30

Essa função tem por objetivo
criar uma tabela cruzada.
4:30 - 4:36

Então nós vamos cruzar os dados desse
dataset chamado dados tratamento.
4:36 - 4:38

E aí nós vamos usar o tratamento,
4:38 - 4:42

uma coluna chamada tratamento,
e outra coluna chamada evolução.
4:42 - 4:46

Então, o dado vai ficar
com essa característica aqui.
4:46 - 4:50

Uma tabelinha cruzada mostrando
os não tratados e tratados, e as
4:50 - 4:52

pessoas que melhoraram
e não melhoraram.
4:52 - 4:54

Então, como é que a gente
lê essa tabelinha aqui?
4:54 - 4:56

É bem simples, tá?
4:56 - 4:59

Quem foi tratado
melhorou 35 pessoas.
4:59 - 5:02

Enquanto que 26 não foram tratados,
5:02 - 5:03

porém melhoraram.
5:03 - 5:07

Contudo, 29 pessoas que não
foram tratadas não melhoraram.
5:07 - 5:11

Enquanto que 15 que foram
tratados não melhoraram.
5:11 - 5:14

Então, a ideia agora é a gente ver
se existe associação
5:14 - 5:16

entre essas colunas.
5:16 - 5:19

Tratamento e melhorou da doença.
5:19 - 5:20

Primeiro, nós vamos usar o SciPy.
5:20 - 5:24

Então, no caso do SciPy, nós vamos
ter que fazer várias medidas aqui,
5:24 - 5:27

para a gente conseguir encontrar
o valor que a gente precisa.
5:27 - 5:29

Para a gente combater o valor do FI,
5:29 - 5:32

a gente vai precisar fazer
alguns cálculos antes,
5:32 - 5:33

e aí no final a gente
vai obter esse valor.
5:33 - 5:35

Então, primeira coisa.
5:35 - 5:38

A gente vai ter que calcular
esse valor denominado de Q2.
5:38 - 5:42

Esse valor, ele está associado
à distribuição chamada de Q2.
5:42 - 5:45

Então, com essa função Stats,
5:45 - 5:49

a gente vai chamar a função
SciToContinence,
5:49 - 5:51

onde nós vamos buscar
a nossa tabelinha,
5:51 - 5:54

que a gente acabou
de criar aqui em cima,
5:54 - 5:55

e nós vamos armazenar o valor de Q2.
5:55 - 6:00

Então, a gente basicamente
armazenou o valor de 4,6625.
6:00 - 6:05

Segunda cálculo que a gente precisa
fazer é o tamanho da amostra.
6:05 - 6:08

No caso, quantas pessoas
participaram dessa pesquisa.
6:08 - 6:12

No caso, a gente vai somar
todos os valores dessa tabela.
6:12 - 6:15

Então, nós temos 105
pessoas que participaram.
6:15 - 6:17

E aí, por último, nós vamos
obter o valor do FI,
6:17 - 6:22

que basicamente é a raiz quadrada,
no caso, a gente está chamando no pai,
6:22 - 6:26

e essa função SQRT
é para calcular a raiz quadrada.
6:26 - 6:29

E aqui nós temos
o nosso valor de Q2
6:29 - 6:32

dividido pelo tamanho da amostra.
6:32 - 6:35

Então, esse é o valor do nosso FI,
que foi de 0,21.
6:35 - 6:39

A escala do FI varia entre 0 e 1,
quanto mais próximo de 1,
6:39 - 6:40

maior associação.
6:40 - 6:43

Nesse caso, o valor foi de 0,21.
6:43 - 6:46

Parece não ser
uma associação muito grande.
6:46 - 6:48

E aí, devido a essa dúvida,
6:48 - 6:50

é interessante a gente
fazer o teste de hipótese.
6:50 - 6:54

Então, nós vamos fazer
o teste chamado teste Q2.
6:54 - 6:58

Esse teste, ele tem a ideia
de que ele vai ver os níveis
6:58 - 7:01

observados e esperados
da tabela,
7:01 - 7:04

vai usar a distribuição de Q2
para testar a nossa hipótese.
7:04 - 7:08

E aqui nós vamos obter algumas
estatísticas que precisamos.
7:08 - 7:12

Então, vamos armazenar aqui
o valor de Q2, o valor P,
7:12 - 7:16

o grau de liberdade
e a tabela esperada,
7:16 - 7:22

onde o teste de Q2 combina a tabela
esperada com a nossa tabela real.
7:22 - 7:26

E aí, por último, a gente só vai
precisar de duas estatísticas.
7:26 - 7:27

Aqui e o P.
7:27 - 7:29

E aí, temos o seguinte.
7:29 - 7:33

Temos a estatística de Q2,
que foi de 4,66.
7:33 - 7:36

E a valor P, que é de 0,03.
7:36 - 7:41

E aí a interpretação, eu acho
mais simples trabalhar com o valor P.
7:41 - 7:43

E aí a gente vai interpretar
da seguinte forma.
7:43 - 7:46

Se o meu valor P
foi menor que 0,05,
7:46 - 7:52

que no caso aqui foi 0,03, então
podemos rejeitar essa hipótese nula,
7:52 - 7:57

indicando que existe associação
entre ser tratado no medicamento
7:57 - 8:00

e você evoluir e ser curado da doença.
8:00 - 8:05

Ou seja, o tratamento desse medicamento
aparentemente parece funcionar.
8:05 - 8:09

E aí a indústria farmacêutica
deve fazer mais outros testes
8:09 - 8:11

para ver quando
colocar no mercado.
8:11 - 8:14

Então, essa seria uma forma
de a gente usar o FII.
8:14 - 8:15

Então, a gente medir o FII,
8:15 - 8:18

mostrando que existe
uma associação de 0,21,
8:18 - 8:22

e a gente usa o teste aqui quadrado
para complementar esse valor de FII.
8:22 - 8:25

Vamos agora iniciar um outro exemplo,
8:25 - 8:28

que a gente vai trabalhar
com o V de Cramer.
8:28 - 8:32

E o V de Cramer, nós vamos
trabalhar com os dados do nps.
8:32 - 8:37

Então, a primeira coisa que a gente
vai fazer é filtrar os dados do nps.
8:37 - 8:39

O nps tem alguns probleminhas
nesses dados.
8:39 - 8:43

Alguns probleminhas e algumas
respostas estão incompletas,
8:43 - 8:46

então a gente vai precisar
filtrar somente os questionários
8:46 - 8:48

que foram respondidos por completo.
8:48 - 8:54

O segundo ponto, a gente vai precisar
de um score de nps das pessoas.
8:54 - 8:58

Então, se a pessoa não deu nota,
ela não pode ser avaliada.
8:58 - 9:00

Então, a gente precisa
filtrar essas pessoas.
9:00 - 9:04

E o segundo, a gente vai utilizar
essa coluna chamada Gender,
9:04 - 9:07

que a gente quer ver a associação
entre o gênero da pessoa
9:07 - 9:08

e a nota do nps.
9:08 - 9:11

Somente para entender
se a empresa está atendendo melhor
9:11 - 9:14

as pessoas de gênero masculino
ou as pessoas de gênero feminino,
9:14 - 9:16

conforme essa pesquisa.
9:16 - 9:19

Então, o gênero aqui também
precisa estar respondido,
9:19 - 9:21

senão ele será filtrado.
9:21 - 9:22

Então, temos nossos dados filtrados.
9:22 - 9:26

O segundo detalhe que a gente precisa
fazer nesse teste é criar os grupos.
9:26 - 9:29

O nps é uma avaliação
da área de marketing
9:29 - 9:31

para ver se as pessoas
estão satisfeitas
9:31 - 9:33

ou não com a empresa.
9:33 - 9:35

Então, a gente consegue dividir
em três perfis de pessoas.
9:35 - 9:38

Nós temos as literaturas,
9:38 - 9:40

são pessoas que dão
notas muito baixas,
9:40 - 9:43

no caso, pessoas que dão notas
entre 1 a 5.
9:43 - 9:47

Temos pessoas que são os promotores,
são pessoas que dão notas bem altas,
9:47 - 9:48

notas entre 9 e 10.
9:48 - 9:53

E temos as pessoas neutras,
que vão dar notas entre 7 e 8.
9:53 - 9:57

E aí, nós vamos classificá-las
olhando as notas do nps.
9:57 - 10:00

Então, aqui nós estamos criando
uma função.
10:00 - 10:03

E aí, nós vamos usar
a expressão def,
10:03 - 10:05

que vai nos dizer que vamos criar
uma função no Python.
10:05 - 10:10

O nome dessa função no Python
será createNPSGroups
10:10 - 10:12

e o parâmetro dessa função
será o x.
10:12 - 10:17

E aí, se o x for menor ou igual a 5,
a pessoa será detratora.
10:17 - 10:20

Se ela for maior que 9,
será promotora.
10:20 - 10:25

Caso não entre dentro dessas faixas,
será neutra.
10:25 - 10:27

E aí, vamos classificar as pessoas.
10:27 - 10:31

Então, somente para mostrar para vocês,
nós estamos criando uma nova coluna
10:31 - 10:33

nesse dataset chamado NPSGroups.
10:33 - 10:38

Estamos fazendo isso
usando nossa coluna NPSScore
10:38 - 10:41

e vamos utilizar a seguinte função.
10:41 - 10:42

Essa função apply,
10:42 - 10:46

ela vai aplicar uma função
em cada linha do seu banco de dados.
10:46 - 10:50

Então, ele vai olhar a nota
da pessoa e vai classificar
10:50 - 10:53

se ela é promotora,
neutra ou detrator.
10:53 - 10:57

Então, a função lambda
é uma função que vai nos definir
10:57 - 11:02

uma função genérica no Python,
com parâmetro x.
11:02 - 11:07

E aí, nós vamos usar
nossa função createNPSGroups,
11:07 - 11:08

com parâmetro x.
11:08 - 11:13

Só que ele vai ler exatamente
nossa coluna NPSScore.
11:13 - 11:19

Só para a gente ver essa coluna aqui,
dados NPSFiltrados.
11:19 - 11:21

Nós temos agora aqui, NPSGroups.
11:21 - 11:24

Então, por exemplo, se a pessoa
deu nota 10, ela é promotora.
11:24 - 11:30

Uma análise interessante
que pode ser feita
11:30 - 11:32

é contar quantas pessoas
são promotoras,
11:32 - 11:34

detratoras ou neutras.
11:34 - 11:34

Então, vamos lá.
11:34 - 11:37

Vamos fazer essa contagem aqui,
bem simples.
11:37 - 11:39

Então, a gente está usando
o comando do grupby
11:39 - 11:41

para dizer o grupo
que a gente quer contar.
11:41 - 11:46

A função size vai dizer o número
de pessoas em cada grupo.
11:46 - 11:50

E a função toFrame vai
criar uma coluna chamada N.
11:50 - 11:52

Então, nós temos aqui
os nossos grupos.
11:52 - 11:53

Nessa empresa,
11:53 - 11:59

temos 12.047 promotores,
171 neutras e 25 detratores.
11:59 - 12:02

E agora, a gente vai começar
a calcular o V de Kramer.
12:02 - 12:07

Então, vamos mostrar para vocês
usando a função do SciPy.
12:07 - 12:08

Então, antes de a gente
utilizar as funções,
12:08 - 12:13

uma pequena correção
é criar a tabela cruzada.
12:13 - 12:16

Vamos utilizar a função crosstab,
12:16 - 12:20

que nos ajuda a fazer
cruzamento entre colunas.
12:20 - 12:22

Então, no caso, nós vamos cruzar.
12:22 - 12:25

Gander e cruzar NPS groups.
12:25 - 12:27

E aí temos a seguinte tabela.
12:27 - 12:31

Temos gênero do indivíduo,
quantidade de detratores,
12:31 - 12:33

neutras e promotores.
12:33 - 12:36

Um detalhe interessante.
12:36 - 12:43

Temos 105 neutros do grupo
fêmeo e 66 do masculino.
12:43 - 12:48

1.565 do feminino
e 482 do masculino.
12:48 - 12:52

Ou seja, o grupo feminino está bem
dominante contra neutros e promotores.
12:52 - 12:55

Porém, a gente vê uma inversão aqui.
12:55 - 12:59

Aparentemente, o grupo masculino
não está muito feliz
12:59 - 13:01

com os serviços dessa empresa.
13:01 - 13:05

Então, você tem mais masculinos
detratores do que femininos.
13:05 - 13:08

Porém, lógico, os números
são bem baixos aqui.
13:08 - 13:11

Contudo, isso pode ser algum
pequeno sinal que o grupo masculino
13:11 - 13:14

parece não estar tão satisfeito
quanto o feminino.
13:14 - 13:16

Nesse caso, a gente vai precisar
medir ou analisar
13:16 - 13:18

as medidas de associação
13:18 - 13:21

e fazer os testes de hipóteses
necessários.
13:21 - 13:26

Com o SciPy, a gente vai basicamente
utilizar uma única função.
13:26 - 13:30

A gente vai chamar o ST,
que é do módulo status,
13:30 - 13:34

a função contingens e temos
uma medida de associação.
13:34 - 13:36

Então, essa função association,
13:36 - 13:40

ela vai nos auxiliar a obter
medidas de associação.
13:40 - 13:43

Então, no caso, a gente chamou
o método Cramer,
13:43 - 13:45

porque é a nossa medida
que a gente precisa.
13:45 - 13:49

E aqui é a nossa tabelinha
que nós obtemos anteriormente.
13:49 - 13:51

Então, o V de Cramer foi de 0.11.
13:51 - 13:56

Então, o nível de associação
entre o gênero e você ser detrator,
13:56 - 13:59

neutro e promotor, parece ser baixo.
13:59 - 14:01

A gente vai precisar fazer
alguns testes de hipóteses.
14:01 - 14:02

Mas, antes disso,
14:02 - 14:04

vamos ver outra maneira
de a gente calcular o V de Cramer.
14:04 - 14:07

Para a gente conseguir obter
os valores do V de Cramer,
14:07 - 14:09

a primeira coisa é obter
o valor do Q2,
14:09 - 14:12

igual a gente obteve anteriormente
para o valor de Φ.
14:12 - 14:16

Então, olhando aqui para o nosso código,
a gente calculou o valor de Q2,
14:16 - 14:18

em torno de 28.
14:18 - 14:19

O tamanho da amostra,
14:19 - 14:23

que é uma contagem de todas
as pessoas aqui da tabela.
14:25 - 14:31

Esse valor aqui, chamado MinShape,
é o mínimo entre o número de linhas
14:31 - 14:32

e o número de colunas.
14:32 - 14:37

Então, a ideia é que a gente vai
contar quantas colunas, no caso, 3.
14:37 - 14:38

Quantas linhas?
14:38 - 14:39

2.
14:39 - 14:42

E aí, a gente vai obter
essa medida MinShape.
14:42 - 14:44

No caso, o MinShape
teve igual ao valor de 1.
14:44 - 14:49

A gente pegou o mínimo
do número de linhas e colunas.
14:49 - 14:51

No caso, o mínimo
entre 3 e 2 será 2.
14:51 - 14:55

E aí, pela fórmula,
a gente precisa subtrair 1.
14:55 - 14:58

Então, no final,
a gente fica com MinShape igual a 1.
14:58 - 15:01

E aí, a gente obtém
o V de Cramer igual a 0.11,
15:01 - 15:07

que é exatamente igual
ao valor do SciPy.
15:07 - 15:11

Então, por trás da fórmula
fechada da ferramenta do SciPy,
15:11 - 15:14

nós vamos ter também
a fórmula direta.
15:14 - 15:16

Logicamente, no dia a dia,
a gente vai usar a fórmula do SciPy,
15:16 - 15:20

porque a gente consegue
obter mais rápido,
15:20 - 15:22

economizando tempo de trabalho.
15:22 - 15:25

A gente agora vai fazer,
de novo, o teste de hipótese.
15:25 - 15:27

Esse teste de hipótese
terá o seguinte padrão.
15:27 - 15:36

A hipótese nula será que não
existe associação entre...
15:36 - 15:42

No caso aqui, será gênero e nps.
15:42 - 15:45

E a hipótese alternativa, se por acaso
rejeitarmos a nula,
15:45 - 15:48

quer dizer que existe
associação entre gênero e nps.
15:48 - 15:52

Então, para fazer o teste
do teste quadrado,
15:52 - 15:54

que é o nosso teste de hipótese,
é bastante simples.
15:54 - 15:57

Nós vamos usar
a função ChiToContinence
15:57 - 16:00

e usar a nossa tabelinha
que a gente obteve anteriormente.
16:00 - 16:04

E aí a gente vai obter o Q
e o valor Q.
16:04 - 16:08

Então, vemos que o valor
de Q2 foi 28.87.
16:08 - 16:10

E esse valor aqui é um valor
extremamente pequeno.
16:10 - 16:19

É um valor onde foi 0,07 vezes,
que está em notação científica,
16:19 - 16:21

depois o 5 vai aparecer.
16:21 - 16:23

Então, quer dizer que esse valor
é extremamente pequeno.
16:23 - 16:25

E aí, o teste de hipótese,
16:25 - 16:27

a interpretação
vai ser bem parecida
16:27 - 16:28

com o que a gente fez aqui.
16:28 - 16:31

Então, vou só copiar
para ajudar aqui.
16:31 - 16:34

E aí, a gente vai ver o seguinte.
16:34 - 16:39

Se o valor P for menor que 0.05,
então eu rejeito a hipótese nula.
16:39 - 16:41

Esse valor é extremamente pequeno.
16:41 - 16:45

Então, esse valor será menor
do que 0.05.
16:45 - 16:48

Ou seja, nós podemos rejeitar
essa hipótese nula,
16:48 - 16:56

o que nos indica que existe
a associação entre gênero e nps.
16:56 - 16:57

O que esses dados indicam?
16:57 - 16:59

Que aquele valor que a gente
viu anteriormente,
16:59 - 17:02

de mais homens
um pouco mais tristes
17:02 - 17:06

com a empresa em relação
às mulheres,
17:06 - 17:10

aparentemente parece
ser uma diferença significativa.
17:10 - 17:12

Porque nosso teste de hipótese
demonstrou isso.
17:12 - 17:15

Logicamente,
do ponto de vista prático,
17:15 - 17:17

de 13 para 12, é um valor
bem pequeno.
17:17 - 17:21

Do ponto de vista de negócios,
é um tipo de sinal fraco.
17:21 - 17:24

A empresa deve ter uma certa
tensão que, possivelmente,
17:24 - 17:27

homens podem estar
um pouco mais infelizes
17:27 - 17:29

do que as mulheres no serviço.
17:29 - 17:31

Porém, como essa diferença
foi pequena,
17:31 - 17:33

é somente um ponto de atenção.
17:33 - 17:35

Se, por acaso, com novas pesquisas,
17:35 - 17:38

esses valores continuarem
se repetindo,
17:38 - 17:40

quer dizer que a empresa
precisa tomar alguma decisão.
17:40 - 17:44

Próximo, agora, nós vamos
medir os índices de correlação.
17:44 - 17:47

Nós vamos trabalhar
com os dados da Bolsa de Valores.
17:47 - 17:51

Só um adendo, esses dados
da Bolsa de Valores
17:51 - 17:55

são de um tempo relativamente
longe do nosso tempo atual.
17:55 - 17:59

Ou seja, não utilizem esses dados
para fazer investimentos,
17:59 - 18:02

porque faz muito tempo que esses
dados foram obtidos.
18:02 - 18:04

Então, vamos conversar sobre
essas duas linhas de códigos aqui.
18:04 - 18:06

Nessa linha de código,
18:06 - 18:09

a gente está verificando se existe
valor nulo em nossos dados.
18:09 - 18:11

Quando a gente pega dados da Bolsa,
18:11 - 18:15

vai vir dados todos os dias
da semana, de domingo a domingo.
18:15 - 18:18

Porém, a gente só tem negociação
durante a semana, período comercial,
18:18 - 18:19

de segunda a sexta.
18:19 - 18:23

Então, sempre os dados entre sábado
e domingo vão ficar valores nulos.
18:23 - 18:25

Então, a gente precisa fazer
essa limpeza dos dados.
18:25 - 18:28

Então, aqui eu estou mostrando
para vocês
18:28 - 18:32

que tem muitos valores nulos
aqui e a gente precisa ajustar.
18:32 - 18:34

Essa função aqui embaixo, dropNA,
18:34 - 18:39

ele vai apagar todos
esses valores nulos aqui.
18:39 - 18:40

Vamos ver se a gente
tem algum nulo aqui.
18:40 - 18:45

Uma vez que os nulos foram tratados,
a gente vai dar um detalhe aqui,
18:45 - 18:49

mostrar o período que ocorreram
a obtenção desses dados.
18:49 - 18:54

Esses dados foram obtidos
entre 2004 e 2011.
18:54 - 18:58

Ou seja, faz bastante tempo
que esses dados foram obtidos.
18:58 - 19:00

Então, novamente ressaltando,
19:00 - 19:02

não utiliza esses dados
para investimentos agora.
19:02 - 19:05

Vamos agora trabalhar com os nossos
índices de correlação.
19:05 - 19:08

Então, a gente vai trabalhar
com o índice de Pearson,
19:08 - 19:10

Spirma e Kendall.
19:10 - 19:14

Então, para obter a correlação
de Pearson, é bastante simples.
19:14 - 19:19

Basicamente, nós temos os dados
filtrados e vamos usar a função core,
19:19 - 19:21

que é uma função de correlação.
19:21 - 19:25

E aí, o Python simplifica
usando o core.
19:25 - 19:29

Então, aqui seria a correlação
entre Petrobras e Bradesco,
19:29 - 19:31

em torno de 0,53.
19:31 - 19:34

Entre Petrobras e Vale, 7072.
19:34 - 19:36

Ambev, 0,39.
19:36 - 19:39

E Itaú, 0,59.
19:39 - 19:40

Um detalhe interessante
19:40 - 19:42

é que a correlação
entre Petrobras e Vale
19:42 - 19:45

é bem alta, 0,182.
19:45 - 19:49

A leitura dessa tabela, algumas
vezes, pode ser um pouco confusa,
19:49 - 19:51

principalmente quando
você tiver mais dados,
19:51 - 19:53

mais colunas para obter a correlação.
19:53 - 19:57

Então, a dica que eu dou
é usar esse comando aqui.
19:57 - 20:01

Esse comando vai nos ajudar
a criar uma tabela
20:01 - 20:03

com cores diferentes
entre as correlações.
20:03 - 20:06

Aí vai ficar mais fácil a leitura.
20:06 - 20:08

Então, nesse caso aqui,
a gente também fez um ajuste
20:08 - 20:11

para o número de casos
depois da vírgula,
20:11 - 20:13

com essa função set para o sígio.
20:13 - 20:16

E aí nós temos uma tabela de correlação
um pouco mais fácil de ser lida.
20:16 - 20:21

Então, a gente vê, por exemplo,
a correlação entre Petro e Vale
20:21 - 20:26

como altas e a Itaú
e Bradesco também.
20:26 - 20:28

Até porque faz sentido
essa correlação alta,
20:28 - 20:31

já que Itaú e Bradesco
são do setor bancário.
20:31 - 20:33

Então, tem que ter
uma correlação alta.
20:33 - 20:37

E Vale e Petrobras
são do setor de mineração.
20:37 - 20:40

Então, tendem a ter uma correlação
alta também.
20:40 - 20:44

O próximo passo é, de novo,
fazer o nosso teste de hipóteses.
20:44 - 20:48

A ideia é verificar se existe
alguma correlação aqui
20:48 - 20:51

que é significativamente
diferente de zero.
20:51 - 20:55

A menor correlação aqui,
aliás, é o 0.39,
20:55 - 20:57

que já é uma correlação
relativamente alta
20:57 - 20:59

quando a gente pensa
em mercado financeiro.
20:59 - 21:01

Então, nessa primeira
linha de código,
21:01 - 21:05

a gente está filtrando quais colunas
precisamos fazer os testes.
21:05 - 21:08

No caso, vamos trabalhar
com as ações.
21:08 - 21:13

Bradê, Petrobras, Bradesco,
Vale, Ambev e Itaú.
21:13 - 21:20

E agora, nós vamos utilizar essa função
do Pingouin, do PG, Paralysed Core,
21:20 - 21:23

onde nós vamos verificar
a correlação 1 a 1.
21:23 - 21:26

Então, a gente vai pegar
a correlação da Petrobras
21:26 - 21:30

e testar se ela é estatisticamente
diferente com a VAR.
21:30 - 21:33

Depois, nós vamos fazer
isso Petrobras com Bradesco.
21:33 - 21:35

Depois, Petrobras com Itaú.
21:35 - 21:37

Vamos analisar todas
as correlações
21:37 - 21:41

e verificar se existe alguma
diferença significativa entre elas.
21:41 - 21:43

Então, aqui, esses são nossos dados.
21:43 - 21:45

São dados voos e filtrados.
21:45 - 21:49

Essas são nossas colunas
da correlação.
21:49 - 21:54

E esse aqui é o nosso método,
que é a correlação de Pearson.
21:54 - 21:56

E aí, nós vamos ter
essa tabelinha aqui.
21:56 - 21:57

Como é que a gente lê essa tabela?
21:57 - 22:00

O X é uma das nossas ações.
22:00 - 22:03

O Y é uma das nossas outras
colunas de correlações.
22:03 - 22:05

Então, aqui, a gente
está verificando a correlação
22:05 - 22:07

entre Petrobras e Bradesco.
22:07 - 22:09

Aqui, Petrobras e VAR.
22:09 - 22:14

E assim por diante, até a gente
terminar em Ambev contra Itaú.
22:14 - 22:15

O método for Pearson.
22:15 - 22:17

Essa é a nossa hipótese.
22:17 - 22:19

A gente está analisando o seguinte.
22:19 - 22:21

Se nossa correlação
é igual a zero
22:21 - 22:23

ou se nossa correlação
é diferente de zero.
22:23 - 22:27

Essa coluna R vai dizer a correlação.
22:27 - 22:28

Então, aqui, por exemplo,
22:28 - 22:32

a correlação entre Petrobras
e Bradesco foi zero, 53.
22:32 - 22:35

E um outro valor importante
é esse PANC aqui.
22:35 - 22:37

Esse PANC é o nosso valor P.
22:37 - 22:40

E aí, eu vou dar uma dica
para vocês como a gente interpreta.
22:40 - 22:45

A gente consegue ver que todos
esses valores de PVELO
22:45 - 22:46

são extremamente pequenos.
22:46 - 22:50

Portanto, quer dizer que todas
essas correlações foram significantes.
22:50 - 22:54

Ou seja, se por acaso o preço
da Petrobras aumentar,
22:54 - 22:59

possivelmente o preço
da Vale irá subir também.
22:59 - 23:06

Se por acaso o preço do Itaú aumentar,
o preço da Vale e da Petrobras,
23:06 - 23:07

por exemplo, pode aumentar também.
23:07 - 23:10

Porque todas as correlações
foram positivas.
23:10 - 23:13

E aí, é uma dica, por exemplo,
quando você for investir,
23:13 - 23:17

saber quando seria
o melhor momento para investir.
23:17 - 23:20

Por exemplo, se uma Petrobras
estiver começando a subir,
23:20 - 23:23

talvez vá você dar uma olhada
na Vale também
23:23 - 23:24

e ver se vale comprar as duas.
23:24 - 23:28

Os nossos próximos exemplos
é basicamente mostrar para vocês
23:28 - 23:31

quando a gente usa o Spirma
ou quando vai usar o Kindle.
23:31 - 23:34

Para obter a correlação
de Spirma é bem simples.
23:34 - 23:38

Enquanto que na função do Pearson
a gente usou a função CORE,
23:38 - 23:40

a gente obtive a correlação,
23:40 - 23:43

aqui é basicamente
trocar o parâmetro.
23:43 - 23:47

A gente vai trocar o parâmetro
para obter a correlação de Spirma.
23:47 - 23:50

Então, aqui, como a gente
consegue ver no código,
23:50 - 23:53

o parâmetro METHOD
vai ser o parâmetro do Spirma.
23:53 - 23:56

Então, a gente vai conseguir
obter a correlação de Spirma.
23:56 - 23:59

Mais uma vez, a gente pode
fazer alguns ajustes aqui.
23:59 - 24:03

E aí, a gente tem a matriz
de correlação.
24:03 - 24:06

Basicamente, como essas
índices de correlação
24:06 - 24:09

são muito parecidos,
24:09 - 24:12

as correlações vão ser bem similares
ao primeiro caso,
24:12 - 24:13

que foi o caso do Pearson.
24:13 - 24:16

Portanto, nesse caso
do mercado financeiro,
24:16 - 24:22

não vale tanto você ficar usando
Pearson, Spirma ou Kendall.
24:22 - 24:25

Mas a ideia aqui é mostrar
como obter essas correlações.
24:25 - 24:28

O teste de hipótese é bem parecido.
24:28 - 24:33

Nós vamos separar as colunas,
que a gente precisa verificar,
24:33 - 24:35

e depois nós vamos
fazer o teste de hipótese.
24:35 - 24:37

E aí, vamos voltar
lá no Pearson rapidinho.
24:37 - 24:42

A gente viu que a gente
usou o método Pearson.
24:42 - 24:45

Então, no caso, se estamos
utilizando a correlação de Spirma,
24:45 - 24:49

então nós vamos utilizar
o método Spirma.
24:49 - 24:51

Então, de novo, nós temos
as correlações nessa coluna R,
24:51 - 24:56

e na coluna P, Anc, o valor P.
24:56 - 24:59

De novo, todos esses
valores P são baixos.
24:59 - 25:02

E a interpretação é similar
à correlação de Pearson.
25:07 - 25:10

Então, se algum do nosso valor
P for menor do que 0.05,
25:10 - 25:12

então a nossa correlação
é significante.
25:12 - 25:15

Nesse caso, todas as correlações
foram significantes.
25:15 - 25:19

Para obter a correlação de Candle,
também é bem simples.
25:19 - 25:23

Então, aqui no método,
a gente vai usar Candle.
25:23 - 25:24

Nós temos a correlação.
25:26 - 25:28

Conseguimos, do mesmo jeito,
25:28 - 25:32

obter a minha matriz
um pouco mais simplificada.
25:32 - 25:36

Usamos o objeto Candle Coral.
25:36 - 25:39

E aí, a gente vai ter
de novo as correlações.
25:39 - 25:43

As correlações usando Candle são
significativamente menores
25:43 - 25:45

do que as outras, porém,
25:45 - 25:49

isso não indica que essas correlações
são menos importantes do que as outras.
25:49 - 25:52

Somente um método
que é um pouco diferente.
25:52 - 25:57

Nós temos aqui as colunas, as cinco
ações que estamos trabalhando,
25:57 - 26:02

e por último, o método, que é o Candle,
e a gente vai testar as correlações.
26:02 - 26:07

Vou fazer um rapidinho,
deixa eu só rodar aqui, rodar aqui.
26:07 - 26:11

Nós temos, de novo,
as correlações entre essas ações.
26:11 - 26:15

O valor das correlações,
e por último, o valor a P,
26:15 - 26:18

nessa coluna P-Anc,
e a interpretação é similar.
26:23 - 26:26

Se o valor P menor que 0.05,
então a correlação é significante.
26:26 - 26:28

A gente consegue ver nessa tabela
26:28 - 26:31

que todas as correlações
foram significantes.
26:31 - 26:33

Então, basicamente,
se você quiser trabalhar
26:33 - 26:37

com as ferramentas de associação
e correlação no Python,
26:37 - 26:40

essas são algumas das funções
que nós vamos trabalhar,
26:40 - 26:41

e aí vai, de novo,
26:41 - 26:47

da escolha de um ambiente de trabalho
ou o que você acha mais fácil utilizar.
26:47 - 26:50

Tanto ou a função stats,
ou a função pingouin,
26:50 - 26:53

e aí você vai conseguir
obter todas as correlações
26:53 - 26:55

e associações necessárias
para o seu trabalho.

Title:: vimeo.com/.../678965861
Video Language:: Portuguese, Brazilian
Duration:: 27:00

	Roberto Severiano Junior edited Portuguese, Brazilian subtitles for vimeo.com/.../678965861
	Roberto Severiano Junior edited Portuguese, Brazilian subtitles for vimeo.com/.../678965861
	Roberto Severiano Junior edited Portuguese, Brazilian subtitles for vimeo.com/.../678965861
	Roberto Severiano Junior edited Portuguese, Brazilian subtitles for vimeo.com/.../678965861
	Roberto Severiano Junior edited Portuguese, Brazilian subtitles for vimeo.com/.../678965861
	Roberto Severiano Junior edited Portuguese, Brazilian subtitles for vimeo.com/.../678965861
	Roberto Severiano Junior edited Portuguese, Brazilian subtitles for vimeo.com/.../678965861
	Roberto Severiano Junior edited Portuguese, Brazilian subtitles for vimeo.com/.../678965861

Show all

Portuguese, Brazilian subtitles

Revisions Compare revisions

Revision 15 Edited

Roberto Severiano Junior
Revision 14 Edited

Roberto Severiano Junior
Revision 13 Edited

Roberto Severiano Junior
Revision 12 Edited

Roberto Severiano Junior
Revision 11 Edited

Roberto Severiano Junior
Revision 10 Edited

Roberto Severiano Junior
Revision 9 Edited

Roberto Severiano Junior
Revision 8 Edited

Roberto Severiano Junior
Revision 7 Uploaded

Roberto Severiano Junior
Revision 6 Edited

Roberto Severiano Junior
Revision 5 Edited

Roberto Severiano Junior
Revision 4 Edited

Roberto Severiano Junior
Revision 3 Edited

Roberto Severiano Junior
Revision 2 Edited

Roberto Severiano Junior
Revision 1 Uploaded

Roberto Severiano Junior

	Revision Number	Author	Created
	15	Roberto Severiano Junior
	14	Roberto Severiano Junior
	13	Roberto Severiano Junior
	12	Roberto Severiano Junior
	11	Roberto Severiano Junior
	10	Roberto Severiano Junior
	9	Roberto Severiano Junior
	8	Roberto Severiano Junior
	7	Roberto Severiano Junior
	6	Roberto Severiano Junior
	5	Roberto Severiano Junior
	4	Roberto Severiano Junior
	3	Roberto Severiano Junior
	2	Roberto Severiano Junior
	1	Roberto Severiano Junior

vimeo.com/.../678965861

Revisions Compare revisions

Our website uses cookies

Operating cookies (Required)