WEBVTT 00:00:07.726 --> 00:00:13.133 Constantes, variáveis, números inteiros, flutuantes, 00:00:13.133 --> 00:00:18.652 distribuições, análise combinatória, média, mediana, moda, 00:00:18.652 --> 00:00:24.651 tudo isso envolve um grande conhecimento chamado estatística, 00:00:24.651 --> 00:00:30.320 a matéria que, por causa dela, o mundo mudou a forma de ver as coisas, 00:00:30.320 --> 00:00:35.378 de onde saímos do certo para o cenário probabilístico. 00:00:35.378 --> 00:00:38.481 Meu nome é Matheus Pavani, sou cientista de dados, 00:00:38.481 --> 00:00:42.970 e vamos começar a introduzir esse maravilhoso mundo da estatística. 00:00:42.970 --> 00:00:49.079 Já pararam para pensar quantos números existem entre 0 e 1, por exemplo? 00:00:49.079 --> 00:00:53.850 Dentro dessa métrica nós poderíamos dizer, talvez, alguns, 00:00:53.850 --> 00:00:58.735 ou muitos, milhares, milhões ou até infinitos números. 00:00:58.735 --> 00:01:03.810 Isso porque, entre 0 e 1, existe uma infinidade de possibilidades 00:01:03.810 --> 00:01:08.078 onde nós podemos trabalhar de maneira um pouco mais assertiva. 00:01:08.078 --> 00:01:12.322 Pegue uma régua, por exemplo, entre 0 e 1 centímetro, 00:01:12.322 --> 00:01:21.144 você tem as medidas intermediárias: 0,1, 0,2, meio centímetro, 0,8, até chegar no 1. 00:01:21.144 --> 00:01:24.694 Mas e as escalas intermediárias entre esses décimos? 00:01:24.694 --> 00:01:32.999 Não temos uma medida, por exemplo, que diga "0,11", "0,23", "0,37", 00:01:32.999 --> 00:01:35.611 e assim sucessivamente. 00:01:36.623 --> 00:01:42.041 Posto isso, como determinar essa sequência? 00:01:42.041 --> 00:01:45.331 Será que existe algo que eu consiga trabalhar? 00:01:45.331 --> 00:01:49.446 Se existe erro na medida, e essa palavra é muito importante 00:01:49.446 --> 00:01:53.319 porque, no futuro, ela pode nos trazer alguma coisa, 00:01:53.319 --> 00:01:55.503 o que eu devo fazer então? 00:01:55.503 --> 00:01:58.958 E é aqui que a mágica acontece. 00:01:58.958 --> 00:02:03.583 Na verdade, mágica não, e sim o conhecimento de estatística. 00:02:03.583 --> 00:02:08.087 Toda medida possui erro, por exemplo, então, ao pegar uma régua, 00:02:08.087 --> 00:02:13.443 eu nunca vou ter certeza se eu cheguei nos 1,3 centímetros por exemplo, 00:02:13.443 --> 00:02:16.679 pode ser que eu tenha um desvio para mais ou para menos. 00:02:16.679 --> 00:02:20.396 E é aí que, por exemplo, uma medida de desvio padrão pode ajudar. 00:02:20.396 --> 00:02:25.608 O importante nisso tudo, nessa história da régua ou qualquer tipo de medida, 00:02:25.608 --> 00:02:29.629 é que nós saibamos que nós paramos de trabalhar com o cenário certo 00:02:29.629 --> 00:02:33.827 e passamos pelo incerto, e isso é natural na história da humanidade. 00:02:33.827 --> 00:02:39.439 Até mesmo porque, se nós pegarmos, por exemplo, o século XVII, XVIII ou XIX, 00:02:39.439 --> 00:02:45.695 as pessoas acharam que medidas eram absolutas, como o espaço e o próprio tempo, 00:02:45.695 --> 00:02:48.571 e nós sabemos que, conforme a humanidade evoluiu 00:02:48.571 --> 00:02:51.701 e o conhecimento também, essas coisas mudaram. 00:02:51.701 --> 00:02:57.013 E a estatística veio a partir do século XIX, até antecede um pouco, 00:02:57.013 --> 00:03:02.563 mas é a partir desse momento que as coisas começam a mudar no cenário da matemática, 00:03:02.563 --> 00:03:09.679 onde nós começamos a ter precisões, erros, distribuições, desvios, variâncias, 00:03:09.679 --> 00:03:13.192 para que nós tragamos uma possibilidade um pouco maior. 00:03:13.192 --> 00:03:17.994 Então, por exemplo, em astronomia, quando nós vamos medir ali 00:03:17.994 --> 00:03:21.350 talvez o desvio da órbita de um planeta, você fala: 00:03:21.350 --> 00:03:25.580 "ah, o desvio da órbita de Mercúrio pode estar ali 00:03:25.580 --> 00:03:35.458 entre 42.98 arcos segundos por século, mais ou menos 2, por exemplo." 00:03:35.458 --> 00:03:37.493 O que significa esse "mais ou menos 2"? 00:03:37.493 --> 00:03:42.051 Significa que o 42.98 é uma certeza, 00:03:42.051 --> 00:03:45.611 mas pode ser que eu tenha um desvio para mais ou para menos. 00:03:45.611 --> 00:03:48.104 Isso não é ruim em nenhuma hipótese, 00:03:48.104 --> 00:03:53.530 isso inclusive nos ajuda a ter mais precisão naquilo que nós estamos falando. 00:03:53.530 --> 00:03:59.783 Posto isso, então, vem comigo aqui na tela que eu vou te mostrar algumas coisas. 00:03:59.783 --> 00:04:04.740 Aqui, estamos em um ambiente online do Google chamado Google Colab, 00:04:04.740 --> 00:04:08.631 onde normalmente nós utilizamos o espaço para código. 00:04:08.631 --> 00:04:12.815 Aqui, ele aceita linguagem Python e outras linguagens também. 00:04:12.815 --> 00:04:17.219 Então, eu consigo trabalhar aqui, por exemplo, numericamente com algumas situações 00:04:17.219 --> 00:04:19.145 e assim por diante. 00:04:19.145 --> 00:04:21.350 Só que, por que entramos nesse ambiente? 00:04:21.350 --> 00:04:25.885 Por que nós vamos começar, um pouquinho, a falar sobre essa introdução à estatística. 00:04:25.885 --> 00:04:30.491 Então, o que é importante nós termos como definição aqui? 00:04:30.491 --> 00:04:38.534 Coisas como o que é variável, por exemplo, o que é uma constante, 00:04:39.872 --> 00:04:44.784 e, dentro desse conceito, nós estabelecermos algumas coisas. 00:04:44.784 --> 00:04:48.796 Por exemplo, quando nós falamos de variável, 00:04:48.796 --> 00:04:52.333 que é muito comum quando nós estamos trabalhando com matemática, 00:04:52.333 --> 00:04:55.564 em estatística, nós temos uma coisa nas variáveis numéricas 00:04:55.564 --> 00:04:59.278 chamada de variáveis discretas e contínuas. 00:04:59.278 --> 00:05:03.910 Ou seja, vou trabalhar com números inteiros ou com números reais, 00:05:03.910 --> 00:05:07.412 que são os números flutuantes, que podem ter um número irracional, 00:05:07.412 --> 00:05:11.431 um número negativo ou um número com dízima periódica, 00:05:11.431 --> 00:05:14.663 um número com dízima não periódica, como o Pi, 00:05:14.663 --> 00:05:17.867 número de Euler, número de ouro e assim por diante. 00:05:18.807 --> 00:05:20.703 E, a partir disso, é bom fundamentar, 00:05:20.703 --> 00:05:24.166 porque, em estatística, nós não temos só as variáveis numéricas, 00:05:24.166 --> 00:05:30.922 eu posso ter as variáveis textuais também, as variáveis simbólicas ou categóricas, 00:05:30.922 --> 00:05:34.696 onde essas variáveis categóricas me expressam alguma coisa, 00:05:34.696 --> 00:05:38.577 porque quando você está analisando uma tabela do Excel, por exemplo, 00:05:38.577 --> 00:05:41.675 você não tem só números, às vezes você tem uma coluna de rótulo, 00:05:41.675 --> 00:05:47.873 por exemplo, "unidade da federação", onde você vai ter o nome dos estados brasileiros. 00:05:47.873 --> 00:05:49.955 E, aqui, nós temos que entrar no detalhe 00:05:49.955 --> 00:05:55.100 que a forma como você vai trabalhar esse tipo de dado é muito importante, 00:05:55.100 --> 00:05:57.930 porque o trato que você faz com um número 00:05:57.930 --> 00:06:02.561 não é o mesmo que você faz com uma variável categórica, por exemplo. 00:06:02.561 --> 00:06:05.884 Então, aqui são conceitos fundamentais que nós temos que trazer 00:06:05.884 --> 00:06:07.886 para que a sua jornada seja completa. 00:06:07.886 --> 00:06:11.790 Até mesmo porque, dentro desse mundo da estatística, 00:06:11.790 --> 00:06:15.239 existem algumas nuances que nós temos que preservar. 00:06:15.239 --> 00:06:21.950 Dito isso, então, convido você a trazer mais vontade 00:06:21.950 --> 00:06:26.986 para que esse conhecimento possa gerar algumas situações importantes. 00:06:26.986 --> 00:06:33.969 Então, quando nós falamos de variáveis, constantes, nós falamos, por exemplo, 00:06:33.969 --> 00:06:38.937 de constantes de acoplamento, nós estamos falando de uma variável 00:06:38.937 --> 00:06:43.539 que vai fazer jus, por exemplo, a um modelo preditivo, 00:06:43.539 --> 00:06:47.579 tudo isso envolve estatística, tudo isso nasce da base estatística 00:06:47.579 --> 00:06:51.630 e nós não podemos deixar isso passar de maneira alguma. 00:06:51.630 --> 00:06:54.107 Então, volta aqui comigo rapidinho. 00:06:54.107 --> 00:06:58.282 Falando de variáveis e constantes, quando nós falamos de estatística, 00:06:58.282 --> 00:07:01.800 nós também temos outros conceitos que são mais comuns do nosso cotidiano, 00:07:01.800 --> 00:07:05.692 que são, por exemplo, a média, a mediana, 00:07:06.525 --> 00:07:08.260 e a moda, por exemplo. 00:07:08.260 --> 00:07:13.899 Então nós sabemos que se eu tenho um número "x = 1", por exemplo, 00:07:13.899 --> 00:07:20.363 e eu tenho aqui "y = 2", e se eu quiser calcular a média deles dois, 00:07:20.363 --> 00:07:25.610 basta eu vir aqui, vou jogar uma função "print" para nos ajudar a enxergar na tela, 00:07:25.610 --> 00:07:31.816 somo os dois e divido por dois, até mesmo porque nós sabemos 00:07:31.816 --> 00:07:37.783 que a média aritmética de dois elementos são eles dividido por dois, 00:07:37.783 --> 00:07:43.628 então só deixa eu corrigir aqui, colocando um parênteses a mais para nós, 00:07:43.628 --> 00:07:49.167 e nós vamos ver que a média entre 1 e 2 é 1,5, está certo? 00:07:49.167 --> 00:07:55.116 Agora, se nós quiséssemos verificar, por exemplo, a mediana desses dois elementos, 00:07:55.116 --> 00:07:58.168 nós sabemos que a regra para a mediana para números pares 00:07:58.168 --> 00:08:02.180 tem que somar os dois e dividir por dois, então eu vou ter 1,5 também. 00:08:02.180 --> 00:08:07.202 E a moda, na verdade, aqui não se aplica, porque eu não tenho uma situação 00:08:07.202 --> 00:08:10.633 onde, por exemplo, eu posso ter aqui um "z = 2" também, 00:08:10.633 --> 00:08:14.793 para dizer qual é o número que mais se repete, o que, nesse caso aqui, seria o 2. 00:08:14.793 --> 00:08:20.198 Então, trabalhando com dois números, por exemplo, isso aqui não faz sentido. 00:08:20.198 --> 00:08:23.667 Então, aqui, nós começamos a trabalhar com algumas situações 00:08:23.667 --> 00:08:27.002 que possam fazer sentido propriamente dito. 00:08:27.873 --> 00:08:34.960 Dito isso tudo, você agora está começando a ingressar nesse mundo estatístico, 00:08:34.960 --> 00:08:38.950 onde as possibilidades podem acontecer. 00:08:38.950 --> 00:08:44.856 Então, mais do que tudo, sempre lembre que o progresso do estudo é contínuo, 00:08:44.856 --> 00:08:49.338 nós não precisamos ficar antecipando etapas, 00:08:49.338 --> 00:08:52.413 por exemplo, estudar distribuições estatísticas agora 00:08:52.413 --> 00:08:55.033 ou entender melhor algum gráfico complicado. 00:08:55.033 --> 00:08:58.944 O importante é você entender a base com muita cautela. 00:08:58.944 --> 00:09:02.907 E então, o que achou desse conteúdo inicial? 00:09:02.907 --> 00:09:06.611 O que acha de mergulhar nesse conhecimento estatístico? 00:09:06.611 --> 00:09:12.050 Convido você a introduzir o maravilhoso mundo da estatística no seu cotidiano.