WEBVTT 00:00:08.074 --> 00:00:11.211 Com certeza na sua vida pessoal ou profissional 00:00:11.211 --> 00:00:15.949 você já se deparou com uma situação que você tem que verificar a performance 00:00:15.949 --> 00:00:20.754 do antes e o depois de algo, como por exemplo, no computador da sua casa. 00:00:20.754 --> 00:00:23.823 Supondo que você vai aumentar a memória RAM, 00:00:23.823 --> 00:00:29.095 e ele está demorando cinco minutos para iniciar, e aí você coloca memória RAM, 00:00:29.095 --> 00:00:32.966 depois você quer verificar o quanto melhorou, ou se melhorou, 00:00:32.966 --> 00:00:35.935 então você está fazendo uma análise do antes e o depois. 00:00:35.935 --> 00:00:40.406 E a nossa linguagem R também nos ajuda a fazer a análise do antes e o depois. 00:00:40.406 --> 00:00:45.645 Só que, nesse caso, nós precisamos ter dados que consigam fazer essa comparação. 00:00:45.645 --> 00:00:48.015 Vamos trazer aqui um exemplo para vocês. 00:00:48.015 --> 00:00:51.985 Nesse exemplo, pense num caso real da fábrica de software. 00:00:51.985 --> 00:00:55.989 Nós temos lá um sistema funcionando que vai para a produção 00:00:55.989 --> 00:00:58.992 e aí descobrimos que a performance dele não está muito boa. 00:00:58.992 --> 00:01:03.363 Fizeram uma medição hora a hora nessa nossa performance. 00:01:03.363 --> 00:01:07.700 Então, após essa análise de uma performance não tão boa, 00:01:07.700 --> 00:01:12.171 melhorar o algoritmo, que é a lógica que está dentro do sistema, 00:01:12.171 --> 00:01:14.857 e, após, fazer uma nova medição. 00:01:14.857 --> 00:01:16.242 É isso que vamos ver agora, 00:01:16.242 --> 00:01:19.383 vamos fazer uma análise descritiva do antes e depois 00:01:19.383 --> 00:01:22.530 para vocês terem a confiança dos dados que estão sendo analisados, 00:01:22.530 --> 00:01:24.250 e até mesmo o seu resultado. 00:01:24.250 --> 00:01:25.957 Vem comigo que eu vou mostrar para vocês. 00:01:25.957 --> 00:01:31.924 Como sempre, eu deixo um script pronto, não somente as linhas de execução, 00:01:31.924 --> 00:01:36.462 o código do que precisamos fazer, mas também um comentário. 00:01:36.462 --> 00:01:40.366 Um breve resumo da análise descritiva está aqui no começo. 00:01:40.366 --> 00:01:45.271 Depois, se você quiser fazer uma pausa, ler e interpretar 00:01:45.271 --> 00:01:49.208 sobre o que é uma análise descritiva, aqui fica um breve resumo. 00:01:49.208 --> 00:01:52.639 Então, como nós falamos, nós precisamos de uma base de dados 00:01:52.639 --> 00:01:54.480 para poder analisar isso. 00:01:54.480 --> 00:01:57.683 Vamos rodar essas duas linhas aqui, criar os nossos dados 00:01:57.683 --> 00:02:00.858 para ter esse comparativo do antes e o depois. 00:02:02.055 --> 00:02:03.601 Se pegar aqui... 00:02:03.601 --> 00:02:05.481 Perdão. Vamos dar uns Enters aqui. 00:02:05.481 --> 00:02:08.961 Sempre apertamos alguns Enters para ficar uma área limpa aqui. 00:02:08.961 --> 00:02:12.865 Então nós estamos criando aqui um comentário, uma hashtag. 00:02:12.865 --> 00:02:17.637 O tempo antes da performance: hora um, hora dois, hora três. 00:02:17.637 --> 00:02:21.507 Aqui nós temos quatro, cinco, seis, sete, oito. 00:02:21.507 --> 00:02:24.410 É uma análise do antes e o depois 00:02:24.410 --> 00:02:28.147 em oito horas de execução de um código, por exemplo. 00:02:28.147 --> 00:02:30.616 Antes de implementar a melhoria no algoritmo, 00:02:30.616 --> 00:02:34.419 e depois de implementar a melhoria no algoritmo. 00:02:34.419 --> 00:02:36.589 Vamos apertar o Enter. 00:02:36.589 --> 00:02:42.061 E aí, como sempre, é legal visualizar como estão os dados O tempo antes. 00:02:42.128 --> 00:02:43.162 Apertem enter. 00:02:43.162 --> 00:02:47.066 Opa, o que eu errei aqui frente a tempos? 00:02:47.066 --> 00:02:51.003 Oh, tá vendo que que é isso que eu errei o tempo antes? 00:02:51.037 --> 00:02:52.905 Agora vai funcionar? 00:02:52.905 --> 00:02:55.608 Então aqui tem a letra S. São tempos né? 00:02:55.608 --> 00:02:57.343 Eu não tinha colocado esse intervalo. 00:02:57.343 --> 00:03:00.580 Roupa not found not found quer dizer que não existe. 00:03:00.813 --> 00:03:02.682 Ai depois eu coloquei certo? 00:03:02.682 --> 00:03:07.420 Então siga aquela velha dica vocês colocam aqui print ou vocês 00:03:07.420 --> 00:03:11.924 copiam o nome da variável e coloca aqui no conjunto de dados, 00:03:11.991 --> 00:03:16.462 ou você digita e ele dá a sugestão do nome. 00:03:16.562 --> 00:03:18.197 Aqui no caso ele deu a sugestão. 00:03:18.197 --> 00:03:20.800 Sugestão está correta, eu vou apertar. 00:03:20.800 --> 00:03:25.371 Então temos a análise do antes e o depois, 00:03:25.471 --> 00:03:28.808 esse aqui facilitando a interpretação se for verificar. 00:03:29.008 --> 00:03:31.844 Como sempre estamos conjunto de valores 00:03:31.844 --> 00:03:36.082 bem pequeno para facilitar aqui a nossa análise. 00:03:36.182 --> 00:03:37.750 Olhando nós já podemos 00:03:37.750 --> 00:03:40.720 fazer esse resultado Pré aviso prévio sem o R 00:03:40.953 --> 00:03:43.389 Sim, o antes e o depois o depois. 00:03:43.389 --> 00:03:46.759 Ficou melhor então implementar a melhoria no algoritmo 00:03:46.859 --> 00:03:50.429 e houve realmente uma melhor performance no sistema, 00:03:50.529 --> 00:03:53.499 inclusive olhando em todas as horas de execução. 00:03:53.666 --> 00:03:56.168 Realmente está melhor. 00:03:56.168 --> 00:03:59.739 Agora estava eu olhando, eu consigo, mas se fosse uma análise 00:03:59.739 --> 00:04:05.377 com 300 horas de execução ia ficar bem difícil de vocês conseguirem olhar. 00:04:05.578 --> 00:04:07.346 Então vamos pedir para o R. 00:04:07.346 --> 00:04:10.282 E fazer aqui para nós o que a gente vai fazer. 00:04:10.282 --> 00:04:11.650 Vamos para a próxima parte. 00:04:11.650 --> 00:04:14.653 Então criamos o antes e o depois, 00:04:14.787 --> 00:04:17.556 Vamos apertar mais alguns entre eles aqui. 00:04:17.556 --> 00:04:20.059 Legal para facilitar nossa área, 00:04:20.059 --> 00:04:22.862 nós vamos para uma próxima parte. 00:04:22.862 --> 00:04:26.398 Nós vamos agora gerar todo o cenário para calcular 00:04:26.398 --> 00:04:30.469 o que as medidas descritivas para o antes. 00:04:30.536 --> 00:04:35.140 Então nós vamos fazer uma análise primeiro do antes, preparar esses dados do antes. 00:04:35.207 --> 00:04:40.079 Aqui o que vamos calcular A média simples do antes. 00:04:40.179 --> 00:04:43.883 E nós vamos calcular a mediana do antes. 00:04:43.983 --> 00:04:47.019 Vamos aqui, vou apertar o enter, 00:04:47.086 --> 00:04:48.888 vou apertar print. 00:04:48.888 --> 00:04:54.593 Oh, média aí, aqui aquela velha história ou você copia média média 00:04:54.693 --> 00:04:58.397 antes ou você deixa ele fazer a sugestão para você. 00:04:58.464 --> 00:05:00.099 Então essa é a média. 00:05:00.099 --> 00:05:04.870 Se somar todos esses valores são quatro, cinco, seis, oito valores, 00:05:04.870 --> 00:05:09.608 são 08h00 de análise, somo divide por oito e só vai ser a média. 00:05:09.675 --> 00:05:12.444 E aqui nós também pedimos para calcular, além de calcular 00:05:12.444 --> 00:05:16.382 a média que acabamos de visualizar, calcular também a mediana. 00:05:16.615 --> 00:05:20.152 Vamos visualizar o valor da mediana. 00:05:20.252 --> 00:05:23.922 Ô Rafa, a gente está tendo que utilizar os conceitos que aprendemos anteriormente. 00:05:23.922 --> 00:05:25.357 Sim, isso é bom, né? 00:05:25.357 --> 00:05:30.462 As coisas vão se juntando e aqui a mediana, o sinalzinho a mais. 00:05:30.529 --> 00:05:34.333 Então esse é o valor da média e esse é o valor da mediana. 00:05:34.400 --> 00:05:39.304 Isso são informações referente aos dados do antes, tudo bem? 00:05:39.371 --> 00:05:43.809 Então olha, no nosso script já aqui está o resumo para vocês. 00:05:43.876 --> 00:05:47.479 Os dados do antes e o depois já criamos. 00:05:47.546 --> 00:05:51.617 Nós fizemos aqui o cálculo da média 00:05:51.683 --> 00:05:54.553 e da mediana já fizemos também. 00:05:54.553 --> 00:05:57.489 E agora nós vamos para uma próxima parte. 00:05:57.489 --> 00:06:01.560 Deixa eu copiar nessa parte do código isolando e vamos trazer aqui para baixo. 00:06:01.660 --> 00:06:04.997 Como sempre legal apertar um pouquinho de enter 00:06:04.997 --> 00:06:09.535 aqui para isolar a área do código para poder interpretar. 00:06:09.635 --> 00:06:09.902 Deixa eu 00:06:09.902 --> 00:06:12.905 limpar um pouquinho aqui para facilitar a visualização. 00:06:13.071 --> 00:06:16.708 Opa, o que temos não controls aqui 00:06:16.809 --> 00:06:20.479 antes se apertar o enter dá pra você dar um control, usar legal. 00:06:20.579 --> 00:06:22.815 E agora Rafa, que que nós temos? 00:06:22.815 --> 00:06:27.119 Nós temos três linhas de comentário aqui para deixar para vocês. 00:06:27.186 --> 00:06:28.187 Tá lembrando? 00:06:28.187 --> 00:06:29.655 Às vezes esse é o momento que você pode dar 00:06:29.655 --> 00:06:33.659 uma pausa no vídeo antes de eu falar ou após eu falar. 00:06:33.759 --> 00:06:38.664 Por que você precisa entender esses comentários que não faz parte da execução? 00:06:38.764 --> 00:06:39.498 É para. 00:06:39.498 --> 00:06:43.902 Depois que você conseguir entender essas três linhas de comentários, 00:06:43.969 --> 00:06:46.872 nós poderemos fazer a execução do que a gente precisa. 00:06:46.872 --> 00:06:49.775 Vamos entender então o que eu criei para vocês. 00:06:49.775 --> 00:06:53.512 O modo underline antes aqui é um nome de uma variável, 00:06:53.612 --> 00:06:55.480 ai é sinal de menor tracinho. 00:06:55.480 --> 00:06:56.682 O Rafa, já entendi. 00:06:56.682 --> 00:07:00.252 O resultado daqui será armazenado no módulo de 00:07:00.319 --> 00:07:02.454 antes que a gente está fazendo. 00:07:02.454 --> 00:07:06.925 Rafa, vamos aqui e primeiro vem uma instrução aqui do R. 00:07:07.025 --> 00:07:10.329 E esse ponto numérico que está deixa isso. 00:07:10.329 --> 00:07:15.267 Vamos usar muito ainda dentro da linguagem R na parte estatística, tal 00:07:15.367 --> 00:07:19.237 é utilizado para converter os valores em vetor numérico. 00:07:19.304 --> 00:07:24.476 Aí você pode vira uma pergunta na sua cabeça Mas Rafa, como assim? 00:07:24.476 --> 00:07:26.211 Os dados são numéricos? 00:07:26.211 --> 00:07:29.314 Mas você sabe porque o conjunto de dados? 00:07:29.314 --> 00:07:32.517 Essas 08h00 são pequenos, mas quem garante isso? 00:07:32.584 --> 00:07:35.587 É sempre bom você confirmar, tá? 00:07:35.787 --> 00:07:39.458 Então, voltando aqui olhando, nós sabemos que eles são numéricos, 00:07:39.524 --> 00:07:43.061 mas você tem que garantir isso para poder fazer essa análise. 00:07:43.128 --> 00:07:46.131 É isso que o ponto numérico faz. 00:07:46.231 --> 00:07:49.701 Se não for algum probleminha lá e o dado for possível de conversão 00:07:49.701 --> 00:07:53.738 para numérico, ele vai ser feito e o ponto numérico legal. 00:07:53.805 --> 00:07:58.610 E aí nós vamos continuar aqui a interpretar essa parte dessa instrução. 00:07:58.677 --> 00:08:02.614 Aqui são os nomes que são os nomes e o conjunto de valores. 00:08:02.681 --> 00:08:04.716 Temos apenas um conjunto de valores. 00:08:04.716 --> 00:08:05.884 Poderíamos ter mais? 00:08:05.884 --> 00:08:09.387 Sim, se fosse data.frame com diversas colunas, poderia? 00:08:09.387 --> 00:08:13.458 Aqui nós temos, vamos dizer, uma linha ou uma coluna e um exemplo 00:08:13.458 --> 00:08:19.431 um pouco mais simples e aí entra aqui no sort que seria o sort novamente. 00:08:19.531 --> 00:08:22.267 Fica aqui um comentário para vocês. 00:08:22.334 --> 00:08:22.868 Talvez 00:08:22.868 --> 00:08:25.871 vocês já podem ter utilizado em alguma outra linguagem de programação. 00:08:26.004 --> 00:08:28.240 Quem não usou não tem problema nenhum. 00:08:28.240 --> 00:08:30.008 Esse é o momento de aprender. 00:08:30.008 --> 00:08:36.014 Ele é utilizado para ordenar os elementos, porque se vocês pegarem aqui, 00:08:36.081 --> 00:08:39.317 esse, por exemplo, o primeiro aqui do antes, 00:08:39.384 --> 00:08:42.254 não é obrigatório que ele esteja numa ordem crescente ou decrescente. 00:08:42.254 --> 00:08:43.421 Porque não, Rafa? 00:08:43.421 --> 00:08:48.994 É uma análise na primeira hora a demorou supondo 220/2 para executar 00:08:49.060 --> 00:08:50.428 na segunda 210. 00:08:50.428 --> 00:08:54.299 Então vai ser difícil se encontrar uma coisa na ordem crescente decrescente. 00:08:54.399 --> 00:08:55.967 Você está olhando algo hora a hora. 00:08:55.967 --> 00:08:57.836 Como ele se comporta? 00:08:57.836 --> 00:08:59.971 Então aí o que você vai fazer, tá? 00:08:59.971 --> 00:09:02.807 Por isso que vem essa instrução sort. 00:09:02.807 --> 00:09:07.479 E o que você vai vai dizer é essa instrução true ou false. 00:09:07.479 --> 00:09:09.047 Você colocar true. 00:09:09.047 --> 00:09:11.750 Você está pedindo para que essa análise 00:09:11.750 --> 00:09:15.887 seja feita numa ordem, o que de decrescente? 00:09:15.987 --> 00:09:18.857 Se você colocar false, ele vai fazendo uma ordem 00:09:18.857 --> 00:09:22.160 numa ordem crescente, lembrando decrescente do maior 00:09:22.160 --> 00:09:25.163 para o menor, que vai ser esse caso, como ele vai analisar? 00:09:25.397 --> 00:09:30.101 E se fosse crescente, do menor para o maior? 00:09:30.168 --> 00:09:32.804 Tudo bem, esse é o sort 00:09:32.804 --> 00:09:36.040 bem recheado de conhecimento aqui essa instrução. 00:09:36.107 --> 00:09:38.643 E aí, o que é o tempo? 00:09:38.710 --> 00:09:41.513 É o conjunto de dados que está para ser analisado. 00:09:41.513 --> 00:09:45.650 Lembrando, aqui é uma linha só que é o tempo antes, 00:09:45.717 --> 00:09:47.819 mas poderia ser um dataframe então. 00:09:47.819 --> 00:09:52.490 Então esse é o conjunto de dados que nós estamos pedindo para analisar. 00:09:52.590 --> 00:09:54.993 Vamos apertar um enter. 00:09:54.993 --> 00:09:56.628 E é aí que nós temos Rafa. 00:09:56.628 --> 00:09:58.797 E agora é que é olhar o resultado. 00:09:58.797 --> 00:10:01.833 Vamos olhar lógico, print ou você 00:10:01.833 --> 00:10:05.937 copia e cola ou você digita e deixe me dar sugestão. 00:10:05.937 --> 00:10:08.173 Realmente é isso que eu quero. 00:10:08.173 --> 00:10:12.977 Se eu apertar o enter, o que ele nos trouxe de resultado, tá? 00:10:13.044 --> 00:10:19.551 Essa análise foi chegou num resultado de 210, mas o que seria esse número 210? 00:10:19.551 --> 00:10:21.920 Rafa? Vamos continuar aqui. 00:10:21.920 --> 00:10:23.187 Aí eu vou explicar para vocês. 00:10:23.187 --> 00:10:26.090 Então aqui está o foi Introdução Os dois dados 00:10:26.090 --> 00:10:29.727 que calculamos, a média e a mediana do antes. 00:10:29.827 --> 00:10:33.398 E aqui nós conseguimos fazer o que a moda AND 00:10:33.464 --> 00:10:36.935 com o número modo que é gerado com essa análise desses dados. 00:10:36.935 --> 00:10:40.638 Nesse conjunto, de novo, continuamos com o intervalo 00:10:40.638 --> 00:10:44.208 de valores do antes ainda não fizemos o depois. 00:10:44.275 --> 00:10:45.810 Vamos continuar aí. 00:10:45.810 --> 00:10:50.315 Aqui nós vamos pôr uma outra parte do nosso código aqui na nossa análise. 00:10:50.548 --> 00:10:55.520 Vou copiar a descer lá para baixo um pouquinho 00:10:55.620 --> 00:10:58.623 novamente aquela velha dica, se possível, 00:10:58.623 --> 00:11:02.393 quer que eu, que estou transmitindo conhecimento para vocês? 00:11:02.493 --> 00:11:05.997 Se você quiser, não precisa apertar muito, mas é legal para vocês dividirem 00:11:06.097 --> 00:11:08.232 por partes. Essa análise tá? 00:11:08.232 --> 00:11:10.168 Aqui novamente, tem um resto, 00:11:10.168 --> 00:11:13.971 é só limpar o código aqui para depois quando executá lo acontecer. 00:11:13.971 --> 00:11:16.207 Nenhum erro 00:11:16.274 --> 00:11:18.476 legal aqui eu deixo esse comentário. 00:11:18.476 --> 00:11:23.114 Aí nós podemos verificar o que a variância que é a variância deixo aqui. 00:11:23.181 --> 00:11:26.818 É uma medida estatística que indica a dispersão dos valores 00:11:26.818 --> 00:11:28.319 em relação à média. 00:11:28.319 --> 00:11:33.024 Nós não temos a média o quanto os valores, que valores, 00:11:33.124 --> 00:11:38.563 o quanto cada um desses valores estão distantes da média. 00:11:38.629 --> 00:11:40.298 Por isso que nós fizemos aqui. 00:11:40.298 --> 00:11:44.469 Essa não é a média, deu 218 a seu olhar. 00:11:44.469 --> 00:11:48.840 Aqui me parece, por exemplo, qual que está mais distante, 00:11:48.840 --> 00:11:50.308 olhando aqui, interpretando. 00:11:50.308 --> 00:11:51.976 Mas você vai deixar o contador fazer por nós? 00:11:51.976 --> 00:11:56.347 Talvez seja esse qual tá mais perto de 218. 00:11:56.414 --> 00:12:00.084 Olhando aqui o valor 220 Tá, 00:12:00.184 --> 00:12:03.788 mas deixa o computador falar pra nós o uso desse intervalo de valores. 00:12:03.788 --> 00:12:08.092 Quais estão mais perto ou menos perto da média? 00:12:08.192 --> 00:12:10.661 Quanto maior a variância, 00:12:10.661 --> 00:12:14.565 mais dispersos os dados estão, ou seja, 00:12:14.632 --> 00:12:18.236 o valor do resultado da variação que nós vamos pedir para calcular. 00:12:18.336 --> 00:12:19.804 Agora 00:12:19.870 --> 00:12:20.571 que quanto 00:12:20.571 --> 00:12:24.809 mais, quanto maior o número, mais distante estará da média. 00:12:24.909 --> 00:12:30.181 Então tem uma disparidade aí, uma distância aí da média dos dados. 00:12:30.248 --> 00:12:33.217 Aí vamos executar para executar. 00:12:33.217 --> 00:12:38.556 Como sempre, eu vou apertar um entre aqui e aí nós vamos analisar o variância 00:12:38.556 --> 00:12:41.892 antes queremos encontrar como que eu acho o valor da variância, 00:12:42.059 --> 00:12:44.996 porque é isso que a gente acabou de explicar aqui. 00:12:44.996 --> 00:12:49.433 E novamente, é mérito você fazer uma pausa, anotar, 00:12:49.533 --> 00:12:52.536 verificar o material que está disponível para vocês, escrito, 00:12:52.703 --> 00:12:55.706 escrito para você depois conseguir executar aqui. 00:12:55.906 --> 00:13:00.945 Então aqui como que eu consigo armazenar o valor da variância 00:13:01.012 --> 00:13:05.816 do tempo do conjunto de dados tempos antes? 00:13:05.916 --> 00:13:09.520 Como que eu consigo pedir para ele achar a variância aqui? 00:13:09.587 --> 00:13:13.624 É simples, depois que você entendeu, o conceito é simples 00:13:13.691 --> 00:13:19.063 você cria uma variável, nesse caso ela de variância antes, onde antes? 00:13:19.130 --> 00:13:21.732 Aqui eu coloca a instrução que é var 00:13:21.732 --> 00:13:25.503 v a r é o nome do conjunto de dados. 00:13:25.569 --> 00:13:26.036 Eu quero dar 00:13:26.036 --> 00:13:29.106 uma olhadinha aqui e dar uma olhadinha já antecipado. 00:13:29.106 --> 00:13:32.943 Podemos não ter problema na variância 00:13:33.010 --> 00:13:36.013 antes não, é só apertar o enter, 00:13:36.113 --> 00:13:40.651 nós conseguimos saber qual que é o valor, o resultado da variância. 00:13:40.718 --> 00:13:41.685 Tá, e aí? 00:13:41.685 --> 00:13:46.924 Agora o desvio padrão desvio padrão, vocês já tem esse conhecimento? 00:13:46.924 --> 00:13:49.226 Como calcular o desvio padrão? 00:13:49.226 --> 00:13:53.531 Vamos criar uma variável desvio padrão antes que nós estamos analisando, 00:13:53.597 --> 00:13:56.567 antes da implementação da melhoria do algoritmo 00:13:56.567 --> 00:14:00.170 e se a instrução é qualquer o conjunto de dados. 00:14:00.271 --> 00:14:04.008 Rafa, podemos visualizar lógico que podemos. 00:14:04.108 --> 00:14:06.911 Qual que é o nome da variável desvio 00:14:06.911 --> 00:14:09.480 padrão antes? 00:14:09.480 --> 00:14:10.681 Legal. 00:14:10.681 --> 00:14:12.917 E aqui nós temos o desvio padrão para esse 00:14:12.917 --> 00:14:16.754 conjunto de valores é 7,03. 00:14:16.820 --> 00:14:20.124 Agora que conseguimos encontrar o valor 00:14:20.190 --> 00:14:21.892 da variância 00:14:21.892 --> 00:14:24.428 e também do desvio padrão, vamos continuar 00:14:24.428 --> 00:14:28.899 para conseguir concluir a análise que queremos do antes e o depois. 00:14:28.966 --> 00:14:30.467 Então, o que nós já vimos? 00:14:30.467 --> 00:14:34.705 Retomando essa parte, criamos os dados, criamos a média 00:14:34.705 --> 00:14:38.208 e a mediana do do antes, 00:14:38.275 --> 00:14:40.611 conseguimos achar a moda, 00:14:40.611 --> 00:14:45.883 acabamos de conseguir descobrir a variância e o desvio padrão. 00:14:45.949 --> 00:14:48.485 Agora vamos para essa próxima parte da análise. 00:14:48.485 --> 00:14:51.488 Vou copiar aqui para baixo aqui. 00:14:51.488 --> 00:14:54.958 Como sempre, eu vou apertar alguns pontos 00:14:55.025 --> 00:14:58.295 para facilitar aqui para vocês a visualização. 00:14:58.362 --> 00:15:00.064 Um Vou apertaram Control v. 00:15:00.064 --> 00:15:04.868 Deixa eu arrumar aqui para explicar o que nós vamos fazer agora 00:15:04.935 --> 00:15:08.806 calculando medidas descritivas para o depois. 00:15:08.806 --> 00:15:11.809 Agora fizemos o antes, vamos para o depois. 00:15:11.942 --> 00:15:15.712 Agora nós iremos repetir o script que nós fizemos anteriormente 00:15:15.813 --> 00:15:19.149 para a parte da execução do antes. 00:15:19.283 --> 00:15:20.918 Agora iremos fazer depois. 00:15:20.918 --> 00:15:23.887 Lembre se do cenário do case. 00:15:23.887 --> 00:15:28.759 Tem um sistema que ele não estava com uma performance de algoritmo tão boa, 00:15:28.826 --> 00:15:33.230 então fizeram uma análise extrair os tempos de execução 00:15:33.297 --> 00:15:36.200 antes da implementação da melhoria no algoritmo. 00:15:36.200 --> 00:15:39.536 E aí precisava se agora fazer uma análise do depois. 00:15:39.603 --> 00:15:42.339 Então no depois nós temos a base de dados. 00:15:42.339 --> 00:15:43.607 Como está a performance? 00:15:43.607 --> 00:15:47.911 Dois Depois e agora o R vai verificar o antes e o depois. 00:15:47.911 --> 00:15:52.516 Para fazer esse comparativo e conseguir ter uma análise descritiva, 00:15:52.583 --> 00:15:53.884 fizemos para o antes. 00:15:53.884 --> 00:15:58.222 Vamos fazer a mesma coisa agora para o conjunto de dados do depois vem 00:15:58.222 --> 00:15:59.289 aqui comigo. 00:15:59.289 --> 00:16:04.995 Então, como sempre discutindo aqui, eu deixo um comentário para vocês, 00:16:05.062 --> 00:16:07.998 calculando medidas descritivas para depois 00:16:07.998 --> 00:16:12.002 nós iremos achar a média, a média de quem alpha. 00:16:12.202 --> 00:16:14.137 Lembre se. Agora 00:16:14.137 --> 00:16:19.042 vamos trabalhar com essa base de dados, a performance do algoritmo do depois. 00:16:19.142 --> 00:16:21.244 Então vamos descer um pouquinho. 00:16:21.244 --> 00:16:26.083 Nós estamos aqui cria uma variável chamado média depois esse é o nome. 00:16:26.083 --> 00:16:29.386 Esse é o nome da base de dados e vamos também achar os valores. 00:16:29.386 --> 00:16:31.655 O valor da mediana. 00:16:31.655 --> 00:16:35.826 Se eu apertar um entra aqui é sempre legal visualizar o resultado, 00:16:35.826 --> 00:16:39.997 a média depois e o depois. 00:16:39.997 --> 00:16:41.465 Vou apertar o enter. 00:16:41.465 --> 00:16:44.468 Então essa é a média da performance do depois. 00:16:44.634 --> 00:16:48.305 E agora nós vamos achar também o valor da mediana Visualizar. 00:16:48.305 --> 00:16:51.641 Perdão, nós já temos o valor 20 00:16:51.708 --> 00:16:54.378 mediano, não underline. 00:16:54.378 --> 00:16:56.680 Depois vou apertar o então. 00:16:56.680 --> 00:17:02.252 Então essa é a média e essa é a mediana do depois vou subir aqui, 00:17:02.319 --> 00:17:05.689 vamos pegar o nosso script, tá? 00:17:05.756 --> 00:17:08.258 Já fizemos antes, agora 00:17:08.258 --> 00:17:13.730 nós estamos calculando tudo, depois vamos achar agora o valor da moda 00:17:13.830 --> 00:17:14.831 é a mesma coisa 00:17:14.831 --> 00:17:18.602 que nós fizemos do antes, só que agora é a moda para depois. 00:17:18.668 --> 00:17:22.005 Vamos apertar alguns enter para ficar limpa a hora 00:17:22.005 --> 00:17:26.443 que nossa de programação poder entender criar a variável modo 00:17:26.610 --> 00:17:31.848 e logo depois depois as numeric len serve serve para converter os valores 00:17:31.882 --> 00:17:36.620 numérico, por mais que estão ali, mas é bom confirmar que os valores existam. 00:17:36.720 --> 00:17:39.523 São um número, eles estão como número. 00:17:39.523 --> 00:17:44.160 E aqui nós temos a parte da organização dos dados em ordem decrescente. 00:17:44.227 --> 00:17:48.965 E aqui, qual que é o conjunto de dados aí que vai ser feita essa moda? 00:17:49.065 --> 00:17:52.736 O valor da moda, se eu apertar o enter é igualzinho anterior, 00:17:52.836 --> 00:17:56.673 só muda que agora nós estamos fazendo a análise 00:17:56.740 --> 00:18:01.611 para os dados do depois, porque após implementação do algoritmo, 00:18:01.711 --> 00:18:07.817 então a moda para o depois de um valor resultou em um valor de 190. 00:18:07.917 --> 00:18:13.023 Vamos voltar mais um pouquinho aqui de pegar o script que nós deixamos 00:18:13.089 --> 00:18:15.492 a palavra pré pronto e pronto 00:18:15.492 --> 00:18:18.161 e vamos verificar o já geramos a moda 00:18:18.161 --> 00:18:21.831 e agora nós vamos criar, que é a variância, é o desvio padrão. 00:18:21.931 --> 00:18:24.734 Vamos descobrir qual é o valor da variância 00:18:24.734 --> 00:18:29.172 e qual o valor do desvio padrão para o depois e de apertar novamente alguns. 00:18:29.239 --> 00:18:30.707 Então 00:18:30.774 --> 00:18:33.643 vou dar um control v se eu só limpar aqui, 00:18:33.643 --> 00:18:37.280 se a gente executar com esse tracinho aqui vai vai ocorrer um erro. 00:18:37.380 --> 00:18:39.682 Então o que nós temos aqui? 00:18:39.682 --> 00:18:41.618 Criamos uma variável chamada variância. 00:18:41.618 --> 00:18:46.823 Depois aqui a instrução para calcular a variância dessa base de dados 00:18:46.923 --> 00:18:49.159 utilizando o VAR e o desvio padrão. 00:18:49.159 --> 00:18:51.528 Vou apertar enter. 00:18:51.528 --> 00:18:53.630 A gente esperava que dá certo. 00:18:53.630 --> 00:18:57.867 E aqui vamos só visualizar para confirmar que deu certo. 00:18:57.967 --> 00:18:59.202 Visualizou? 00:18:59.202 --> 00:19:04.140 E agora vamos verificar o valor do desvio padrão que foi 00:19:04.207 --> 00:19:05.108 encontrado. 00:19:05.108 --> 00:19:08.745 Desvio padrão depois ou pode ter um errinho aqui? 00:19:08.745 --> 00:19:14.517 Pessoal, cuidado aqui eu visualizei o antes, não era o antes e sim o depois. 00:19:14.617 --> 00:19:15.351 Vamos ver. 00:19:15.351 --> 00:19:18.855 Oh, então aqui o print é um erro. 00:19:18.855 --> 00:19:20.824 Não é um erro do script que a gente criou. 00:19:20.824 --> 00:19:24.294 Tais sim, na hora de visualizar o depois. 00:19:24.360 --> 00:19:27.430 Oh, então essa é a variância do que tínhamos feito anteriormente. 00:19:27.430 --> 00:19:29.866 E agora esse erro depois que acabamos de fazer. 00:19:29.866 --> 00:19:30.200 Tá vendo? 00:19:30.200 --> 00:19:31.100 Tomem cuidado, 00:19:31.100 --> 00:19:35.572 senão vocês podem estar a visualizar a informação que você não queria. 00:19:35.672 --> 00:19:36.739 Print. 00:19:36.739 --> 00:19:41.678 Agora vamos verificar o que o valor do desvio padrão do depois. 00:19:41.711 --> 00:19:45.315 Sim, novamente depois ou antes nós já passamos. 00:19:45.381 --> 00:19:46.182 Esse é o valor. 00:19:46.182 --> 00:19:48.751 Então nova aliança do depois. 00:19:48.751 --> 00:19:51.220 É esse o valor do desvio padrão. 00:19:51.220 --> 00:19:52.488 Depois. 00:19:52.488 --> 00:19:55.792 Agora vamos subir aqui e verificar o nosso script 00:19:55.792 --> 00:19:59.028 que nós deixamos pronto aqui. Legal! 00:19:59.128 --> 00:20:01.898 Nós já conseguimos criar, 00:20:01.898 --> 00:20:05.835 vamos lembrar a média mediana, a moda, 00:20:05.902 --> 00:20:11.174 a variância e o desvio padrão para base de dados do antes e do depois. 00:20:11.240 --> 00:20:15.411 Agora podemos dizer que a gente precisa juntar tudo isso 00:20:15.511 --> 00:20:18.815 para visualizar esses valores aqui. 00:20:18.815 --> 00:20:22.285 Na verdade, seria uma impressão de tudo que nós fizemos até agora. 00:20:22.318 --> 00:20:26.089 Só vou apertar alguns em três aqui, mas a última parte 00:20:26.189 --> 00:20:27.924 são apenas duas instruções agora. 00:20:27.924 --> 00:20:29.559 Opa, vou apagar. 00:20:29.559 --> 00:20:33.196 Controlo ver o que essa última parte, Rafa, 00:20:33.262 --> 00:20:36.532 imprimindo os resultados aqui vamos trabalhar 00:20:36.532 --> 00:20:40.670 com todas as informações do antes e o depois. 00:20:40.737 --> 00:20:41.337 Vou apertar. 00:20:41.337 --> 00:20:45.708 Então é assim simples de visualizar 00:20:45.775 --> 00:20:49.512 o entender que está na riqueza, entender todas essas informações. 00:20:49.579 --> 00:20:50.646 Então o que nós temos aqui? 00:20:50.646 --> 00:20:54.550 Olha aqui, antes disso, aqui é um texto sempre. 00:20:54.550 --> 00:20:57.720 Eu quero juntar um texto com valores, eu coloco teste, aí 00:20:57.720 --> 00:20:59.055 eu coloco a informação, lembra? 00:20:59.055 --> 00:21:00.723 Divido por vírgula. 00:21:00.723 --> 00:21:04.460 E o nome da variável só aqui, na verdade é uma impressão 00:21:04.460 --> 00:21:07.163 mostrando tudo o que nós fizemos anteriormente. 00:21:07.163 --> 00:21:08.865 Vamos pegar o outro script. 00:21:08.865 --> 00:21:11.601 Poderíamos fazer aqui na mão agora, poderíamos talvez 00:21:11.601 --> 00:21:15.771 demorar só um pouquinho aqui para vocês, pra gente digitar junto 00:21:15.872 --> 00:21:18.374 para digitarmos essas informações. 00:21:18.374 --> 00:21:20.209 Nós apertar mais alguns inteiros. 00:21:20.209 --> 00:21:23.679 Aqui, como sempre, vou apertar muito o que nós temos aqui 00:21:23.679 --> 00:21:27.183 até um momento de uma revisão antes, 00:21:27.250 --> 00:21:30.920 a média antes e esse valor média antes 00:21:31.020 --> 00:21:34.423 e esse valor mediano 00:21:34.490 --> 00:21:36.359 antes mediana antes. 00:21:36.359 --> 00:21:39.328 Então, aqui nós só juntamos uma impressão de tudo o que nós 00:21:39.328 --> 00:21:42.698 projetamos anteriormente e aqui do depois. 00:21:42.765 --> 00:21:46.969 E é agora que fica o que se a gente pegar o nosso TO do nosso script, 00:21:47.036 --> 00:21:48.704 pegamos desde uma introdução. 00:21:48.704 --> 00:21:51.340 O que é uma análise descritiva, 00:21:51.340 --> 00:21:55.544 duas bases de dados com verificamos o antes e o depois, 00:21:55.611 --> 00:22:00.516 calculamos a média mediana, conseguimos nos achar o valor da moda 00:22:00.516 --> 00:22:04.920 também, tanto para os dados do antes como depois 00:22:04.987 --> 00:22:08.290 e enfim, só voltando, descendo um pouquinho aqui, 00:22:08.357 --> 00:22:11.994 agora a gente consegue imprimir e com essas informações 00:22:11.994 --> 00:22:15.998 em mãos nós conseguimos obter os nossos resultados. 00:22:16.065 --> 00:22:19.468 Então aqui é o conjunto 00:22:19.568 --> 00:22:20.669 mostrando o resultado. 00:22:20.669 --> 00:22:22.471 Todas as informações numa impressão 00:22:22.471 --> 00:22:26.175 só, tudo o que calculamos antes, tudo que calculamos o depois. 00:22:26.242 --> 00:22:28.411 E agora que você consegue fazer a interpretação, 00:22:28.411 --> 00:22:33.482 vamos pegar o mais simples aqui a média de tempo de execução 00:22:33.582 --> 00:22:36.919 do antes antes de implementar a melhoria no algoritmo. 00:22:37.019 --> 00:22:37.720 O tempo de execução. 00:22:37.720 --> 00:22:41.891 Supondo que fossem segundos, demorava 218/2. 00:22:41.957 --> 00:22:44.760 Agora caiu para 196 e por aí vai. 00:22:44.760 --> 00:22:50.432 Você consegue comparar o antes e o depois de cada uma dessas informações 00:22:50.499 --> 00:22:53.169 para saber se realmente 00:22:53.169 --> 00:22:56.138 melhorou a performance do sistema 00:22:56.138 --> 00:22:59.508 após a implementação da melhoria do algoritmo? 00:22:59.608 --> 00:23:01.210 Eu tenho certeza que vocês conseguiram 00:23:01.210 --> 00:23:04.980 entender a importância de saber utilizar todas essas instruções, 00:23:05.014 --> 00:23:09.018 a linguagem R e até mesmo saber interpretar esses resultados e.