< Return to Video

PSCC CAP02 2025 VA04 AWS INGESTAO DE DADOS COM GLUE

  • 0:08 - 0:12
    Na AWS a gente consegue
    capturar dados desde a entrada
  • 0:12 - 0:16
    e já fazer consulta nesses dados
    sem ter que configurar
  • 0:16 - 0:19
    praticamente nada,
    usando o serviço do Glue.
  • 0:19 - 0:20
    Então primeiro eu vou mostrar
    para vocês
  • 0:20 - 0:25
    como que a gente faz a partir
    de um dado como arquivo CSV,
  • 0:25 - 0:29
    incluir esses dado na AWS e depois
    fazer uma consulta SQL nesse dado
  • 0:29 - 0:31
    que a gente acabou de inserir.
  • 0:31 - 0:36
    Aqui no console,
    eu vou acessar aqui o serviço do "S3",
  • 0:36 - 0:42
    que é o serviço de armazenamento
    de objetos da AWS.
  • 0:42 - 0:46
    E vou criar o bucket de entrada,
    que é um bucket,
  • 0:46 - 0:49
    é um repositório onde eu coloco
    diversos tipos de arquivos.
  • 0:49 - 0:51
    Pode ser imagem,
    pode ser um texto,
  • 0:51 - 0:53
    pode ser um arquivo CSV,
    por exemplo.
  • 0:53 - 0:57
    Então,
    vou criar aqui o meu bucket.
  • 0:57 - 1:00
    Vou criar aqui
    "ftf-bucket-dados-brutos",
  • 1:00 - 1:03
    que é onde a gente vai fazer
    a carga do nosso arquivo CSV.
  • 1:03 - 1:08
    O bucket "propósito geral" mesmo.
    Aqui eu não marco nada.
  • 1:08 - 1:11
    Não preciso ter o acesso público.
  • 1:11 - 1:14
    Ou melhor, vou manter bloqueado aqui
    o "acesso público".
  • 1:14 - 1:17
    Só acesso pela AWS mesmo.
  • 1:17 - 1:22
    Não preciso de "versionamento"
    e não precisa de "chave do bucket".
  • 1:22 - 1:28
    Vou "criar" aqui o nosso bucket.
  • 1:28 - 1:30
    Então a gente já criou
    o nosso bucket de entrada,
  • 1:30 - 1:32
    que é onde a gente vai gravar
    um arquivo CSV.
  • 1:32 - 1:35
    Então vamos gravar aqui
    um arquivo CSV
  • 1:35 - 1:39
    e depois criar um bucket
    aonde ele vai executar consultas SQL
  • 1:39 - 1:42
    e depois cada consulta gera
    um arquivo separadamente
  • 1:42 - 1:45
    e eu consigo ter a extração
    das informações que eu preciso.
  • 1:45 - 1:47
    Então,
    vou clicar aqui
  • 1:47 - 1:53
    no nosso "ftf-bucket-dados-brutos"
    e vou subir um arquivo CSV.
  • 1:53 - 1:56
    Vou fazer uma carga desse arquivo.
  • 1:56 - 1:58
    Vou clicar em "adicionar arquivos".
  • 1:58 - 1:59
    Então, eu já tinha baixado aqui
    o arquivo,
  • 1:59 - 2:04
    vou clicar aqui em "Downloads",
    "employees.csv",
  • 2:04 - 2:07
    do um "open"
    e vou fazer a carga.
  • 2:07 - 2:10
    É um arquivo simples
    ele tem um pouco mais de 1 mega,
  • 2:10 - 2:13
    dois mega quase.
  • 2:13 - 2:18
    Já está lá disponível para a gente
    e já vou deixar um bucket pré criado
  • 2:18 - 2:22
    para quando a gente for fazer
    consultas nesses dados,
  • 2:22 - 2:26
    ele salvar os resultados
    nesse bucket de saída.
  • 2:26 - 2:30
    Vou "criar" aqui o bucket,
    que eu vou chamar.
  • 2:30 - 2:34
    A gente precisa lembrar
    que o nome do bucket
  • 2:34 - 2:35
    ele tem que ser único no mundo.
  • 2:35 - 2:39
    Então, sempre tenta colocar
    algo que seja identificador único seu.
  • 2:39 - 2:41
    Por exemplo,
    as suas iniciais,
  • 2:41 - 2:42
    que é o que a gente vai usar.
  • 2:42 - 2:46
    Vou colocar aqui
    "ftf-bucket-",
  • 2:46 - 2:49
    ftf são as minhas iniciais,
  • 2:49 - 2:54
    "bucket-saida-glue".
  • 2:54 - 2:56
    que é o que a gente vai executar,
    ou melhor,
  • 2:56 - 3:02
    a gente vai executar aqui o "Athen".
  • 3:02 - 3:07
    Vou deixar essa parte pré configurada
    "sem versionamento" também,
  • 3:07 - 3:14
    sem "chave do bucket".
  • 3:14 - 3:18
    Então, eu tenho o meu bucket
    de arquivos de entrada
  • 3:18 - 3:20
    e depois quando eu executar
    a consulta SQL
  • 3:20 - 3:23
    eu tenho um bucket
    que ele vai armazenar as consultas.
  • 3:23 - 3:26
    Agora a gente vai fazer
    o segundo passo,
  • 3:26 - 3:31
    que é criar um crawler,
    que é um serviço
  • 3:31 - 3:35
    que vai buscar dados
    dentro desse bucket de entrada.
  • 3:35 - 3:37
    Então, toda vez que a gente
    tiver um arquivo novo,
  • 3:37 - 3:39
    ele automaticamente vai identificar
  • 3:39 - 3:42
    quais são as características desse arquivo,
  • 3:42 - 3:45
    ou seja,
    o tamanho do arquivo,
  • 3:45 - 3:48
    as colunas que eu vou utilizar,
    ele vai inferir isso
  • 3:48 - 3:51
    para que eu consiga fazer
    consultas nesse arquivo.
  • 3:51 - 3:54
    Vou colocar aqui no serviço,
    na caixa de busca.
  • 3:54 - 4:06
    Vou colocar aqui "glue",
    "AWS Glue" está aqui.
  • 4:06 - 4:10
    Esse é o serviço do "AWS Glue",
    a gente tem aqui os "Jobs ETL",
  • 4:10 - 4:14
    e mais para baixo a gente
    tem algumas configurações.
  • 4:14 - 4:18
    Vou clicar aqui
    em "ETL Jobs'.
  • 4:18 - 4:20
    Então,
    aqui a gente tem várias configurações
  • 4:20 - 4:24
    dentro desse ambiente do Glue,
    posso rodar o serviço de ETL
  • 4:24 - 4:26
    que é extração,
    transformação e carga.
  • 4:26 - 4:29
    Ou eu vou rodar,
    como se fosse um robo
  • 4:29 - 4:30
    que é chamado de Crawler,
  • 4:30 - 4:34
    que vai tentar buscar
    em algum caminho específico,
  • 4:34 - 4:37
    seja lá um bucket como a gente criou.
  • 4:37 - 4:39
    Vai identificar as características
    dos arquivos
  • 4:39 - 4:42
    para que a gente consiga
    extrair os metadados
  • 4:42 - 4:46
    e a gente faça consultas
    SQL dentro desses metadados.
  • 4:46 - 4:50
    Então,
    vou "criar" aqui um "crawler".
  • 4:50 - 5:00
    Vou chamar aqui
    de "crawler-dados-brutos".
  • 5:00 - 5:03
    Vou clicar em "avançar".
  • 5:03 - 5:05
    Eu vou adicionar aqui
    um "data source".
  • 5:05 - 5:08
    De onde que vem a fonte
    desses dados?
  • 5:08 - 5:09
    "Adicionar um data source".
  • 5:09 - 5:12
    Ele vem lá do bucket do "s3".
  • 5:12 - 5:16
    Aqui embaixo eu vou buscar
    aonde que está esse bucket do "s3".
  • 5:16 - 5:18
    Está nessa conta.
  • 5:18 - 5:20
    Vou clicar aqui "browse s3"
  • 5:20 - 5:24
    para fazer a busca
    desse bucket do "s3".
  • 5:24 - 5:29
    É o nosso banco de dados de entrada,
    nossos dados brutos.
  • 5:29 - 5:31
    Vou clicar em "Choose".
  • 5:31 - 5:33
    Aqui por enquanto está vermelho,
    se eu clicar fora,
  • 5:33 - 5:35
    some a mensagem.
  • 5:35 - 5:39
    Tem as configurações
    que ele pode buscar por subpastas,
  • 5:39 - 5:44
    que é o que deixou pré selecionado
    ou só para novas pastas.
  • 5:44 - 5:46
    O que isso quer dizer?
  • 5:46 - 5:51
    Você pode preparar esse crawler
    para buscar
  • 5:51 - 5:54
    sempre que tiver um arquivo novo
    dentro desse bucket,
  • 5:54 - 5:56
    ou só quando eu subir
    uma pasta nova,
  • 5:56 - 5:59
    porque ele já sabe que aquilo
    é algo novo
  • 5:59 - 6:03
    e não precisa procurar
    em todos os arquivos dentro da AWS.
  • 6:03 - 6:07
    Então aqui a gente vai deixar
    para marcar a primeira opção mesmo
  • 6:07 - 6:13
    dentro do "sub-folders"
    e vou adicionar essa fonte de dados.
  • 6:13 - 6:16
    Vou clicar em "Next".
  • 6:16 - 6:21
    Aqui eu preciso selecionar
    a nossa função de teste,
  • 6:21 - 6:24
    nosso ambiente de teste,
    que é o "LabRole",
  • 6:24 - 6:28
    com essa função a gente consegue
    executar as consultas necessárias.
  • 6:28 - 6:33
    Vou dar um "Next".
  • 6:33 - 6:36
    Eu vou configurar agora
    uma base de dados
  • 6:36 - 6:40
    para que quando o meu arquivo
    do meu bucket,
  • 6:40 - 6:41
    ele vai criar uma base de dados
    metadados.
  • 6:41 - 6:42
    O que são os metadados?
  • 6:42 - 6:46
    Ele vai dar informações
    dos tipos de colunas,
  • 6:46 - 6:50
    de como é a estrutura desses dados
    que estamos fazendo essa leitura.
  • 6:50 - 6:51
    Então vou clicar aqui,
  • 6:51 - 6:54
    "add database".
  • 6:54 - 6:55
    Ele vai abrir aqui uma nova janela.
  • 6:55 - 6:59
    Ele está aqui nessa guia de database,
  • 6:59 - 7:01
    se eu clicarsse aqui,
    por exemplo,
  • 7:01 - 7:04
    posso criar uma nova base de dados,
  • 7:04 - 7:06
    que é a mesma tela que a gente caiu.
  • 7:06 - 7:09
    Vou colocar aqui o nome DB
  • 7:09 - 7:12
    Metadados.
  • 7:15 - 7:18
    E vou clicar em Criar data mês.
  • 7:19 - 7:20
    Já tenho a base de dados
  • 7:20 - 7:23
    criada aqui para a gente.
  • 7:24 - 7:27
    Agora eu vou voltar
    para a parte da criação do crawler
  • 7:27 - 7:28
    para que a gente aponte para essa
  • 7:28 - 7:31
    nova base de dados
    que a gente acabou de criar.
  • 7:33 - 7:34
    Voltei aqui para nossa tela,
  • 7:34 - 7:37
    estava em outra aba,
    estava aqui na parte de criação.
  • 7:37 - 7:39
    Voltei para a aba anterior.
  • 7:39 - 7:41
    Vou dar um refresh.
  • 7:41 - 7:44
    Já está aqui
    a nossa base de dados de metadados.
  • 7:45 - 7:49
    Posso colocar opcionalmente
    um prefixo para o nome das tabelas
  • 7:49 - 7:50
    que ele vai criar ou não.
  • 7:50 - 7:52
    Vou deixar assim por enquanto
  • 7:52 - 7:54
    é essa informação de baixa
    importância.
  • 7:54 - 7:56
    Ele define
  • 7:56 - 7:58
    quando a gente vai executar esse
    Kroll,
  • 7:58 - 8:02
    esse robozinho que vai de tempos
    em tempos buscar informações novas
  • 8:02 - 8:03
    no nosso bucket.
  • 8:04 - 8:07
    As três opções sob demanda
  • 8:07 - 8:10
    a cada hora, diariamente,
    semanalmente, mensalmente,
  • 8:10 - 8:12
    você define
  • 8:12 - 8:14
    quando que você quer
    exatamente executar.
  • 8:14 - 8:16
    Então as vezes ele está sob demanda,
  • 8:16 - 8:18
    então ele vai ativar somente
    quando a gente precisar
  • 8:18 - 8:20
    que ele leia arquivos.
  • 8:20 - 8:23
    Nós vou cair Next
  • 8:24 - 8:27
    e vou criar aqui o nosso crawler.
  • 8:28 - 8:29
    Ele está criando
  • 8:29 - 8:32
    um refresh.
  • 8:34 - 8:37
    Vamos aguardar
    mais alguns instantes.
  • 8:38 - 8:39
    Ou clicar aqui novamente.
  • 8:39 - 8:42
    Crawlers.
  • 8:44 - 8:46
    Pronto,
    já apareceu aqui o nosso colo.
  • 8:46 - 8:49
    Ele está pronto para ser executado.
  • 8:49 - 8:52
    Ele ainda não foi nenhuma vez
    executado.
  • 8:52 - 8:52
    Está aqui.
  • 8:52 - 8:53
    Não tem um agendamento.
  • 8:53 - 8:56
    Ele é sob demanda mesmo, tá?
  • 8:56 - 8:59
    E aí eu posso mandar executar
    ou daqui um ano?
  • 9:05 - 9:07
    O que ele está fazendo agora?
  • 9:07 - 9:09
    Ele está indo no bug que estudou?
  • 9:09 - 9:10
    As três que a gente criou,
  • 9:10 - 9:13
    Vai procurar por todos atributos
    que tem ali dentro
  • 9:13 - 9:15
    e para cada arquivo
    que ele encontrar,
  • 9:15 - 9:17
    ele vai entender a estrutura dele.
  • 9:17 - 9:18
    Vai tentar inferir o tipo de dado
  • 9:18 - 9:21
    que está em cada coluninha
    do nosso arquivo CSV,
  • 9:21 - 9:23
    para que a gente
    depois consiga fazer uma consulta
  • 9:25 - 9:26
    usando SQL, por exemplo.
  • 9:26 - 9:29
    Dentro desse banco, desse
    e desse bucket que a gente criou.
  • 9:29 - 9:29
    Então aqui
  • 9:29 - 9:33
    ele já executou o nosso crawler,
    ele executou aqui com sucesso.
  • 9:34 - 9:35
    Então a gente vai ver aqui.
  • 9:35 - 9:38
    Vou dar um refresh para ele
    atualizar aqui as informações.
  • 9:39 - 9:42
    Posso listar aqui no nosso crawler.
  • 9:43 - 9:44
    Já mostra
  • 9:44 - 9:47
    quando foi a última vez que ele foi
    executado.
  • 9:47 - 9:49
    Vou clicar aqui
    na nossa base de dados
  • 9:49 - 9:52
    para ver se ele criou alguma tabela
    daquilo que ele achou.
  • 9:52 - 9:55
    Vou clicar aqui. Em tempos
  • 9:55 - 9:56
    o que ele criou aqui?
  • 9:56 - 9:59
    FTF Banco de dados brutos.
  • 10:01 - 10:03
    Ele tinha lá um arquivo
  • 10:03 - 10:05
    e aqui a gente vai ver
  • 10:05 - 10:08
    o que ele identificou de dados
    nesse arquivo que a gente subiu.
  • 10:09 - 10:12
    Então já executou o nosso Troller
  • 10:12 - 10:14
    aqui nas tabelas
    ele vai dar as informações
  • 10:14 - 10:17
    daquilo que ele conseguiu
    visualizar.
  • 10:17 - 10:20
    Eu posso ver os dados diretamente,
    eu posso ver os metadados,
  • 10:20 - 10:24
    vou clicar aqui para ver as
    características desses dados, viu?
  • 10:24 - 10:25
    Data Quality
  • 10:26 - 10:28
    E aqui é bom ver, viu?
  • 10:28 - 10:29
    Ele vai me dar o que ele entendeu.
  • 10:29 - 10:33
    Desses dados ele já identificou,
    por exemplo, 14 colunas.
  • 10:35 - 10:38
    Tem o ID do funcionário,
    por exemplo,
  • 10:38 - 10:40
    vai ter aquele tipo de dado
    que nem identificou.
  • 10:40 - 10:43
    Ele identificou como big gente,
    cidade como string,
  • 10:45 - 10:48
    o índice de envolvimento, a cidade
    como alvo e assim por diante.
  • 10:48 - 10:50
    Então, legal
    isso aqui são os metadados
  • 10:50 - 10:53
    que ele detectou para depois
    que eu consiga fazer uma consulta.
  • 10:53 - 10:56
    Eu já sei com que tipo de
    dado que eu tô lidando,
  • 10:57 - 11:00
    então vou voltar aqui novamente
    para as minhas tabelas
  • 11:01 - 11:03
    e vou selecionar aqui o nosso
  • 11:03 - 11:06
    a nossa tabelinha
    e vou clicar em ter mudado.
  • 11:06 - 11:10
    Assim que eu clicar em Ter data
    ele vai abrir um novo serviço
  • 11:10 - 11:13
    chamado Atina, que é um serviço
    que permite rodar consultas.
  • 11:13 - 11:14
    Querem nesse
  • 11:15 - 11:17
    método, nesse conjunto de
  • 11:17 - 11:20
    dados que a gente acabou de mapear,
    de definir os metadados
  • 11:20 - 11:23
    e fazer uma consulta
    e extrair informações agregadas.
  • 11:23 - 11:26
    Por exemplo,
    vou voltar aqui pra gente ver.
  • 11:27 - 11:30
    Vou clicar aqui em Data.
  • 11:30 - 11:33
    Vai abrir aqui
    uma nova guia para a gente.
  • 11:36 - 11:38
    E veja que ele já criou aqui
    uma coisa SQL.
  • 11:38 - 11:41
    Só que antes de executar essa query
    ele está falando.
  • 11:41 - 11:44
    Você não definiu
    o local de saída dessa query?
  • 11:44 - 11:47
    Eu preciso definir isso
    antes de configurar
  • 11:48 - 11:50
    executar essa consulta SQL,
  • 11:50 - 11:53
    eu vou clicar aqui em Configurações
  • 11:54 - 11:57
    e vou clicar em Gerenciar.
  • 11:58 - 12:01
    Aqui tem a opção de colocar a
  • 12:02 - 12:05
    aonde vai ter o resultado
    das coisas que eu fizer pela Tina,
  • 12:06 - 12:07
    aí vai colocar aqui.
  • 12:07 - 12:10
    Vamos clicar em Browns S3
  • 12:10 - 12:13
    e vamos escolher o nosso
    banco de saída que a gente criou
  • 12:13 - 12:13
    logo no começo
  • 12:15 - 12:18
    dessa matéria.
  • 12:18 - 12:21
    Vou clicar aqui e escolher.
  • 12:25 - 12:28
    E vou clicar em Salvar.
  • 12:30 - 12:31
    Legal,
  • 12:31 - 12:34
    Vou voltar aqui para o nosso editor.
  • 12:35 - 12:38
    Ele assumiu que aquela
    mensagem de erro eu tenho.
  • 12:38 - 12:42
    Eu consigo visualizar
    as tabelas que ele criou a tabela.
  • 12:42 - 12:45
    Ele deu o mesmo nome do bucket
    que a gente já tinha
  • 12:45 - 12:48
    e aqui tem umas colunas
    que ele identificou.
  • 12:48 - 12:50
    Então vou fazer uma consulta
  • 12:50 - 12:53
    nesse catálogo de metadados,
  • 12:54 - 12:57
    nessa base de dados,
    nessa tabelinha aqui.
  • 12:57 - 12:59
    Eu posso até poderia
    até renomear essa tabela,
  • 12:59 - 13:02
    mas vamos executar sem medo,
    só pra gente ver a consulta.
  • 13:02 - 13:04
    Quando vem para a gente.
  • 13:04 - 13:07
    Vou clicar executar e
  • 13:07 - 13:08
    pronto.
  • 13:08 - 13:11
    Já conseguiu consultar
    todos os dados do nosso arquivo CSV?
  • 13:14 - 13:17
    Veja que a gente não precisou
    configurar o banco de dados.
  • 13:17 - 13:21
    A gente acessou diretamente
    o arquivo sem configurar nada da WS,
  • 13:22 - 13:25
    carregou um arquivo
    dentro do S3 e a gente
  • 13:26 - 13:29
    rodou um robozinho chamado crawler
  • 13:29 - 13:32
    para conseguir extrair os metadados
    para que a gente conseguisse
  • 13:32 - 13:35
    executar uma consulta
    SQL dentro desses arquivos.
Title:
PSCC CAP02 2025 VA04 AWS INGESTAO DE DADOS COM GLUE
Video Language:
Portuguese, Brazilian
Duration:
13:39

Portuguese, Brazilian subtitles

Incomplete

Revisions Compare revisions