-
Na WS a gente consegue
-
capturar dados desde a entrada
e já fazer consulta nesses dados
-
sem ter configurar praticamente
nada, usando o serviço do grupo.
-
Então,
primeiro de mostrar para vocês
-
como que a gente faz a partir
de um dado como arquivo CSV,
-
incluir esses dados na WS
e depois fazer uma consulta SQL.
-
Nesse dado
que a gente acabou de inserir
-
aqui no console.
-
Eu vou acessar aqui
o serviço do S3, que é o serviço
-
de armazenamento de objetos da WS.
-
E vou criar o banquete de entrada,
que é um banquete
-
e um repositório onde eu coloco
diversos tipos de arquivos.
-
Pode ser imagem, pode ser um texto,
-
pode ser um arquivo
CSV, por exemplo.
-
Então vou criar aqui o meu bucket.
-
Vou criar que FTF bucket
de dados brutos,
-
que é onde ele vai fazer
a carga do nosso arquivo CSV.
-
O banco de Propósito Geral mesmo
-
aqui no Marco nada.
-
Não preciso ter o acesso público,
-
ou melhor, vou manter bloquear
bloqueado aqui o acesso ao público.
-
Só acesso pela WS mesmo.
-
Não precisa dimensionamento
-
e não precisa de chave do banquete.
-
Vou criar aqui o nosso bucket.
-
Então já criei
o nosso banco de entrada,
-
que é onde a gente vai gravar
um arquivo CSV.
-
Então vamos gravar aqui
um arquivo CSV
-
e depois ir criar o bucket
aonde ele vai executar consultas SQL
-
e depois cada consulta gera
um arquivo separadamente.
-
Eu consigo ter a extração
das informações que eu preciso,
-
então
vou clicar aqui no nosso bucket
-
Dados brutos
e vou subir um arquivo CSV.
-
Vou fazer uma carga desse arquivo,
-
vou clicar e adicionar arquivos.
-
Então eu já tinha baixado aqui
o arquivo, clica aqui em Downloads
-
e infla esse ponto CSV
-
do open e vou fazer a carga.
-
Então aqui
você precisa ter um pouco mais
-
de um mega e dois mega quase
-
já está lá disponível pra gente
-
e já vou deixar um buque de pré
criado para quando a gente for fazer
-
e fazer consultas nesses dados,
-
ele salvar os resultados
nesse bocadinho de saída,
-
vou criar aqui o banquete
-
que eu vou chamar.
-
A gente precisa relembrar aqui
-
o nome do banquete.
-
Ele tem que ser único no mundo,
-
então sempre tenta colocar algo
que seja
-
identificador único seu.
-
Por exemplo, as suas iniciais
que o Chris vai usar.
-
Vou colocar aqui FTF
-
bucket e IF são as minhas iniciais
-
Bucket saída.
-
Blue que é o que a gente vai
executar,
-
ou melhor,
as vezes eu está aqui ó a Tina.
-
Vou deixar essa parte
-
pré configurada
sem versionamento também,
-
sem chave do banquete.
-
Então eu tenho o meu banquete
de arquivos de entrada
-
e depois, quando eu executar
Konstanz, que até o banquete
-
que ele vai armazenar as consultas.
-
Agora ele vai fazer o segundo passo,
-
que é criar um cooler,
que é um serviço
-
que ele vai buscar dados
dentro desse bucket de entrada.
-
Então toda vez
que eu tiver um arquivo novo,
-
ele automaticamente
ele vai identificar quais são
-
as características desse arquivo,
Seja lá o tamanho do arquivo
-
ou as colunas que eu vou utilizar,
ele vai inserir isso
-
para que eu consiga fazer consultas
nesse arquivo.
-
Vou colocar aqui no serviço,
na caixa de busca,
-
vou colocar aqui no nada, mas
-
aqui.
-
Esse é o serviço do WS
que a gente tem aqui
-
os jogos e ele é mais pra baixo
e tem algumas configurações
-
ou clica aqui e ali.
-
Jobs.
-
Então, aqui a gente
-
tem várias configurações
dentro desse ambiente do Google,
-
posso rodar o serviço de ETL que
a extração, transformação e carga
-
ou eu
vou rodar como se fosse um robozinho
-
que é chamado de Crowder,
que vai tentar buscar em algum
-
caminho específico, seja lá
um banquete como a gente criou.
-
Vai identificar as características
e arquivos para que a gente consiga
-
extrair os metadados
-
e a gente faça consultas
SQL dentro desses metadados.
-
Então, vou criar aqui um cooler.
-
Vou chamar aqui de cooler.
-
Dados brutos.
-
No caixa lançar.
-
Então vou adicionar aqui
um data source.
-
Daonde que vem a fonte desses dados?
-
Adicionar um datasource.
-
Ele vem lá do banco e desce três
Aqui embaixo eu vou buscar
-
aonde que está
-
esse banco e desse três
está nessa conta.
-
Vou clicar aqui browse
para fazer a busca desse banco.
-
Das três
-
e o nosso banco de dados de entrada.
-
Nosso dados brutos.
-
Vou clicar em Os aqui.
-
Por enquanto está vermelhinho,
só clicar fora, ler só na mensagem
-
tem as configurações
que ele pode buscar por subpastas,
-
que é o que deixou pré selecionado
-
ou só para novas pastas.
-
O que isso quer dizer?
-
Você pode preparar
-
esse crawler para buscar
-
sempre que tiver um arquivo novo
dentro desse bucket,
-
ou só quando eu subir uma pasta nova
porque já sabe que aquilo
-
é algo novo e não só procurar
em todos os arquivos dentro da WS.
-
Então aqui vai deixar para marcar
-
a primeira opção
mesmo dentro do Sub Folders
-
e vou adicionar essa fonte de dados.
-
Vou cair Next.
-
Aqui eu preciso selecionar
-
a nossa função de teste no nosso
ambiente de teste, que é o lembrou
-
que com essa função a gente consegue
executar as consultas necessárias.
-
Rodar o Next.
-
Eu vou configurar agora
-
uma base de dados para que quando
ele for meu arquivo do meu bucket,
-
ele vai criar uma base de dados.
-
Metadados. O que são os metadados?
-
Ele vai dar informações
dos tipos de colunas,
-
de como é a estrutura desses dados
que a gente está fazendo.
-
Essa leitura.
-
Então vou clicar aqui,
adicionar data, mês.
-
Ele vai abrir aqui uma nova janela.
-
Ele está aqui
-
nessa minha linha de data,
mas se eu clicar aqui, por exemplo,
-
posso criar uma nova base de dados,
que é a mesma teoria
-
que a gente caiu.
-
Vou colocar aqui o nome DB
-
Metadados.
-
E vou clicar em Criar data mês.
-
Já tenho a base de dados
-
criada aqui para a gente.
-
Agora eu vou voltar
para a parte da criação do crawler
-
para que a gente aponte para essa
-
nova base de dados
que a gente acabou de criar.
-
Voltei aqui para nossa tela,
-
estava em outra aba,
estava aqui na parte de criação.
-
Voltei para a aba anterior.
-
Vou dar um refresh.
-
Já está aqui
a nossa base de dados de metadados.
-
Posso colocar opcionalmente
um prefixo para o nome das tabelas
-
que ele vai criar ou não.
-
Vou deixar assim por enquanto
-
é essa informação de baixa
importância.
-
Ele define
-
quando a gente vai executar esse
Kroll,
-
esse robozinho que vai de tempos
em tempos buscar informações novas
-
no nosso bucket.
-
As três opções sob demanda
-
a cada hora, diariamente,
semanalmente, mensalmente,
-
você define
-
quando que você quer
exatamente executar.
-
Então as vezes ele está sob demanda,
-
então ele vai ativar somente
quando a gente precisar
-
que ele leia arquivos.
-
Nós vou cair Next
-
e vou criar aqui o nosso crawler.
-
Ele está criando
-
um refresh.
-
Vamos aguardar
mais alguns instantes.
-
Ou clicar aqui novamente.
-
Crawlers.
-
Pronto,
já apareceu aqui o nosso colo.
-
Ele está pronto para ser executado.
-
Ele ainda não foi nenhuma vez
executado.
-
Está aqui.
-
Não tem um agendamento.
-
Ele é sob demanda mesmo, tá?
-
E aí eu posso mandar executar
ou daqui um ano?
-
O que ele está fazendo agora?
-
Ele está indo no bug que estudou?
-
As três que a gente criou,
-
Vai procurar por todos atributos
que tem ali dentro
-
e para cada arquivo
que ele encontrar,
-
ele vai entender a estrutura dele.
-
Vai tentar inferir o tipo de dado
-
que está em cada coluninha
do nosso arquivo CSV,
-
para que a gente
depois consiga fazer uma consulta
-
usando SQL, por exemplo.
-
Dentro desse banco, desse
e desse bucket que a gente criou.
-
Então aqui
-
ele já executou o nosso crawler,
ele executou aqui com sucesso.
-
Então a gente vai ver aqui.
-
Vou dar um refresh para ele
atualizar aqui as informações.
-
Posso listar aqui no nosso crawler.
-
Já mostra
-
quando foi a última vez que ele foi
executado.
-
Vou clicar aqui
na nossa base de dados
-
para ver se ele criou alguma tabela
daquilo que ele achou.
-
Vou clicar aqui. Em tempos
-
o que ele criou aqui?
-
FTF Banco de dados brutos.
-
Ele tinha lá um arquivo
-
e aqui a gente vai ver
-
o que ele identificou de dados
nesse arquivo que a gente subiu.
-
Então já executou o nosso Troller
-
aqui nas tabelas
ele vai dar as informações
-
daquilo que ele conseguiu
visualizar.
-
Eu posso ver os dados diretamente,
eu posso ver os metadados,
-
vou clicar aqui para ver as
características desses dados, viu?
-
Data Quality
-
E aqui é bom ver, viu?
-
Ele vai me dar o que ele entendeu.
-
Desses dados ele já identificou,
por exemplo, 14 colunas.
-
Tem o ID do funcionário,
por exemplo,
-
vai ter aquele tipo de dado
que nem identificou.
-
Ele identificou como big gente,
cidade como string,
-
o índice de envolvimento, a cidade
como alvo e assim por diante.
-
Então, legal
isso aqui são os metadados
-
que ele detectou para depois
que eu consiga fazer uma consulta.
-
Eu já sei com que tipo de
dado que eu tô lidando,
-
então vou voltar aqui novamente
para as minhas tabelas
-
e vou selecionar aqui o nosso
-
a nossa tabelinha
e vou clicar em ter mudado.
-
Assim que eu clicar em Ter data
ele vai abrir um novo serviço
-
chamado Atina, que é um serviço
que permite rodar consultas.
-
Querem nesse
-
método, nesse conjunto de
-
dados que a gente acabou de mapear,
de definir os metadados
-
e fazer uma consulta
e extrair informações agregadas.
-
Por exemplo,
vou voltar aqui pra gente ver.
-
Vou clicar aqui em Data.
-
Vai abrir aqui
uma nova guia para a gente.
-
E veja que ele já criou aqui
uma coisa SQL.
-
Só que antes de executar essa query
ele está falando.
-
Você não definiu
o local de saída dessa query?
-
Eu preciso definir isso
antes de configurar
-
executar essa consulta SQL,
-
eu vou clicar aqui em Configurações
-
e vou clicar em Gerenciar.
-
Aqui tem a opção de colocar a
-
aonde vai ter o resultado
das coisas que eu fizer pela Tina,
-
aí vai colocar aqui.
-
Vamos clicar em Browns S3
-
e vamos escolher o nosso
banco de saída que a gente criou
-
logo no começo
-
dessa matéria.
-
Vou clicar aqui e escolher.
-
E vou clicar em Salvar.
-
Legal,
-
Vou voltar aqui para o nosso editor.
-
Ele assumiu que aquela
mensagem de erro eu tenho.
-
Eu consigo visualizar
as tabelas que ele criou a tabela.
-
Ele deu o mesmo nome do bucket
que a gente já tinha
-
e aqui tem umas colunas
que ele identificou.
-
Então vou fazer uma consulta
-
nesse catálogo de metadados,
-
nessa base de dados,
nessa tabelinha aqui.
-
Eu posso até poderia
até renomear essa tabela,
-
mas vamos executar sem medo,
só pra gente ver a consulta.
-
Quando vem para a gente.
-
Vou clicar executar e
-
pronto.
-
Já conseguiu consultar
todos os dados do nosso arquivo CSV?
-
Veja que a gente não precisou
configurar o banco de dados.
-
A gente acessou diretamente
o arquivo sem configurar nada da WS,
-
carregou um arquivo
dentro do S3 e a gente
-
rodou um robozinho chamado crawler
-
para conseguir extrair os metadados
para que a gente conseguisse
-
executar uma consulta
SQL dentro desses arquivos.