-
Em Jeri Beta Factory
-
é uma das principais ferramentas
contempladas pela Microsoft.
-
Vamos entender melhor
como é que ela funciona
-
e quais são as principais vantagens
que a gente pode tirar dela.
-
Para começar,
-
vamos listar as principais
vantagens de utilizar o ADF.
-
A primeira delas
é a possibilidade de conexão
-
com mais de 90 inter conectores.
-
Isso possibilita com que a gente
tenha um fluxo contínuo
-
desse tratamento de dados.
-
Então, o que antes
a gente precisava de um sistema
-
para gerir os dados, outro sistema
só para fazer as transformações
-
e outro sistema só para fazer
o tratamento desses dados.
-
Hoje a gente consegue fazer isso
num fluxo só,
-
dentro de uma única ferramenta
que a gente chama de Data Factory.
-
Outra vantagem
é a interface amigável.
-
Hoje,
o usuário está muito acostumado
-
com o sistema Microsoft,
aquele sistema onde tem janelas
-
em que você clica, raspa
e usa poucos códigos.
-
O ADF ele vai te proporcionar
essa mesma facilidade.
-
Então isso faz com que diversas
pessoas
-
possam manipular
e fazer o tratamento dos dados,
-
além de uma grande codificação
que não é mais necessária.
-
Outra vantagem que a gente possui
é a orquestração avançada.
-
Orquestração
é exatamente como a banda toca,
-
então são os comandos
que a gente dá,
-
as orientações da onde que o dado
vem para onde que o dado vai.
-
Então, como esse sistema todo
ele é manipulado?
-
A gente chama isso de orquestração.
-
Isso tudo a gente consegue fazer
numa única interface
-
dentro do datacenter.
-
E junto com essa vantagem,
a gente vem com uma agregada,
-
que é a escalabilidade automática.
-
Ou seja, à medida que o seu negócio
vai crescendo, não é necessário
-
você aumentar o seu servidor ou
comprar ferramentas mais avançadas.
-
Você consegue e alugando
mais espaços no seu servidor
-
e o seu negócio vai crescendo
de forma automatizada.
-
Além disso,
-
a gente consegue fazer qualquer
tipo de transformação de dados.
-
Então, é possível
você ter a inserção de dados
-
vindo de uma plataforma
completamente diferente
-
da entrega desses dados.
-
E essa transformação, ela é feita
-
no intervalo dessa conexão
entre os dados,
-
já facilitando a análise final
-
e a entrega
das estratégias de negócios.
-
E para finalizar, isso tudo
é feito dentro de uma criptografia
-
avançada conferida pela Microsoft.
-
Então, isso proporciona a segurança
-
em todo esse
processo de manipulação dos dados,
-
mas é o de que tudo
isso é utilizado.
-
Então, hoje a gente usa em Data
warehouse os avançados, a gente usa
-
no processo de ETL, que é extração,
transformação e carga dos dados.
-
A gente usa
para fazer a migração dos dados.
-
Então é só lembrar
que o datacenter, ele é exatamente
-
uma fábrica de dados, ou seja,
-
o dado é a nossa matéria
prima principal.
-
Então imagina isso
como paralelo de uma fábrica mesmo.
-
A gente tem a matéria prima,
a gente tem o processamento
-
dessa matéria prima, ou seja,
a transformação disso
-
é a entrega do produto final
conforme o cliente necessita.
-
Então, nesse entregue final,
a gente consegue utilizar
-
para aprendizagem de máquinas,
para análises preditivas de dados,
-
para dashboards interativos, enfim,
a gente vai entregar
-
conforme a estratégia de negócio
solicitar.
-
Então, sempre que você precisar
fazer essa comparação
-
entre uma fábrica mesmo,
-
só que a gente está trabalhando
com a principal matéria prima
-
que são os dados,
inclusive a nomenclatura utilizada.
-
Ela é muito similar
a um sistema fabril.
-
Então
a gente vai ter os containers,
-
que é o principal local
de transformação desses dados.
-
E nesses contêineres a gente
vai colocar todas as informações
-
que a gente precisa.
-
Imagina assim Olha, você tem uma
-
um pedido sendo feito lá pra China
-
e esse processamento
ele está sendo feito
-
durante o transporte
ou que ocorre dentro do navio.
-
E essa entrega é feita aqui
-
no Brasil, conforme o solicitante
brasileiro pediu.
-
Então imagina a diferença
que existe entre o Brasil e a China
-
e a diferença de origem e destino
e toda essa
-
transformação dos dados?
-
Ela é feita
durante esse transporte.
-
Por isso que a gente agrega
muito essa nomenclatura de oleoduto
-
no lugar de pipeline de gás e dutos
e de containers,
-
porque eles fizeram justamente essa
comparação.
-
Então, como é que vai funcionar
hoje?
-
Você puxa os dados
de qualquer sistema
-
conforme você está puxando
e entregando esses dados
-
automaticamente
você já está fazendo
-
essa transformação
no meio do caminho.
-
E para que isso funcione,
a gente precisa
-
porque extrair tudo isso?
-
Essa orquestra
-
normalmente ela é feita dentro
do próprio sistema Windows,
-
mais um sistema
que é muito amigável e fácil
-
do usuário
de qualquer departamento utilizar.
-
Para ilustrar tudo isso
que a gente está falando.
-
Vamos agora para essa figura
e entender exatamente
-
como é que o pipeline foi desenhado
dentro do ADF.
-
Então, olha só.
-
ADF O próprio ícone dela
já é uma fábrica, né?
-
E o pipeline, numa tradução livre
-
e até literal e oleoduto
dentro desse pipeline
-
é que vão acontecer
todas as transformações dos dados.
-
Então vamos entender da onde.
-
Para onde vão os dados e quais são
as etapas que ele passa.
-
Na nossa primeira etapa,
a gente tem que fazer a ingestão
-
desses dados e essa ingestão
pode ser feita em qualquer formato.
-
A primeira coisa que a gente
vai fazer é fazer um link, ou seja,
-
uma etapa de linked services
para que a gente consiga transferir
-
esses dados.
-
Então,
seja lá qual o formato inicial
-
que for, a gente vai criar uma API
para ingerir esses dados
-
e colocar os nossos dados dentro
-
do nosso sistema de pipeline
aqui do ADF.
-
Depois a gente
vai fazer o nosso ETL, ou seja,
-
todas as transformações
necessárias nos dados.
-
Então vamos imaginar que
o usuário final precise de idade.
-
Só que na injeção dos dados a gente
vem com a data de nascimento.
-
Então essa primeira transformação
vai ser justamente
-
essa conta da data,
menos a data de nascimento
-
e a entrega no formato
então de idade que a pessoa tenha.
-
Então eu vou trazer
esses meus dados no formato
-
que ele tiver, como por exemplo
data de nascimento.
-
Vou criar uma API.
-
São chamados
Linked Services, ou seja,
-
é como eu vou transformar
os meus dados do meu sistema
-
e inserir no meu banco de dados
dentro do pai pilim.
-
Então eu faço uma subtração da data
atual, menos a data de nascimento
-
e vou entregar a idade
para o meu usuário final.
-
Assim que eu tenho esse resultado
no meu dataset final,
-
eu vou transformar esses dados
para o formato que o meu
-
usuário final quer
-
e aí ele vai
-
consumir
e gerar estratégia de negócios.
-
Então agora você já entendeu
quais são as principais vantagens
-
gens que o ADF possui e,
principalmente,
-
como esse pipeline de dados
funciona e como ele vai
-
ingerir, transformar e entregar os
dados para o usuário final.