-
Azure Data Factory
-
é uma das principais ferramentas
contempladas pela Microsoft Azure.
-
Vamos entender melhor
como é que ela funciona
-
e quais são as principais vantagens
que a gente pode tirar dela?
-
Para começar, vamos listar
as principais vantagens
-
de utilizar o ADF.
-
A primeira delas é
a possibilidade de conexão
-
com mais de 90
interconectores.
-
E isso possibilita que a gente
tenha um fluxo contínuo
-
desse tratamento de dados.
-
Então, o que antes a gente precisava
de um sistema para ingerir os dados,
-
outro sistema só para fazer
as transformações
-
e outro sistema só para fazer
o tratamento desses dados,
-
hoje a gente consegue
fazer isso em um fluxo só,
-
dentro de uma única ferramenta,
que a gente chama de Data Factory.
-
Outra vantagem é
a interface amigável.
-
Hoje, o usuário está muito
acostumado com o sistema Microsoft,
-
aquele sistema onde tem janelas
em que você clica, arrasta
-
e usa poucos códigos,
-
o ADF vai te proporcionar
essa mesma facilidade.
-
Então, isso faz com que diversas
pessoas possam manipular a Azure
-
e fazer o tratamento dos dados,
-
além de uma grande codificação
que não é mais necessária.
-
Outra vantagem que a gente
possui é a orquestração avançada.
-
Orquestração é exatamente
como a banda toca,
-
então são os comandos
que a gente dá, as orientações,
-
de onde que o dado vem,
para onde que o dado vai.
-
Então, como esse sistema
todo é manipulado,
-
a gente chama
de orquestração.
-
E isso tudo a gente
consegue fazer
-
em uma única interface
dentro do Data Factory.
-
E junto com essa vantagem,
a gente vem com uma agregada,
-
que é a escalabilidade
automática,
-
ou seja, à medida que o seu
negócio vai crescendo,
-
não é necessário você
aumentar o seu servidor
-
ou comprar ferramentas
mais avançadas,
-
você consegue ir alugando
mais espaços no seu servidor
-
e o seu negócio vai crescendo
de forma automatizada.
-
Além disso,
-
a gente consegue fazer qualquer
tipo de transformação de dados,
-
então é possível você
ter a inserção de dados
-
vindo de uma plataforma
completamente diferente
-
da entrega desses dados.
-
E essa transformação
é feita no intervalo
-
dessa conexão entre os dados,
já facilitando a análise final
-
e a entrega das estratégias
de negócios.
-
E, para finalizar, isso
tudo é feito dentro
-
de uma criptografia avançada
conferida pela Microsoft,
-
então isso proporciona segurança
-
em todo esse processo
de manipulação dos dados.
-
Mas onde tudo
isso é utilizado?
-
Então, hoje, a gente usa
em data warehouses avançados,
-
a gente usa
no processo de ETL,
-
que é a extração, transformação
e carga dos dados,
-
a gente usa para fazer
a migração dos dados.
-
Então, é só lembrar
que o Data Factory
-
é exatamente uma fábrica
de dados, ou seja,
-
o dado é a nossa
matéria prima principal.
-
Então, imagina isso como
um paralelo de uma fábrica mesmo,
-
a gente tem a matéria prima,
-
a gente tem o processamento
dessa matéria prima, ou seja,
-
a transformação disso,
-
e a entrega do produto final
conforme o cliente necessita.
-
Então, essa entregua final,
a gente consegue utilizar
-
para aprendizagem de máquinas,
para análises preditivas de dados,
-
para dashboards interativos,
-
enfim, a gente vai entregar conforme
a estratégia de negócio solicitar.
-
Então, sempre
que você precisar,
-
faz essa comparação
com uma fábrica mesmo,
-
só que a gente está trabalhando
com a principal matéria prima,
-
que são os dados.
-
Inclusive, a nomenclatura utilizada
é muito similar a um sistema fabril,
-
então a gente vai
ter os containers,
-
que são o principal local
de transformação desses dados,
-
e, nesses containers, a gente vai
colocar todas as informações
-
que a gente precisa.
-
Imagina assim: você tem um pedido
sendo feito lá para a China,
-
esse processamento está sendo
feito durante o transporte
-
que ocorre dentro do navio,
-
e essa entrega é
feita aqui no Brasil,
-
conforme o solicitante
brasileiro pediu.
-
Então, imagina a diferença que
existe entre o Brasil e a China,
-
a diferença de origem e destino,
-
e toda essa transformação dos dados
é feita durante esse transporte.
-
É por isso que a gente agrega muito
essa nomenclatura de "oleoduto"
-
no lugar de "pipeline",
de gasodutos e de containers,
-
porque eles fizeram justamente
essa comparação.
-
Então, como é que vai
funcionar hoje?
-
Você puxa os dados
de qualquer sistema,
-
conforme você está puxando
e entregando esses dados,
-
automaticamente, você já está
fazendo essa transformação
-
no meio do caminho.
-
E, para que isso funcione,
a gente precisa orquestrar tudo.
-
Essa orquestra normalmente é feita
dentro do próprio sistema Windows,
-
mas um sistema que é
muito amigável e fácil
-
de o usuário de qualquer
departamento utilizar.
-
Para ilustrar tudo isso
que a gente está falando,
-
vamos agora para essa figura
entender exatamente
-
como é que o pipeline foi
desenhado dentro do ADF.
-
Então, olha só, ADF, o próprio
ícone dela já é uma fábrica.
-
E o pipeline, em uma tradução
livre e até literal, é oleoduto.
-
Dentro desse pipeline
-
é que vão acontecer todas
as transformações dos dados.
-
Então, vamos entender de onde
e para onde vão os dados
-
e quais são as etapas
que ele passa.
-
Na nossa primeira etapa,
-
a gente tem que fazer
a ingestão desses dados,
-
e essa ingestão pode ser
feita em qualquer formato.
-
A primeira coisa que a gente
vai fazer é um link, ou seja,
-
uma etapa de linked service
-
para que a gente consiga
transferir esses dados.
-
Então, seja lá qual
o formato inicial que for,
-
a gente vai criar uma API
para ingerir esses dados
-
e colocar os nossos dados dentro
do nosso sistema de pipeline
-
aqui do ADF.
-
Depois, a gente vai fazer
o nosso ETL, ou seja,
-
todas as transformações
necessárias nos dados.
-
Então, vamos imaginar que
o usuário final precise da idade,
-
só que, na ingestão dos dados,
-
a gente vem com a data
de nascimento.
-
Então, essa primeira transformação
vai ser justamente essa conta
-
da data menos
a data de nascimento
-
e a entrega no formato, então,
da idade que a pessoa tem.
-
Então, eu vou trazer esses meus
dados no formato que eles estiverem,
-
por exemplo,
data de nascimento,
-
vou criar uma API, são chamados
"linked services", ou seja,
-
é como eu vou transformar
os meus dados do meu sistema
-
e inserir no meu banco
de dados dentro do pipeline.
-
Então, eu faço uma subtração da data
atual menos a data de nascimento
-
e vou entregar a idade
para o meu usuário final.
-
Assim que eu tenho esse
resultado no meu dataset final,
-
eu vou transformar esses dados
-
para o formato que o meu
usuário final quer
-
e aí, ele vai consumir e gerar
estratégia de negócios.
-
Então, agora você já entendeu
quais são as principais vantagens
-
que o ADF possui
e, principalmente,
-
como esse pipeline de dados
funciona e como ele vai ingerir,
-
transformar e entregar
os dados para o usuário final.