VC CAP01 2025 VA02 VISAO COMPUTACIONAL APLICACOES E PROCESSAMENTO DIGITAL
-
0:08 - 0:12A visão computacional se difundiu
a partir do uso de redes neurais, -
0:12 - 0:15ou seja, modelos
que aprendem com dados. -
0:15 - 0:17Mas, antes de chegar
nas redes neurais, -
0:17 - 0:20a gente precisa entender como
um computador entende uma imagem, -
0:20 - 0:25como ele faz conta, como ele
consegue processar os dados -
0:25 - 0:30até produzir uma aplicação
como um carro autônomo. -
0:30 - 0:32E é isso que a gente
vai ver agora -
0:32 - 0:35sobre o processamento
digital de imagens, -
0:35 - 0:38como o computador
enxerga uma imagem -
0:38 - 0:42e como essas imagens são processadas
até chegar em uma aplicação final. -
0:42 - 0:45O primeiro passo, então,
é entender um pouco -
0:45 - 0:48como o computador
enxerga uma imagem. -
0:48 - 0:51Um computador enxerga uma imagem
como quase tudo que ele enxerga, -
0:51 - 0:57como número, então uma imagem
para um computador é uma matriz, -
0:57 - 1:00ou seja, como se fosse
uma tabela de números, -
1:00 - 1:06e essa tabela de números representa
a intensidade de cada pixel. -
1:06 - 1:09Então, nessa tabela,
ou nessa matriz, -
1:09 - 1:14cada elemento dessa matriz,
cada número dessa matriz -
1:14 - 1:18representa a intensidade
de cor de cada pixel. -
1:18 - 1:20Então, cada elemento
é um pixel -
1:20 - 1:25e cada valor desse elemento é
a intensidade de cor desse pixel. -
1:25 - 1:29Então, como toda matriz,
a gente tem linhas e colunas, -
1:29 - 1:34a quantidade de linhas e colunas
define a resolução da imagem -
1:34 - 1:38e os valores dessa matriz
representam a intensidade de cor -
1:38 - 1:41de cada pixel pertencente
a essa matriz. -
1:41 - 1:45Isso se a imagem for uma imagem
em escala de cinza, ou seja, -
1:45 - 1:48que possui apenas
um canal de cor. -
1:48 - 1:52Porém, uma imagem colorida,
como a gente conhece, -
1:52 - 2:00possui três canais de cores,
R, G e B, ou vermelho, verde e azul. -
2:00 - 2:02E a sobreposição
dessas matrizes, -
2:02 - 2:06ou seja, a sobreposição
dessas intensidades de cores -
2:06 - 2:09é que vai formar
o espectro de cores -
2:09 - 2:13que a gente consegue ver na maioria
das imagens que a gente tem acesso. -
2:13 - 2:17Como uma imagem é um conjunto
de números, uma matriz de números, -
2:17 - 2:22ou matrizes de números,
a gente precisa entender, agora, -
2:22 - 2:29como um computador pode aprender
padrões com base nesses números. -
2:29 - 2:32Então, a gente pode pensar assim:
como um computador aprende -
2:32 - 2:35que aquela imagem
possui uma pessoa? -
2:35 - 2:37Ou como o computador
aprende, por exemplo, -
2:37 - 2:43que a rua está nessa direção
e você precisa virar à direita? -
2:43 - 2:45Então, de alguma forma,
os computadores fazem contas -
2:45 - 2:48com esses números,
com essas matrizes, -
2:48 - 2:51e conseguem aprender padrões.
-
2:51 - 2:53Então, a gente pode
fazer uma analogia -
2:53 - 2:56com machine learning tradicional,
ou com redes neurais. -
2:56 - 2:59Um modelo de machine learning
tradicional aprende com dados, -
2:59 - 3:03então, as imagens são os dados
da visão computacional -
3:03 - 3:08de modelos que são utilizados,
e a gente vai ter que entender -
3:08 - 3:12como os modelos conseguem aprender
a partir desse tipo de dado novo -
3:12 - 3:14que é uma imagem.
-
3:14 - 3:17Então, olhando para esse exemplo
aqui, a gente pode pensar -
3:17 - 3:21em como a gente consegue
aprender padrões -
3:21 - 3:24para, depois, entender
como o computador faz isso. -
3:24 - 3:27Então, pensando em uma maçã:
você já parou para pensar -
3:27 - 3:31em como você tem certeza de que
essa imagem aqui é de uma maçã? -
3:31 - 3:33Provavelmente, você
deve estar pensando: -
3:33 - 3:39pela forma, pela cor, pela textura,
talvez, da imagem, ou seja, -
3:39 - 3:42uma série de atributos
que uma imagem vai ter -
3:42 - 3:45para a gente classificá-la
como uma maçã. -
3:45 - 3:51O grande ponto importante aqui
é saber que, na nossa cabeça, -
3:51 - 3:54qualitativamente, faz
sentido pensar dessa forma, -
3:54 - 3:57mas um computador é
extremamente quantitativo, -
3:57 - 3:59ou seja, se a gente
pensar na forma, -
3:59 - 4:04a gente teria que pensar: qual seria
uma forma que só uma maçã tem? -
4:04 - 4:08Ou como que eu
quantifico essa forma? -
4:08 - 4:110,2 redonda, 0,3 quadrada?
-
4:11 - 4:16Então, a gente não consegue dar,
com exatidão, essas formas. -
4:16 - 4:19Com a cor é da mesma forma:
qual é o vermelho de uma maçã -
4:19 - 4:25e por que não é igual ao vermelho
de um morango, por exemplo? -
4:25 - 4:28E aí, a gente começa
a entender que, de fato, -
4:28 - 4:31se a gente tivesse que criar
uma regra que definisse uma maçã, -
4:31 - 4:35quantitativamente, a gente
não conseguiria fazer isso. -
4:35 - 4:37A grande dificuldade é:
-
4:37 - 4:40o computador precisa aprender
isso de alguma forma, -
4:40 - 4:42de certa forma, quantitativa.
-
4:42 - 4:48Se a gente quiser ir além e ser
um pouco mais preciso, -
4:48 - 4:53a gente pode até pensar
que a cor, de certa forma, -
4:53 - 4:57sozinha, não é um parâmetro
importante, por quê? -
4:57 - 5:00Se essa maçã
da tela tivesse azul, -
5:00 - 5:04você ainda saberia
que é uma maçã azul, -
5:04 - 5:08então, basicamente, o problema
que a gente tem que resolver é: -
5:08 - 5:11como a gente descobriu que esse
conjunto de parâmetros, -
5:11 - 5:14que a gente nem sabe
nomear, forma uma maçã? -
5:14 - 5:17E a resposta
para isso é dados. -
5:17 - 5:19Então, a gente aprendeu
com base em dados, -
5:19 - 5:22a gente já viu, durante a nossa
vida, muitos exemplos de maçã, -
5:22 - 5:25e a gente teve confirmações,
de alguma forma, -
5:25 - 5:27de que aquilo é uma maçã.
-
5:27 - 5:29Então, os computadores
aprendem da mesma forma, -
5:29 - 5:32eu preciso dar para eles
vários exemplos de imagens -
5:32 - 5:36e dar para ele a confirmação
de que aquilo é uma maçã, -
5:36 - 5:39ou é um cachorro, ou é
um gato, ou é um carro, -
5:39 - 5:41o que aquela imagem
quer dizer. -
5:41 - 5:43Então, eu trouxe, aqui,
um outro exemplo, -
5:43 - 5:49em que eu estou mostrando
um modelo, chamado YOLO, -
5:49 - 5:54esse modelo é utilizado, é
treinado para identificar objetos, -
5:54 - 5:56para detectar objetos.
-
5:56 - 6:01Então, acima a gente tem
uma imagem de uma rua, -
6:01 - 6:06movimentada, com pessoas,
pedestres, veículos. -
6:06 - 6:11E a gente tem, embaixo,
a resposta de um modelo -
6:11 - 6:14treinado para detectar
objetos, ou seja, -
6:14 - 6:18eu treinei um modelo com vários
exemplos de imagens que possuíam -
6:18 - 6:23pessoas, carros, entre
outros sinais de trânsito, -
6:23 - 6:25e eu disse para ele:
-
6:25 - 6:27esse quadradinho aqui
tem uma pessoa, -
6:27 - 6:29esse quadradinho
aqui tem um carro, -
6:29 - 6:31esse quadradinho aqui
tem um sinal de trânsito. -
6:31 - 6:34Conforme eu faço isso para
milhares e milhares de imagens, -
6:34 - 6:37com o tempo esse modelo
vai aprender a reconhecer, -
6:37 - 6:40em novas imagens,
cada um desses objetos, -
6:40 - 6:43e fazer um quadradinho
nesse objeto. -
6:43 - 6:46Então, isso é uma aplicação
de um modelo de visão computacional -
6:46 - 6:48para detectar objetos.
-
6:48 - 6:52Da mesma forma, eu posso
utilizar o mesmo exemplo, -
6:52 - 6:54porém aplicando
sobre essa imagem -
6:54 - 6:57um modelo que a gente chama
de "segmentação de objetos". -
6:57 - 7:00Ou seja, ao invés de eu
treinar um modelo -
7:00 - 7:05para fazer um quadradinho em cada
objeto reconhecido, detectado, -
7:05 - 7:10esse modelo pega todo
o contorno do objeto. -
7:10 - 7:16E o nível de aplicações que esse
modelo vai conseguir aderir bem -
7:16 - 7:19vai ser de aplicações
diferentes -
7:19 - 7:21de aplicações que eu preciso
só detectar o objeto. -
7:21 - 7:26Então, a gente pode pensar
que o que o modelo vai aprender -
7:26 - 7:29depende muito mais
dos dados que eu vou ter, -
7:29 - 7:31das arquiteturas dos modelos,
-
7:31 - 7:36e também do que eu vou
usar como variável resposta. -
7:36 - 7:39Então, se eu usar uma caixinha
ao redor dos objetos, -
7:39 - 7:42o modelo vai aprender
a achar caixinhas, -
7:42 - 7:44colocar objetos
dentro de caixinhas, -
7:44 - 7:48se eu treinar com um contorno,
ele vai aprender o contorno, -
7:48 - 7:52se eu quiser só dar um valor "1"
quando tem um carro na imagem -
7:52 - 7:54e "0" quando não tem, ele vai
aprender sempre a dar "1", -
7:54 - 7:57ou "0" quando não tem.
-
7:57 - 7:58Então, isso, basicamente,
é a dinâmica -
7:58 - 8:01do que a gente chama
de aprendizado supervisionado, -
8:01 - 8:04e ele também pode ser aplicado
no contexto de visão computacional. -
8:04 - 8:08Com o tempo e com a evolução
das aplicações, das redes neurais, -
8:08 - 8:11dos estudos, a gente chegou
no que a gente pode chamar -
8:11 - 8:12de "estado da arte" hoje.
-
8:12 - 8:16Então, mesmo que a gente
tenha modelos -
8:16 - 8:20que possam classificar imagens,
que possam segmentar, -
8:20 - 8:22identificar objetos,
-
8:22 - 8:25a gente começou a criar
modelos muito mais complexos -
8:25 - 8:27conforme tanto a tecnologia,
-
8:27 - 8:30do ponto de vista de pesquisa
e ciência, foi avançando, -
8:30 - 8:32como, também, a computação.
-
8:32 - 8:34Então, hoje, já é
possível, por exemplo, -
8:34 - 8:37falar do estado da arte
da visão computacional -
8:37 - 8:38com modelos que, de fato,
-
8:38 - 8:40conseguem extrair muito
conhecimento da imagem. -
8:40 - 8:43Então, não só detectar uma caixinha
quando tem um carro, -
8:43 - 8:45ou quando tem uma pessoa,
ou um pedestre, -
8:45 - 8:48mas também compreender
a cena como um todo. -
8:48 - 8:50Então, a gente tem
modelos, por exemplo, -
8:50 - 8:54que conseguem dar uma legenda
para qualquer imagem, -
8:54 - 8:58a gente tem modelos que conseguem,
a partir de uma legenda -
8:58 - 9:02ou de um prompt, gerar
uma imagem ou um vídeo. -
9:02 - 9:05Então, se a gente sempre pensa
que visão computacional -
9:05 - 9:09está relacionada a quando
o computador consegue -
9:09 - 9:12entender a história
por trás das imagens, -
9:12 - 9:17os avanços que a gente tem
hoje já estão muito avançados -
9:17 - 9:20e já conseguem entregar
uma acurácia muito grande -
9:20 - 9:24nessa linha de, de fato, compreender
todos os itens da imagem -
9:24 - 9:29e trazer uma resposta muito
mais cheia de complexidade.
- Title:
- VC CAP01 2025 VA02 VISAO COMPUTACIONAL APLICACOES E PROCESSAMENTO DIGITAL
- Video Language:
- Portuguese, Brazilian
- Duration:
- 09:33
Show all