VC CAP01 2025 VA02 VISAO COMPUTACIONAL APLICACOES E PROCESSAMENTO DIGITAL
-
0:08 - 0:12A visão computacional se difundiu
a partir do uso de redes neurais, -
0:12 - 0:15ou seja, modelos
que aprendem com dados. -
0:15 - 0:17Mas, antes de chegar
nas redes neurais, -
0:17 - 0:20a gente precisa entender como
um computador entende uma imagem, -
0:20 - 0:25como ele faz conta, como ele
consegue processar os dados -
0:25 - 0:30até produzir uma aplicação
como um carro autônomo. -
0:30 - 0:32E é isso que a gente
vai ver agora -
0:32 - 0:35sobre o processamento
digital de imagens, -
0:35 - 0:38como o computador
enxerga uma imagem -
0:38 - 0:43e como essas imagens são processadas
até chegar em uma aplicação final. -
0:43 - 0:45O primeiro passo, então,
é entender um pouco -
0:45 - 0:48como o computador
enxerga uma imagem. -
0:48 - 0:52Um computador enxerga uma imagem
como quase tudo que ele enxerga, -
0:52 - 0:57como número, então uma imagem
para um computador é uma matriz, -
0:57 - 1:00ou seja, como se fosse
uma tabela de números, -
1:00 - 1:06e essa tabela de números representa
a intensidade de cada pixel. -
1:06 - 1:09Então, nessa tabela,
ou nessa matriz, -
1:09 - 1:14cada elemento dessa matriz,
cada número dessa matriz -
1:14 - 1:18representa a intensidade
de cor de cada pixel. -
1:18 - 1:20Então, cada elemento
é um pixel -
1:20 - 1:25e cada valor desse elemento é
a intensidade de cor desse pixel. -
1:25 - 1:29Então, como toda matriz,
a gente tem linhas e colunas, -
1:29 - 1:33a quantidade de linhas e colunas
define a resolução da imagem -
1:33 - 1:38e os valores dessa matriz
representam a intensidade de cor -
1:38 - 1:41de cada pixel pertencente
a essa matriz. -
1:41 - 1:45Isso se a imagem for uma imagem
em escala de cinza, ou seja, -
1:45 - 1:48que possui apenas
um canal de cor. -
1:48 - 1:52Porém, uma imagem colorida,
como a gente conhece, -
1:52 - 2:00possui três canais de cores,
R, G e B, ou vermelho, verde e azul. -
2:00 - 2:02E a sobreposição
dessas matrizes, -
2:02 - 2:06ou seja, a sobreposição
dessas intensidades de cores -
2:06 - 2:09é que vai formar
o espectro de cores -
2:09 - 2:13que a gente consegue ver na maioria
das imagens que a gente tem acesso. -
2:13 - 2:17Como uma imagem é um conjunto
de números, uma matriz de números, -
2:17 - 2:22ou matrizes de números,
a gente precisa entender, agora, -
2:22 - 2:29como um computador pode aprender
padrões com base nesses números. -
2:29 - 2:32Então, a gente pode pensar assim:
como um computador aprende -
2:32 - 2:35que aquela imagem
possui uma pessoa? -
2:35 - 2:37Ou como o computador
aprende, por exemplo, -
2:37 - 2:43que a rua está nessa direção
e você precisa virar à direita? -
2:43 - 2:45Então, de alguma forma,
os computadores fazem contas -
2:45 - 2:48com esses números,
com essas matrizes, -
2:48 - 2:51e conseguem aprender padrões.
-
2:51 - 2:53Então, a gente pode
fazer uma analogia -
2:53 - 2:56com machine learning tradicional,
ou com redes neurais. -
2:56 - 2:59Um modelo de machine learning
tradicional aprende com dados. -
2:59 - 3:04Então, as imagens são os dados da visão computacional de modelos que
-
3:04 - 3:09são utilizados, e a gente vai ter que entender como que os modelos
-
3:09 - 3:13conseguem aprender a partir desse tipo de dado novo que é uma imagem.
-
3:14 - 3:18Então, olhando para esse exemplo aqui, a gente pode pensar em como a
-
3:18 - 3:23gente consegue aprender padrões para depois entender como o
-
3:23 - 3:23computador faz isso.
-
3:24 - 3:28Então, pensando numa maçã, você já parou para pensar como que você
-
3:28 - 3:31tem certeza que essa imagem aqui é de uma maçã?
-
3:31 - 3:36Provavelmente, você deve estar pensando pela forma, pela cor, pela
-
3:36 - 3:38textura, talvez, da imagem.
-
3:38 - 3:43Ou seja, uma série de atributos que uma imagem vai ter para a gente
-
3:43 - 3:45classificá-la como uma maçã.
-
3:45 - 3:50O grande ponto importante aqui é saber que, na nossa cabeça,
-
3:51 - 3:54qualitativamente, faz sentido pensar dessa forma.
-
3:54 - 3:57Mas um computador, ele é extremamente quantitativo.
-
3:57 - 4:01Ou seja, se a gente pensar na forma, a gente teria que pensar qual
-
4:01 - 4:04seria uma forma que só uma maçã tem?
-
4:04 - 4:07Ou como que eu quantifico essa forma?
-
4:08 - 4:110,2 redonda, 0,3 quadrada.
-
4:11 - 4:14Então, a gente não consegue dar com exatidão essas formas.
-
4:16 - 4:17Com a cor, da mesma forma.
-
4:18 - 4:21Qual é o vermelho de uma maçã e por que não é igual ao
-
4:21 - 4:24vermelho de uma morango, de um morango, por exemplo?
-
4:25 - 4:29E aí, a gente começa a entender que, de fato, se a gente tivesse
-
4:29 - 4:33que criar uma regra que definisse uma maçã, quantitativamente, a
-
4:33 - 4:35gente não conseguiria fazer isso.
-
4:35 - 4:39A grande dificuldade é, o computador precisa aprender isso de alguma
-
4:39 - 4:41forma, de certa forma, quantitativo.
-
4:42 - 4:49Se a gente quiser ir além e ser um pouco mais preciso, a gente
-
4:49 - 4:54pode até pensar que a cor, de certa forma, sozinha, não é um
-
4:54 - 4:56parâmetro importante.
-
4:56 - 4:56Por quê?
-
4:57 - 5:02Se essa maçã da tela tivesse azul, você ainda saberia que é uma maçã
-
5:02 - 5:03azul.
-
5:04 - 5:08Então, basicamente, o problema que a gente tem que resolver é, como
-
5:08 - 5:11que a gente descobriu que esse conjunto de parâmetros que a gente nem
-
5:11 - 5:13sabe nomear, formam uma maçã?
-
5:14 - 5:16E a resposta para isso é dados.
-
5:17 - 5:19Então, a gente aprendeu com base em dados.
-
5:19 - 5:23A gente já viu, durante a nossa vida, muitos exemplos de maçã, e a
-
5:23 - 5:27gente teve confirmações, de alguma forma, de que aquilo é uma maçã.
-
5:27 - 5:29Então, os computadores aprendem da mesma forma.
-
5:29 - 5:33Eu preciso dar para eles vários exemplos de imagens e dar para ele a
-
5:33 - 5:38confirmação de que aquilo é uma maçã, ou é um cachorro, ou é um
-
5:38 - 5:41gato, ou é um carro, o que aquela imagem quer dizer.
-
5:41 - 5:46Então, eu trouxe aqui um outro exemplo, onde eu estou mostrando aqui
-
5:46 - 5:48um modelo, chamado YOLO.
-
5:49 - 5:53Esse modelo, ele é utilizado, ele é treinado para identificar
-
5:53 - 5:55objetos, para detectar objetos.
-
5:56 - 6:02Então, acima a gente tem uma imagem de uma rua, movimentada, com
-
6:02 - 6:05pessoas, pedestres, veículos.
-
6:06 - 6:12E a gente tem, embaixo, a resposta de um modelo treinado para
-
6:12 - 6:13detectar objetos.
-
6:13 - 6:18Ou seja, eu treinei um modelo com vários exemplos de imagens que
-
6:18 - 6:23possuíam pessoas, carros, entre outros, sinais de trânsito.
-
6:23 - 6:27E eu disse para ele, esse quadradinho aqui tem uma pessoa, esse
-
6:27 - 6:30quadradinho aqui tem um carro, esse quadradinho aqui tem um sinal de
-
6:30 - 6:31trânsito.
-
6:31 - 6:35Conforme eu faço isso para milhares e milhares de imagens, com o
-
6:35 - 6:39tempo esse modelo vai aprender a reconhecer em novas imagens cada um
-
6:39 - 6:42desses objetos, e fazer um quadradinho nesse objeto.
-
6:43 - 6:47Então, isso é uma aplicação de um modelo de visão computacional para
-
6:47 - 6:48detectar objetos.
-
6:48 - 6:53Da mesma forma, eu posso utilizar o mesmo exemplo, porém aplicando
-
6:53 - 6:56sobre essa imagem um modelo que a gente chama de segmentação de
-
6:56 - 6:57objetos.
-
6:57 - 7:01Ou seja, ao invés de eu treinar um modelo para fazer um quadradinho
-
7:01 - 7:08em cada objeto reconhecido, detectado, esse modelo pega todo o
-
7:08 - 7:09contorno do objeto.
-
7:10 - 7:17E o nível de aplicações que esse modelo vai conseguir aderir bem, vai
-
7:17 - 7:21ser aplicações diferentes de aplicações que eu preciso só detectar o
-
7:21 - 7:21objeto.
-
7:21 - 7:27Então, a gente pode pensar que o que o modelo vai aprender depende
-
7:27 - 7:32muito mais dos dados que eu vou ter, das arquiteturas dos modelos, e
-
7:32 - 7:35também do que eu vou usar como variável resposta.
-
7:36 - 7:40Então, se eu usar uma caixinha ao redor dos objetos, o modelo vai
-
7:40 - 7:44aprender a achar caixinhas, colocar objetos dentro de caixinhas.
-
7:44 - 7:48Se eu treinar com um contorno, ele vai aprender o contorno.
-
7:48 - 7:52Se eu quiser só dar um valor 1 quando tem um carro na imagem
-
7:52 - 7:55e 0 quando não tem, ele vai aprender sempre a dar 1 ou 0
-
7:55 - 7:56quando não tem.
-
7:57 - 7:59Então, isso basicamente é a dinâmica do que a gente chama de
-
7:59 - 8:00aprendizado supervisionado.
-
8:01 - 8:04E ele também pode ser aplicado no contexto de visão computacional.
-
8:04 - 8:08Com o tempo e com a evolução das aplicações, das redes neurais, dos
-
8:08 - 8:12estudos, a gente chegou no que a gente pode chamar do estado da arte
-
8:12 - 8:12hoje.
-
8:12 - 8:17Então, mesmo que a gente tenha modelos que possam classificar
-
8:17 - 8:23imagens, que possam segmentar, identificar objetos, a gente começou a
-
8:23 - 8:27criar modelos muito mais complexos conforme tanto a tecnologia do
-
8:27 - 8:31ponto de vista de pesquisa e ciência foi avançando, como também a
-
8:31 - 8:31computação.
-
8:32 - 8:36Então, hoje já é possível, por exemplo, falar do estado da arte da
-
8:36 - 8:39visão computacional com modelos que de fato conseguem extrair muito
-
8:39 - 8:40conhecimento da imagem.
-
8:40 - 8:43Então, não só detectar uma caixinha quando tem um carro, quando tem
-
8:43 - 8:48uma pessoa, um pedestre, mas também compreender a cena como um todo.
-
8:48 - 8:52Então, a gente tem modelos, por exemplo, que conseguem dar uma
-
8:52 - 8:54legenda para qualquer imagem.
-
8:54 - 8:58A gente tem modelos que conseguem, a partir de uma legenda ou de um
-
8:58 - 9:01prompt, gerar uma imagem ou um vídeo.
-
9:02 - 9:05Então, se a gente sempre pensa que visão computacional está
-
9:05 - 9:11relacionada a quando o computador consegue entender a história por
-
9:11 - 9:17trás das imagens, os avanços que a gente tem hoje já estão muito
-
9:17 - 9:21avançados e já conseguem entregar uma curácia muito grande nessa
-
9:21 - 9:26linha de, de fato, compreender todos os itens da imagem e trazer uma
-
9:26 - 9:29resposta muito mais cheia de complexidade.
- Title:
- VC CAP01 2025 VA02 VISAO COMPUTACIONAL APLICACOES E PROCESSAMENTO DIGITAL
- Video Language:
- Portuguese, Brazilian
- Duration:
- 09:33
Show all