< Return to Video

VC CAP01 2025 VA02 VISAO COMPUTACIONAL APLICACOES E PROCESSAMENTO DIGITAL

  • 0:08 - 0:12
    A visão computacional se difundiu
    a partir do uso de redes neurais,
  • 0:12 - 0:15
    ou seja, modelos
    que aprendem com dados.
  • 0:15 - 0:17
    Mas, antes de chegar
    nas redes neurais,
  • 0:17 - 0:20
    a gente precisa entender como
    um computador entende uma imagem,
  • 0:20 - 0:25
    como ele faz conta, como ele
    consegue processar os dados
  • 0:25 - 0:30
    até produzir uma aplicação
    como um carro autônomo.
  • 0:30 - 0:32
    E é isso que a gente
    vai ver agora
  • 0:32 - 0:35
    sobre o processamento
    digital de imagens,
  • 0:35 - 0:38
    como o computador
    enxerga uma imagem
  • 0:38 - 0:43
    e como essas imagens são processadas
    até chegar em uma aplicação final.
  • 0:43 - 0:45
    O primeiro passo, então,
    é entender um pouco
  • 0:45 - 0:48
    como o computador
    enxerga uma imagem.
  • 0:48 - 0:52
    Um computador enxerga uma imagem
    como quase tudo que ele enxerga,
  • 0:52 - 0:57
    como número, então uma imagem
    para um computador é uma matriz,
  • 0:57 - 1:00
    ou seja, como se fosse
    uma tabela de números,
  • 1:00 - 1:06
    e essa tabela de números representa
    a intensidade de cada pixel.
  • 1:06 - 1:09
    Então, nessa tabela,
    ou nessa matriz,
  • 1:09 - 1:14
    cada elemento dessa matriz,
    cada número dessa matriz
  • 1:14 - 1:18
    representa a intensidade
    de cor de cada pixel.
  • 1:18 - 1:20
    Então, cada elemento
    é um pixel
  • 1:20 - 1:25
    e cada valor desse elemento é
    a intensidade de cor desse pixel.
  • 1:25 - 1:29
    Então, como toda matriz,
    a gente tem linhas e colunas,
  • 1:29 - 1:33
    a quantidade de linhas e colunas
    define a resolução da imagem
  • 1:33 - 1:38
    e os valores dessa matriz
    representam a intensidade de cor
  • 1:38 - 1:41
    de cada pixel pertencente
    a essa matriz.
  • 1:41 - 1:45
    Isso se a imagem for uma imagem
    em escala de cinza, ou seja,
  • 1:45 - 1:48
    que possui apenas
    um canal de cor.
  • 1:48 - 1:52
    Porém, uma imagem colorida,
    como a gente conhece,
  • 1:52 - 2:00
    possui três canais de cores,
    R, G e B, ou vermelho, verde e azul.
  • 2:00 - 2:02
    E a sobreposição
    dessas matrizes,
  • 2:02 - 2:06
    ou seja, a sobreposição
    dessas intensidades de cores
  • 2:06 - 2:09
    é que vai formar
    o espectro de cores
  • 2:09 - 2:13
    que a gente consegue ver na maioria
    das imagens que a gente tem acesso.
  • 2:13 - 2:17
    Como uma imagem é um conjunto
    de números, uma matriz de números,
  • 2:17 - 2:22
    ou matrizes de números,
    a gente precisa entender, agora,
  • 2:22 - 2:29
    como um computador pode aprender
    padrões com base nesses números.
  • 2:29 - 2:33
    Então, a gente pode pensar assim, como que um computador aprende que
  • 2:33 - 2:35
    aquela imagem possui uma pessoa?
  • 2:35 - 2:39
    Ou como que o computador aprende, por exemplo, que a rua está nessa
  • 2:39 - 2:42
    direção e você precisa virar à direita?
  • 2:43 - 2:46
    Então, de alguma forma, os computadores fazem contas com esses
  • 2:46 - 2:50
    números, com essas matrizes, e conseguem aprender padrões.
  • 2:51 - 2:54
    Então, a gente pode fazer uma analogia com machine learning
  • 2:54 - 2:55
    tradicional, ou com redes neurais.
  • 2:56 - 2:59
    Um modelo de machine learning tradicional, ele aprende com dados.
  • 2:59 - 3:04
    Então, as imagens são os dados da visão computacional de modelos que
  • 3:04 - 3:09
    são utilizados, e a gente vai ter que entender como que os modelos
  • 3:09 - 3:13
    conseguem aprender a partir desse tipo de dado novo que é uma imagem.
  • 3:14 - 3:18
    Então, olhando para esse exemplo aqui, a gente pode pensar em como a
  • 3:18 - 3:23
    gente consegue aprender padrões para depois entender como o
  • 3:23 - 3:23
    computador faz isso.
  • 3:24 - 3:28
    Então, pensando numa maçã, você já parou para pensar como que você
  • 3:28 - 3:31
    tem certeza que essa imagem aqui é de uma maçã?
  • 3:31 - 3:36
    Provavelmente, você deve estar pensando pela forma, pela cor, pela
  • 3:36 - 3:38
    textura, talvez, da imagem.
  • 3:38 - 3:43
    Ou seja, uma série de atributos que uma imagem vai ter para a gente
  • 3:43 - 3:45
    classificá-la como uma maçã.
  • 3:45 - 3:50
    O grande ponto importante aqui é saber que, na nossa cabeça,
  • 3:51 - 3:54
    qualitativamente, faz sentido pensar dessa forma.
  • 3:54 - 3:57
    Mas um computador, ele é extremamente quantitativo.
  • 3:57 - 4:01
    Ou seja, se a gente pensar na forma, a gente teria que pensar qual
  • 4:01 - 4:04
    seria uma forma que só uma maçã tem?
  • 4:04 - 4:07
    Ou como que eu quantifico essa forma?
  • 4:08 - 4:11
    0,2 redonda, 0,3 quadrada.
  • 4:11 - 4:14
    Então, a gente não consegue dar com exatidão essas formas.
  • 4:16 - 4:17
    Com a cor, da mesma forma.
  • 4:18 - 4:21
    Qual é o vermelho de uma maçã e por que não é igual ao
  • 4:21 - 4:24
    vermelho de uma morango, de um morango, por exemplo?
  • 4:25 - 4:29
    E aí, a gente começa a entender que, de fato, se a gente tivesse
  • 4:29 - 4:33
    que criar uma regra que definisse uma maçã, quantitativamente, a
  • 4:33 - 4:35
    gente não conseguiria fazer isso.
  • 4:35 - 4:39
    A grande dificuldade é, o computador precisa aprender isso de alguma
  • 4:39 - 4:41
    forma, de certa forma, quantitativo.
  • 4:42 - 4:49
    Se a gente quiser ir além e ser um pouco mais preciso, a gente
  • 4:49 - 4:54
    pode até pensar que a cor, de certa forma, sozinha, não é um
  • 4:54 - 4:56
    parâmetro importante.
  • 4:56 - 4:56
    Por quê?
  • 4:57 - 5:02
    Se essa maçã da tela tivesse azul, você ainda saberia que é uma maçã
  • 5:02 - 5:03
    azul.
  • 5:04 - 5:08
    Então, basicamente, o problema que a gente tem que resolver é, como
  • 5:08 - 5:11
    que a gente descobriu que esse conjunto de parâmetros que a gente nem
  • 5:11 - 5:13
    sabe nomear, formam uma maçã?
  • 5:14 - 5:16
    E a resposta para isso é dados.
  • 5:17 - 5:19
    Então, a gente aprendeu com base em dados.
  • 5:19 - 5:23
    A gente já viu, durante a nossa vida, muitos exemplos de maçã, e a
  • 5:23 - 5:27
    gente teve confirmações, de alguma forma, de que aquilo é uma maçã.
  • 5:27 - 5:29
    Então, os computadores aprendem da mesma forma.
  • 5:29 - 5:33
    Eu preciso dar para eles vários exemplos de imagens e dar para ele a
  • 5:33 - 5:38
    confirmação de que aquilo é uma maçã, ou é um cachorro, ou é um
  • 5:38 - 5:41
    gato, ou é um carro, o que aquela imagem quer dizer.
  • 5:41 - 5:46
    Então, eu trouxe aqui um outro exemplo, onde eu estou mostrando aqui
  • 5:46 - 5:48
    um modelo, chamado YOLO.
  • 5:49 - 5:53
    Esse modelo, ele é utilizado, ele é treinado para identificar
  • 5:53 - 5:55
    objetos, para detectar objetos.
  • 5:56 - 6:02
    Então, acima a gente tem uma imagem de uma rua, movimentada, com
  • 6:02 - 6:05
    pessoas, pedestres, veículos.
  • 6:06 - 6:12
    E a gente tem, embaixo, a resposta de um modelo treinado para
  • 6:12 - 6:13
    detectar objetos.
  • 6:13 - 6:18
    Ou seja, eu treinei um modelo com vários exemplos de imagens que
  • 6:18 - 6:23
    possuíam pessoas, carros, entre outros, sinais de trânsito.
  • 6:23 - 6:27
    E eu disse para ele, esse quadradinho aqui tem uma pessoa, esse
  • 6:27 - 6:30
    quadradinho aqui tem um carro, esse quadradinho aqui tem um sinal de
  • 6:30 - 6:31
    trânsito.
  • 6:31 - 6:35
    Conforme eu faço isso para milhares e milhares de imagens, com o
  • 6:35 - 6:39
    tempo esse modelo vai aprender a reconhecer em novas imagens cada um
  • 6:39 - 6:42
    desses objetos, e fazer um quadradinho nesse objeto.
  • 6:43 - 6:47
    Então, isso é uma aplicação de um modelo de visão computacional para
  • 6:47 - 6:48
    detectar objetos.
  • 6:48 - 6:53
    Da mesma forma, eu posso utilizar o mesmo exemplo, porém aplicando
  • 6:53 - 6:56
    sobre essa imagem um modelo que a gente chama de segmentação de
  • 6:56 - 6:57
    objetos.
  • 6:57 - 7:01
    Ou seja, ao invés de eu treinar um modelo para fazer um quadradinho
  • 7:01 - 7:08
    em cada objeto reconhecido, detectado, esse modelo pega todo o
  • 7:08 - 7:09
    contorno do objeto.
  • 7:10 - 7:17
    E o nível de aplicações que esse modelo vai conseguir aderir bem, vai
  • 7:17 - 7:21
    ser aplicações diferentes de aplicações que eu preciso só detectar o
  • 7:21 - 7:21
    objeto.
  • 7:21 - 7:27
    Então, a gente pode pensar que o que o modelo vai aprender depende
  • 7:27 - 7:32
    muito mais dos dados que eu vou ter, das arquiteturas dos modelos, e
  • 7:32 - 7:35
    também do que eu vou usar como variável resposta.
  • 7:36 - 7:40
    Então, se eu usar uma caixinha ao redor dos objetos, o modelo vai
  • 7:40 - 7:44
    aprender a achar caixinhas, colocar objetos dentro de caixinhas.
  • 7:44 - 7:48
    Se eu treinar com um contorno, ele vai aprender o contorno.
  • 7:48 - 7:52
    Se eu quiser só dar um valor 1 quando tem um carro na imagem
  • 7:52 - 7:55
    e 0 quando não tem, ele vai aprender sempre a dar 1 ou 0
  • 7:55 - 7:56
    quando não tem.
  • 7:57 - 7:59
    Então, isso basicamente é a dinâmica do que a gente chama de
  • 7:59 - 8:00
    aprendizado supervisionado.
  • 8:01 - 8:04
    E ele também pode ser aplicado no contexto de visão computacional.
  • 8:04 - 8:08
    Com o tempo e com a evolução das aplicações, das redes neurais, dos
  • 8:08 - 8:12
    estudos, a gente chegou no que a gente pode chamar do estado da arte
  • 8:12 - 8:12
    hoje.
  • 8:12 - 8:17
    Então, mesmo que a gente tenha modelos que possam classificar
  • 8:17 - 8:23
    imagens, que possam segmentar, identificar objetos, a gente começou a
  • 8:23 - 8:27
    criar modelos muito mais complexos conforme tanto a tecnologia do
  • 8:27 - 8:31
    ponto de vista de pesquisa e ciência foi avançando, como também a
  • 8:31 - 8:31
    computação.
  • 8:32 - 8:36
    Então, hoje já é possível, por exemplo, falar do estado da arte da
  • 8:36 - 8:39
    visão computacional com modelos que de fato conseguem extrair muito
  • 8:39 - 8:40
    conhecimento da imagem.
  • 8:40 - 8:43
    Então, não só detectar uma caixinha quando tem um carro, quando tem
  • 8:43 - 8:48
    uma pessoa, um pedestre, mas também compreender a cena como um todo.
  • 8:48 - 8:52
    Então, a gente tem modelos, por exemplo, que conseguem dar uma
  • 8:52 - 8:54
    legenda para qualquer imagem.
  • 8:54 - 8:58
    A gente tem modelos que conseguem, a partir de uma legenda ou de um
  • 8:58 - 9:01
    prompt, gerar uma imagem ou um vídeo.
  • 9:02 - 9:05
    Então, se a gente sempre pensa que visão computacional está
  • 9:05 - 9:11
    relacionada a quando o computador consegue entender a história por
  • 9:11 - 9:17
    trás das imagens, os avanços que a gente tem hoje já estão muito
  • 9:17 - 9:21
    avançados e já conseguem entregar uma curácia muito grande nessa
  • 9:21 - 9:26
    linha de, de fato, compreender todos os itens da imagem e trazer uma
  • 9:26 - 9:29
    resposta muito mais cheia de complexidade.
Title:
VC CAP01 2025 VA02 VISAO COMPUTACIONAL APLICACOES E PROCESSAMENTO DIGITAL
Video Language:
Portuguese, Brazilian
Duration:
09:33

Portuguese, Brazilian subtitles

Incomplete

Revisions Compare revisions