< Return to Video

VC CAP01 2025 VA02 VISAO COMPUTACIONAL APLICACOES E PROCESSAMENTO DIGITAL

  • 0:08 - 0:12
    A visão computacional se difundiu
    a partir do uso de redes neurais,
  • 0:12 - 0:15
    ou seja, modelos
    que aprendem com dados.
  • 0:15 - 0:17
    Mas, antes de chegar
    nas redes neurais,
  • 0:17 - 0:20
    a gente precisa entender como
    um computador entende uma imagem,
  • 0:20 - 0:25
    como ele faz conta, como ele
    consegue processar os dados
  • 0:25 - 0:30
    até produzir uma aplicação
    como um carro autônomo.
  • 0:30 - 0:32
    E é isso que a gente
    vai ver agora
  • 0:32 - 0:35
    sobre o processamento
    digital de imagens,
  • 0:35 - 0:38
    como o computador
    enxerga uma imagem
  • 0:38 - 0:43
    e como essas imagens são processadas
    até chegar em uma aplicação final.
  • 0:43 - 0:45
    O primeiro passo, então,
    é entender um pouco
  • 0:45 - 0:48
    como o computador
    enxerga uma imagem.
  • 0:48 - 0:52
    Um computador enxerga uma imagem
    como quase tudo que ele enxerga,
  • 0:52 - 0:57
    como número, então uma imagem
    para um computador é uma matriz,
  • 0:57 - 1:00
    ou seja, como se fosse
    uma tabela de números,
  • 1:00 - 1:06
    e essa tabela de números representa
    a intensidade de cada pixel.
  • 1:06 - 1:09
    Então, nessa tabela,
    ou nessa matriz,
  • 1:09 - 1:14
    cada elemento dessa matriz,
    cada número dessa matriz
  • 1:14 - 1:18
    representa a intensidade
    de cor de cada pixel.
  • 1:18 - 1:20
    Então, cada elemento
    é um pixel
  • 1:20 - 1:25
    e cada valor desse elemento é
    a intensidade de cor desse pixel.
  • 1:25 - 1:29
    Então, como toda matriz,
    a gente tem linhas e colunas,
  • 1:29 - 1:33
    a quantidade de linhas e colunas
    define a resolução da imagem
  • 1:33 - 1:38
    e os valores dessa matriz
    representam a intensidade de cor
  • 1:38 - 1:41
    de cada pixel pertencente
    a essa matriz.
  • 1:41 - 1:45
    Isso se a imagem for uma imagem
    em escala de cinza, ou seja,
  • 1:45 - 1:48
    que possui apenas
    um canal de cor.
  • 1:48 - 1:52
    Porém, uma imagem colorida,
    como a gente conhece,
  • 1:52 - 2:00
    possui três canais de cores,
    R, G e B, ou vermelho, verde e azul.
  • 2:00 - 2:02
    E a sobreposição
    dessas matrizes,
  • 2:02 - 2:06
    ou seja, a sobreposição
    dessas intensidades de cores
  • 2:06 - 2:09
    é que vai formar
    o espectro de cores
  • 2:09 - 2:13
    que a gente consegue ver na maioria
    das imagens que a gente tem acesso.
  • 2:13 - 2:17
    Como uma imagem é um conjunto
    de números, uma matriz de números,
  • 2:17 - 2:22
    ou matrizes de números,
    a gente precisa entender, agora,
  • 2:22 - 2:29
    como um computador pode aprender
    padrões com base nesses números.
  • 2:29 - 2:32
    Então, a gente pode pensar assim:
    como um computador aprende
  • 2:32 - 2:35
    que aquela imagem
    possui uma pessoa?
  • 2:35 - 2:37
    Ou como o computador
    aprende, por exemplo,
  • 2:37 - 2:43
    que a rua está nessa direção
    e você precisa virar à direita?
  • 2:43 - 2:45
    Então, de alguma forma,
    os computadores fazem contas
  • 2:45 - 2:48
    com esses números,
    com essas matrizes,
  • 2:48 - 2:51
    e conseguem aprender padrões.
  • 2:51 - 2:53
    Então, a gente pode
    fazer uma analogia
  • 2:53 - 2:56
    com machine learning tradicional,
    ou com redes neurais.
  • 2:56 - 2:59
    Um modelo de machine learning
    tradicional aprende com dados,
  • 2:59 - 3:03
    então, as imagens são os dados
    da visão computacional
  • 3:03 - 3:08
    de modelos que são utilizados,
    e a gente vai ter que entender
  • 3:08 - 3:12
    como os modelos conseguem aprender
    a partir desse tipo de dado novo
  • 3:12 - 3:14
    que é uma imagem.
  • 3:14 - 3:17
    Então, olhando para esse exemplo
    aqui, a gente pode pensar
  • 3:17 - 3:21
    em como a gente consegue
    aprender padrões
  • 3:21 - 3:24
    para, depois, entender
    como o computador faz isso.
  • 3:24 - 3:27
    Então, pensando em uma maçã:
    você já parou para pensar
  • 3:27 - 3:31
    em como você tem certeza que essa
    imagem aqui é de uma maçã?
  • 3:31 - 3:33
    Provavelmente, você
    deve estar pensando:
  • 3:33 - 3:39
    pela forma, pela cor, pela textura,
    talvez, da imagem, ou seja,
  • 3:39 - 3:42
    uma série de atributos
    que uma imagem vai ter
  • 3:42 - 3:45
    para a gente classificá-la
    como uma maçã.
  • 3:45 - 3:51
    O grande ponto importante aqui
    é saber que, na nossa cabeça,
  • 3:51 - 3:54
    qualitativamente, faz
    sentido pensar dessa forma,
  • 3:54 - 3:57
    mas um computador é
    extremamente quantitativo,
  • 3:57 - 3:59
    ou seja, se a gente
    pensar na forma,
  • 3:59 - 4:04
    a gente teria que pensar: qual seria
    uma forma que só uma maçã tem?
  • 4:04 - 4:08
    Ou como que eu
    quantifico essa forma?
  • 4:08 - 4:11
    0,2 redonda, 0,3 quadrada?
  • 4:11 - 4:16
    Então, a gente não consegue dar,
    com exatidão, essas formas.
  • 4:16 - 4:19
    Com a cor é da mesma forma:
    qual é o vermelho de uma maçã
  • 4:19 - 4:25
    e por que não é igual ao vermelho
    de um morango, por exemplo?
  • 4:25 - 4:28
    E aí, a gente começa
    a entender que, de fato,
  • 4:28 - 4:31
    se a gente tivesse que criar
    uma regra que definisse uma maçã,
  • 4:31 - 4:35
    quantitativamente, a gente
    não conseguiria fazer isso.
  • 4:35 - 4:37
    A grande dificuldade é:
  • 4:37 - 4:40
    o computador precisa aprender
    isso de alguma forma,
  • 4:40 - 4:42
    de certa forma, quantitativa.
  • 4:42 - 4:48
    Se a gente quiser ir além e ser
    um pouco mais preciso,
  • 4:48 - 4:53
    a gente pode até pensar
    que a cor, de certa forma,
  • 4:53 - 4:57
    sozinha, não é um parâmetro
    importante, por quê?
  • 4:57 - 5:00
    Se essa maçã
    da tela tivesse azul,
  • 5:00 - 5:04
    você ainda saberia
    que é uma maçã azul,
  • 5:04 - 5:08
    então, basicamente, o problema
    que a gente tem que resolver é:
  • 5:08 - 5:11
    como a gente descobriu que esse
    conjunto de parâmetros,
  • 5:11 - 5:14
    que a gente nem sabe
    nomear, forma uma maçã?
  • 5:14 - 5:17
    E a resposta
    para isso é dados.
  • 5:17 - 5:19
    Então, a gente aprendeu
    com base em dados,
  • 5:19 - 5:22
    a gente já viu, durante a nossa
    vida, muitos exemplos de maçã,
  • 5:22 - 5:25
    e a gente teve confirmações,
    de alguma forma,
  • 5:25 - 5:27
    de que aquilo é uma maçã.
  • 5:27 - 5:29
    Então, os computadores
    aprendem da mesma forma.
  • 5:29 - 5:33
    Eu preciso dar para eles vários exemplos de imagens e dar para ele a
  • 5:33 - 5:38
    confirmação de que aquilo é uma maçã, ou é um cachorro, ou é um
  • 5:38 - 5:41
    gato, ou é um carro, o que aquela imagem quer dizer.
  • 5:41 - 5:46
    Então, eu trouxe aqui um outro exemplo, onde eu estou mostrando aqui
  • 5:46 - 5:48
    um modelo, chamado YOLO.
  • 5:49 - 5:53
    Esse modelo, ele é utilizado, ele é treinado para identificar
  • 5:53 - 5:55
    objetos, para detectar objetos.
  • 5:56 - 6:02
    Então, acima a gente tem uma imagem de uma rua, movimentada, com
  • 6:02 - 6:05
    pessoas, pedestres, veículos.
  • 6:06 - 6:12
    E a gente tem, embaixo, a resposta de um modelo treinado para
  • 6:12 - 6:13
    detectar objetos.
  • 6:13 - 6:18
    Ou seja, eu treinei um modelo com vários exemplos de imagens que
  • 6:18 - 6:23
    possuíam pessoas, carros, entre outros, sinais de trânsito.
  • 6:23 - 6:27
    E eu disse para ele, esse quadradinho aqui tem uma pessoa, esse
  • 6:27 - 6:30
    quadradinho aqui tem um carro, esse quadradinho aqui tem um sinal de
  • 6:30 - 6:31
    trânsito.
  • 6:31 - 6:35
    Conforme eu faço isso para milhares e milhares de imagens, com o
  • 6:35 - 6:39
    tempo esse modelo vai aprender a reconhecer em novas imagens cada um
  • 6:39 - 6:42
    desses objetos, e fazer um quadradinho nesse objeto.
  • 6:43 - 6:47
    Então, isso é uma aplicação de um modelo de visão computacional para
  • 6:47 - 6:48
    detectar objetos.
  • 6:48 - 6:53
    Da mesma forma, eu posso utilizar o mesmo exemplo, porém aplicando
  • 6:53 - 6:56
    sobre essa imagem um modelo que a gente chama de segmentação de
  • 6:56 - 6:57
    objetos.
  • 6:57 - 7:01
    Ou seja, ao invés de eu treinar um modelo para fazer um quadradinho
  • 7:01 - 7:08
    em cada objeto reconhecido, detectado, esse modelo pega todo o
  • 7:08 - 7:09
    contorno do objeto.
  • 7:10 - 7:17
    E o nível de aplicações que esse modelo vai conseguir aderir bem, vai
  • 7:17 - 7:21
    ser aplicações diferentes de aplicações que eu preciso só detectar o
  • 7:21 - 7:21
    objeto.
  • 7:21 - 7:27
    Então, a gente pode pensar que o que o modelo vai aprender depende
  • 7:27 - 7:32
    muito mais dos dados que eu vou ter, das arquiteturas dos modelos, e
  • 7:32 - 7:35
    também do que eu vou usar como variável resposta.
  • 7:36 - 7:40
    Então, se eu usar uma caixinha ao redor dos objetos, o modelo vai
  • 7:40 - 7:44
    aprender a achar caixinhas, colocar objetos dentro de caixinhas.
  • 7:44 - 7:48
    Se eu treinar com um contorno, ele vai aprender o contorno.
  • 7:48 - 7:52
    Se eu quiser só dar um valor 1 quando tem um carro na imagem
  • 7:52 - 7:55
    e 0 quando não tem, ele vai aprender sempre a dar 1 ou 0
  • 7:55 - 7:56
    quando não tem.
  • 7:57 - 7:59
    Então, isso basicamente é a dinâmica do que a gente chama de
  • 7:59 - 8:00
    aprendizado supervisionado.
  • 8:01 - 8:04
    E ele também pode ser aplicado no contexto de visão computacional.
  • 8:04 - 8:08
    Com o tempo e com a evolução das aplicações, das redes neurais, dos
  • 8:08 - 8:12
    estudos, a gente chegou no que a gente pode chamar do estado da arte
  • 8:12 - 8:12
    hoje.
  • 8:12 - 8:17
    Então, mesmo que a gente tenha modelos que possam classificar
  • 8:17 - 8:23
    imagens, que possam segmentar, identificar objetos, a gente começou a
  • 8:23 - 8:27
    criar modelos muito mais complexos conforme tanto a tecnologia do
  • 8:27 - 8:31
    ponto de vista de pesquisa e ciência foi avançando, como também a
  • 8:31 - 8:31
    computação.
  • 8:32 - 8:36
    Então, hoje já é possível, por exemplo, falar do estado da arte da
  • 8:36 - 8:39
    visão computacional com modelos que de fato conseguem extrair muito
  • 8:39 - 8:40
    conhecimento da imagem.
  • 8:40 - 8:43
    Então, não só detectar uma caixinha quando tem um carro, quando tem
  • 8:43 - 8:48
    uma pessoa, um pedestre, mas também compreender a cena como um todo.
  • 8:48 - 8:52
    Então, a gente tem modelos, por exemplo, que conseguem dar uma
  • 8:52 - 8:54
    legenda para qualquer imagem.
  • 8:54 - 8:58
    A gente tem modelos que conseguem, a partir de uma legenda ou de um
  • 8:58 - 9:01
    prompt, gerar uma imagem ou um vídeo.
  • 9:02 - 9:05
    Então, se a gente sempre pensa que visão computacional está
  • 9:05 - 9:11
    relacionada a quando o computador consegue entender a história por
  • 9:11 - 9:17
    trás das imagens, os avanços que a gente tem hoje já estão muito
  • 9:17 - 9:21
    avançados e já conseguem entregar uma curácia muito grande nessa
  • 9:21 - 9:26
    linha de, de fato, compreender todos os itens da imagem e trazer uma
  • 9:26 - 9:29
    resposta muito mais cheia de complexidade.
Title:
VC CAP01 2025 VA02 VISAO COMPUTACIONAL APLICACOES E PROCESSAMENTO DIGITAL
Video Language:
Portuguese, Brazilian
Duration:
09:33

Portuguese, Brazilian subtitles

Incomplete

Revisions Compare revisions