< Return to Video

VC CAP01 2025 VA02 VISAO COMPUTACIONAL APLICACOES E PROCESSAMENTO DIGITAL

  • 0:08 - 0:12
    A visão computacional se difundiu
    a partir do uso de redes neurais,
  • 0:12 - 0:15
    ou seja, modelos
    que aprendem com dados.
  • 0:15 - 0:17
    Mas, antes de chegar
    nas redes neurais,
  • 0:17 - 0:20
    a gente precisa entender como
    um computador entende uma imagem,
  • 0:20 - 0:25
    como ele faz conta, como ele
    consegue processar os dados
  • 0:25 - 0:30
    até produzir uma aplicação
    como um carro autônomo.
  • 0:30 - 0:32
    E é isso que a gente
    vai ver agora
  • 0:32 - 0:35
    sobre o processamento
    digital de imagens,
  • 0:35 - 0:38
    como o computador
    enxerga uma imagem
  • 0:38 - 0:42
    e como essas imagens são processadas
    até chegar em uma aplicação final.
  • 0:42 - 0:45
    O primeiro passo, então,
    é entender um pouco
  • 0:45 - 0:48
    como o computador
    enxerga uma imagem.
  • 0:48 - 0:51
    Um computador enxerga uma imagem
    como quase tudo que ele enxerga,
  • 0:51 - 0:57
    como número, então uma imagem
    para um computador é uma matriz,
  • 0:57 - 1:00
    ou seja, como se fosse
    uma tabela de números,
  • 1:00 - 1:06
    e essa tabela de números representa
    a intensidade de cada pixel.
  • 1:06 - 1:09
    Então, nessa tabela,
    ou nessa matriz,
  • 1:09 - 1:14
    cada elemento dessa matriz,
    cada número dessa matriz
  • 1:14 - 1:18
    representa a intensidade
    de cor de cada pixel.
  • 1:18 - 1:20
    Então, cada elemento
    é um pixel
  • 1:20 - 1:25
    e cada valor desse elemento é
    a intensidade de cor desse pixel.
  • 1:25 - 1:29
    Então, como toda matriz,
    a gente tem linhas e colunas,
  • 1:29 - 1:34
    a quantidade de linhas e colunas
    define a resolução da imagem
  • 1:34 - 1:38
    e os valores dessa matriz
    representam a intensidade de cor
  • 1:38 - 1:41
    de cada pixel pertencente
    a essa matriz.
  • 1:41 - 1:45
    Isso se a imagem for uma imagem
    em escala de cinza, ou seja,
  • 1:45 - 1:48
    que possui apenas
    um canal de cor.
  • 1:48 - 1:52
    Porém, uma imagem colorida,
    como a gente conhece,
  • 1:52 - 2:00
    possui três canais de cores,
    R, G e B, ou vermelho, verde e azul.
  • 2:00 - 2:02
    E a sobreposição
    dessas matrizes,
  • 2:02 - 2:06
    ou seja, a sobreposição
    dessas intensidades de cores
  • 2:06 - 2:09
    é que vai formar
    o espectro de cores
  • 2:09 - 2:13
    que a gente consegue ver na maioria
    das imagens que a gente tem acesso.
  • 2:13 - 2:17
    Como uma imagem é um conjunto
    de números, uma matriz de números,
  • 2:17 - 2:23
    ou matrizes de números,
    a gente precisa entender, agora,
  • 2:23 - 2:29
    como um computador pode aprender
    padrões com base nesses números.
  • 2:29 - 2:32
    Então, a gente pode pensar assim:
    como um computador aprende
  • 2:32 - 2:35
    que aquela imagem
    possui uma pessoa?
  • 2:35 - 2:37
    Ou como o computador
    aprende, por exemplo,
  • 2:37 - 2:42
    que a rua está nessa direção
    e você precisa virar à direita?
  • 2:42 - 2:46
    Então, de alguma forma,
    os computadores fazem contas
  • 2:46 - 2:48
    com esses números,
    com essas matrizes,
  • 2:48 - 2:51
    e conseguem aprender padrões.
  • 2:51 - 2:53
    Então, a gente pode
    fazer uma analogia
  • 2:53 - 2:56
    com machine learning tradicional,
    ou com redes neurais.
  • 2:56 - 2:59
    Um modelo de machine learning
    tradicional aprende com dados,
  • 2:59 - 3:03
    então, as imagens são os dados
    da visão computacional
  • 3:03 - 3:08
    de modelos que são utilizados,
    e a gente vai ter que entender
  • 3:08 - 3:12
    como os modelos conseguem aprender
    a partir desse tipo de dado novo
  • 3:12 - 3:14
    que é uma imagem.
  • 3:14 - 3:17
    Então, olhando para esse exemplo
    aqui, a gente pode pensar
  • 3:17 - 3:21
    em como a gente consegue
    aprender padrões
  • 3:21 - 3:23
    para, depois, entender
    como o computador faz isso.
  • 3:23 - 3:27
    Então, pensando em uma maçã:
    você já parou para pensar
  • 3:27 - 3:31
    em como você tem certeza de que
    essa imagem aqui é de uma maçã?
  • 3:31 - 3:33
    Provavelmente, você
    deve estar pensando:
  • 3:33 - 3:38
    pela forma, pela cor, pela textura,
    talvez, da imagem, ou seja,
  • 3:38 - 3:42
    uma série de atributos
    que uma imagem vai ter
  • 3:42 - 3:46
    para a gente classificá-la
    como uma maçã.
  • 3:46 - 3:51
    O grande ponto importante aqui
    é saber que, na nossa cabeça,
  • 3:51 - 3:54
    qualitativamente, faz
    sentido pensar dessa forma,
  • 3:54 - 3:57
    mas um computador é
    extremamente quantitativo,
  • 3:57 - 3:59
    ou seja, se a gente
    pensar na forma,
  • 3:59 - 4:04
    a gente teria que pensar: qual seria
    uma forma que só uma maçã tem?
  • 4:04 - 4:08
    Ou como que eu
    quantifico essa forma?
  • 4:08 - 4:11
    0,2 redonda, 0,3 quadrada?
  • 4:11 - 4:16
    Então, a gente não consegue dar,
    com exatidão, essas formas.
  • 4:16 - 4:20
    Com a cor é da mesma forma:
    qual é o vermelho de uma maçã
  • 4:20 - 4:25
    e por que não é igual ao vermelho
    de um morango, por exemplo?
  • 4:25 - 4:28
    E aí, a gente começa
    a entender que, de fato,
  • 4:28 - 4:32
    se a gente tivesse que criar
    uma regra que definisse uma maçã,
  • 4:32 - 4:35
    quantitativamente, a gente
    não conseguiria fazer isso.
  • 4:35 - 4:37
    A grande dificuldade é:
  • 4:37 - 4:40
    o computador precisa aprender
    isso de alguma forma,
  • 4:40 - 4:42
    de certa forma, quantitativa.
  • 4:42 - 4:49
    Se a gente quiser ir além e ser
    um pouco mais preciso,
  • 4:49 - 4:53
    a gente pode até pensar
    que a cor, de certa forma,
  • 4:53 - 4:57
    sozinha, não é um parâmetro
    importante, por quê?
  • 4:57 - 5:00
    Se essa maçã
    da tela tivesse azul,
  • 5:00 - 5:03
    você ainda saberia
    que é uma maçã azul,
  • 5:03 - 5:08
    então, basicamente, o problema
    que a gente tem que resolver é:
  • 5:08 - 5:10
    como a gente descobriu que esse
    conjunto de parâmetros,
  • 5:10 - 5:14
    que a gente nem sabe
    nomear, forma uma maçã?
  • 5:14 - 5:17
    E a resposta
    para isso é dados.
  • 5:17 - 5:19
    Então, a gente aprendeu
    com base em dados,
  • 5:19 - 5:23
    a gente já viu, durante a nossa
    vida, muitos exemplos de maçã,
  • 5:23 - 5:25
    e a gente teve confirmações,
    de alguma forma,
  • 5:25 - 5:27
    de que aquilo é uma maçã.
  • 5:27 - 5:30
    Então, os computadores
    aprendem da mesma forma,
  • 5:30 - 5:32
    eu preciso dar para eles
    vários exemplos de imagens
  • 5:32 - 5:36
    e dar para ele a confirmação
    de que aquilo é uma maçã,
  • 5:36 - 5:39
    ou é um cachorro, ou é
    um gato, ou é um carro,
  • 5:39 - 5:41
    o que aquela imagem
    quer dizer.
  • 5:41 - 5:43
    Então, eu trouxe, aqui,
    um outro exemplo,
  • 5:43 - 5:49
    em que eu estou mostrando
    um modelo, chamado YOLO,
  • 5:49 - 5:54
    esse modelo é utilizado, é
    treinado para identificar objetos,
  • 5:54 - 5:56
    para detectar objetos.
  • 5:56 - 6:01
    Então, acima, a gente tem
    uma imagem de uma rua,
  • 6:01 - 6:06
    movimentada, com pessoas,
    pedestres, veículos,
  • 6:06 - 6:10
    e a gente tem, embaixo,
    a resposta de um modelo
  • 6:10 - 6:14
    treinado para detectar
    objetos, ou seja,
  • 6:14 - 6:18
    eu treinei um modelo com vários
    exemplos de imagens que possuíam
  • 6:18 - 6:23
    pessoas, carros, entre
    outros sinais de trânsito,
  • 6:23 - 6:25
    e eu disse para ele:
  • 6:25 - 6:27
    esse quadradinho aqui
    tem uma pessoa,
  • 6:27 - 6:29
    esse quadradinho
    aqui tem um carro,
  • 6:29 - 6:31
    esse quadradinho aqui
    tem um sinal de trânsito.
  • 6:31 - 6:34
    Conforme eu faço isso para
    milhares e milhares de imagens,
  • 6:34 - 6:37
    com o tempo esse modelo
    vai aprender a reconhecer,
  • 6:37 - 6:40
    em novas imagens,
    cada um desses objetos,
  • 6:40 - 6:42
    e fazer um quadradinho
    nesse objeto.
  • 6:42 - 6:46
    Então, isso é uma aplicação
    de um modelo de visão computacional
  • 6:46 - 6:48
    para detectar objetos.
  • 6:48 - 6:52
    Da mesma forma, eu posso
    utilizar o mesmo exemplo,
  • 6:52 - 6:54
    porém aplicando,
    sobre essa imagem,
  • 6:54 - 6:57
    um modelo que a gente chama
    de "segmentação de objetos".
  • 6:57 - 6:59
    Ou seja, ao invés de eu
    treinar um modelo
  • 6:59 - 7:06
    para fazer um quadradinho em cada
    objeto reconhecido, detectado,
  • 7:06 - 7:09
    esse modelo pega todo
    o contorno do objeto.
  • 7:09 - 7:16
    E o nível de aplicações que esse
    modelo vai conseguir aderir bem
  • 7:16 - 7:18
    vai ser de aplicações
    diferentes
  • 7:18 - 7:21
    de aplicações que eu preciso
    só detectar o objeto.
  • 7:21 - 7:26
    Então, a gente pode pensar
    que o que o modelo vai aprender
  • 7:26 - 7:30
    depende muito mais
    dos dados que eu vou ter,
  • 7:30 - 7:32
    das arquiteturas dos modelos,
  • 7:32 - 7:36
    e também do que eu vou
    usar como variável resposta.
  • 7:36 - 7:39
    Então, se eu usar uma caixinha
    ao redor dos objetos,
  • 7:39 - 7:42
    o modelo vai aprender
    a achar caixinhas,
  • 7:42 - 7:44
    colocar objetos
    dentro de caixinhas.
  • 7:44 - 7:48
    Se eu treinar com um contorno,
    ele vai aprender o contorno.
  • 7:48 - 7:51
    Se eu quiser só dar um valor "1"
    quando tem um carro na imagem
  • 7:51 - 7:55
    e "0" quando não tem, ele vai
    aprender sempre a dar "1",
  • 7:55 - 7:56
    ou "0" quando não tem.
  • 7:56 - 7:58
    Então, isso, basicamente,
    é a dinâmica
  • 7:58 - 8:01
    do que a gente chama
    de aprendizado supervisionado,
  • 8:01 - 8:04
    e ele também pode ser aplicado
    no contexto de visão computacional.
  • 8:04 - 8:08
    Com o tempo e com a evolução
    das aplicações, das redes neurais,
  • 8:08 - 8:11
    dos estudos, a gente chegou
    no que a gente pode chamar
  • 8:11 - 8:13
    de "estado da arte" hoje.
  • 8:13 - 8:16
    Então, mesmo que a gente
    tenha modelos
  • 8:16 - 8:20
    que possam classificar imagens,
    que possam segmentar,
  • 8:20 - 8:22
    identificar objetos,
  • 8:22 - 8:25
    a gente começou a criar
    modelos muito mais complexos
  • 8:25 - 8:27
    conforme tanto a tecnologia,
  • 8:27 - 8:30
    do ponto de vista de pesquisa
    e ciência, foi avançando,
  • 8:30 - 8:32
    como, também, a computação.
  • 8:32 - 8:34
    Então, hoje, já é
    possível, por exemplo,
  • 8:34 - 8:37
    falar do estado da arte
    da visão computacional
  • 8:37 - 8:38
    com modelos que, de fato,
  • 8:38 - 8:40
    conseguem extrair muito
    conhecimento da imagem.
  • 8:40 - 8:43
    Então, não só detectar uma caixinha
    quando tem um carro,
  • 8:43 - 8:45
    ou quando tem uma pessoa,
    ou um pedestre,
  • 8:45 - 8:48
    mas também compreender
    a cena como um todo.
  • 8:48 - 8:50
    Então, a gente tem
    modelos, por exemplo,
  • 8:50 - 8:54
    que conseguem dar uma legenda
    para qualquer imagem,
  • 8:54 - 8:58
    a gente tem modelos que conseguem,
    a partir de uma legenda
  • 8:58 - 9:02
    ou de um prompt, gerar
    uma imagem ou um vídeo.
  • 9:02 - 9:05
    Então, se a gente sempre pensa
    que visão computacional
  • 9:05 - 9:09
    está relacionada a quando
    o computador consegue
  • 9:09 - 9:13
    entender a história
    por trás das imagens,
  • 9:13 - 9:17
    os avanços que a gente tem
    hoje já estão muito avançados
  • 9:17 - 9:20
    e já conseguem entregar
    uma acurácia muito grande
  • 9:20 - 9:25
    nessa linha de, de fato, compreender
    todos os itens da imagem
  • 9:25 - 9:29
    e trazer uma resposta muito
    mais cheia de complexidade.
Title:
VC CAP01 2025 VA02 VISAO COMPUTACIONAL APLICACOES E PROCESSAMENTO DIGITAL
Video Language:
Portuguese, Brazilian
Duration:
09:33

Portuguese, Brazilian subtitles

Incomplete

Revisions Compare revisions