SAM: modelo de IA da Meta identifica e recorta objetos em imagens e vídeos

abril 6, 2023

A Meta lançou na quarta-feira (5) seu novo modelo de Inteligência Artificial (IA), que usa visão computacional avançada, o SAM (Segment Anything Model). A ferramenta consegue identificar objetos em imagens e vídeos com grande precisão, e conta com uma série de recursos avançados que a tornam poderosa para uma ampla gama de aplicações.

Segundo o paper, o modelo SAM e seu dataset correspondente (SA-1B) com um bilhão de máscaras e 11 milhões de imagens “estão sendo compartilhados para fomentar a pesquisa em modelos de fundação para visão computacional”.

A Meta conta que quer democratizar a segmentação com seu novo modelo, que consegue recortar um objeto de qualquer imagem ou vídeo com um único clique. Em seu site, a empresa diz que a “segmentação — identificar quais píxeis da imagem pertencem a um objeto — é uma tarefa core em visão computacional”.

SAM tem design flexível e suporte a buscas por prompt

Uma das principais características do SAM é sua capacidade de usar uma variedade de prompts de entrada. Esses prompts especificam o que deve ser segmentado em uma imagem, permitindo que o modelo realize uma ampla gama de tarefas de segmentação sem a necessidade de treinamento adicional.

Além disso, o design flexível do SAM permite que ele seja integrado facilmente a outros sistemas, recebendo solicitações de entrada de outras fontes, como, por exemplo, o olhar de um usuário de um fone de ouvido AR/VR para selecionar um objeto.

Outra característica interessante do SAM é a generalização de tiro zero. Isso significa que o modelo aprendeu uma noção geral do que são os objetos, permitindo que ele consiga realizar a segmentação de objetos e imagens desconhecidos sem a necessidade de treinamento adicional. Assim, é possível subir suas próprias fotos para identificar e recortar objetos no demo do modelo de IA, que já está disponível ao público.

O SAM também apresenta saídas extensíveis. Isso significa que suas máscaras podem ser usadas como entradas para outros sistemas de IA, permitindo que elas sejam rastreadas em vídeos, habilitando aplicativos de edição de imagem, sendo levantadas para 3D ou usadas para tarefas criativas, como colagens.

No futuro, o modelo de IA pode ter muitos usos em várias áreas, identificando componentes visuais e texto em páginas web, em ambientes de VR e realidade aumentada, para selecionar e “flutuar” um objeto em 3D. O SAM pode ser usado até mesmo para identificar animais ou objetos para estudos, e a partir daí, rastreá-los em vídeo, além de outros “casos de uso que ainda nem imaginamos”, nas palavras da Meta.

Como foi feito o treinamento do modelo SAM da Meta

Recursos do modelo de IA SAM da Meta — Recursos do modelo de IA SAM / Montagem: Itshow sobre imagens da Meta

Os recursos avançados do SAM são o resultado de seu treinamento em milhões de imagens e máscaras coletadas por meio de um mecanismo de dados model-in-the-loop. Esse processo envolveu a utilização do SAM para anotar imagens interativamente e atualizar o modelo, repetindo esse ciclo várias vezes para melhorar tanto o modelo quanto o conjunto de dados. O resultado é um conjunto de dados final com mais de 1,1 bilhão de máscaras de segmentação coletadas em cerca de 11 milhões de imagens licenciadas com privacidade preservada.

A ferramenta foi projetada para ser eficiente o suficiente para alimentar seu mecanismo de dados, dividido em um codificador de imagem único e um decodificador de máscara leve que pode ser executado em um navegador da web em apenas alguns milissegundos por prompt. Essa eficiência permite que o SAM realize tarefas de segmentação de maneira rápida e precisa, tornando-o uma ferramenta poderosa para uma ampla gama de serviços.

Testamos o demo do Meta SAM

Recurso de passar o mouse por cima e selecionar do SAM / Montagem sobre capturas de tela (foto original: Nick Ellis)

Ao abrir o demo do SAM, você tem a opção de passar o mouse sobre um objeto na imagem para selecionar, aumentando ou reduzindo a área escolhida, e depois disso, recortando o objeto. Nesse box também existe o modo “Multi-mask”, que permite você selecionar as máscaras lateralmente, dividindo a imagem em 3D.

Recurso do SAM identifica todos os objetos de uma imagem — SAM identificando todos os objetos de uma imagem / Montagem sobre capturas de tela (foto original: Nick Ellis)

O próximo item é o “Box”, que deixa você selecionar o que quiser desenhando um quadrado ao redor da área de interesse. E chegamos ao modo mais interessante e divertido, o “Everything”, que como o nome diz, rastreia a imagem identificando todos os objetos e os recorta automaticamente.

Para acessar a demonstração gratuita, basta clicar aqui.

Assine nossa Newsletter para receber os melhores conteúdos do Itshow em sua caixa de entrada.

Tags
Meta

Artigo anterior

Conheça 6 etapas práticas para resolver problemas e monitorar ambientes de SD-WAN

Próximo artigo

Winter Vivern: grupo pró-Rússia tem como alvo organizações governamentais

Postagens recomendadas

SAM: modelo de IA da Meta identifica e recorta objetos em imagens e vídeos

SAM tem design flexível e suporte a buscas por prompt

Como foi feito o treinamento do modelo SAM da Meta

Testamos o demo do Meta SAM

Itshow

Redes sociais