sam audio

Apresentando o SAM Audio: O primeiro modelo multimodal unificado para separação de áudio.

por meta

quarta-feira, 17 de dezembro de 2025, 16h13

A Meta AI apresenta o SAM-Audio, um modelo de inteligência artificial inovador que expande as capacidades do "Segment Anything Model" (SAM) para o domínio do áudio.

O objetivo central é permitir a segmentação e separação de qualquer som dentro de um arquivo de áudio complexo, utilizando comandos simples.

O que é o SAM-Audio?

Diferente dos modelos tradicionais que são treinados para identificar sons específicos (como apenas voz ou apenas latidos), o SAM-Audio é um modelo de segmentação universal. Ele consegue identificar e isolar qualquer evento sonoro em uma gravação, mesmo que nunca tenha sido treinado especificamente para aquele som exato.

Funcionalidades Principais:

Segmentação por Prompt: O usuário pode "pedir" para a IA isolar um som através de:

- Texto: "Isole o som de uma sirene".

- Exemplo visual: Selecionar um objeto em um vídeo para que a IA identifique o som associado.

- Ponto temporal: Clicar em uma parte específica do espectrograma de áudio.

- Separação de Fontes: Ele não apenas identifica onde o som está, mas consegue separá-lo do ruído de fundo com alta fidelidade.

Inovação Técnica e Dados

-Treinamento em Larga Escala: A Meta utilizou uma técnica de "auto-treinamento" (self-training) em uma base de dados massiva, o que permitiu que o modelo desenvolvesse uma compreensão generalista da estrutura sonora.

-Multimodalidade: O modelo integra a compreensão de áudio com visão e linguagem natural, facilitando a interação humana.

FONTE: ai.meta