sam audio
Apresentando o SAM Audio: O primeiro modelo multimodal unificado para separação de áudio.
por meta
quarta-feira, 17 de dezembro de 2025, 16h13
A Meta AI apresenta o SAM-Audio, um modelo de inteligência artificial inovador que expande as capacidades do "Segment Anything Model" (SAM) para o domínio do áudio.
O objetivo central é permitir a segmentação e separação de qualquer som dentro de um arquivo de áudio complexo, utilizando comandos simples.
O que é o SAM-Audio?
Diferente dos modelos tradicionais que são treinados para identificar sons específicos (como apenas voz ou apenas latidos), o SAM-Audio é um modelo de segmentação universal. Ele consegue identificar e isolar qualquer evento sonoro em uma gravação, mesmo que nunca tenha sido treinado especificamente para aquele som exato.
Funcionalidades Principais:
Segmentação por Prompt: O usuário pode "pedir" para a IA isolar um som através de:
- Texto: "Isole o som de uma sirene".
- Exemplo visual: Selecionar um objeto em um vídeo para que a IA identifique o som associado.
- Ponto temporal: Clicar em uma parte específica do espectrograma de áudio.
- Separação de Fontes: Ele não apenas identifica onde o som está, mas consegue separá-lo do ruído de fundo com alta fidelidade.
Inovação Técnica e Dados
-Treinamento em Larga Escala: A Meta utilizou uma técnica de "auto-treinamento" (self-training) em uma base de dados massiva, o que permitiu que o modelo desenvolvesse uma compreensão generalista da estrutura sonora.
-Multimodalidade: O modelo integra a compreensão de áudio com visão e linguagem natural, facilitando a interação humana.
FONTE: ai.meta