Descrição geral O Whisper Input é uma ferramenta de transcrição de voz de código aberto que permite aos usuários iniciar a gravação de voz pressionando o botão Option e encerrar a gravação levantando o botão. A ferramenta chama o Groq Whisper Large V3 Turbo ...
Introdução abrangente O LiberSonora, que significa "som livre", é um poderoso conjunto de ferramentas de audiolivro de código aberto habilitado para IA. Ele oferece suporte à extração inteligente de legendas, geração de títulos com IA, tradução em vários idiomas etc., e é capaz de processar off-line em lote com aceleração de GPU.
Introdução abrangente O AudioNotes é um sistema de notas estruturadas de áudio/vídeo desenvolvido com base no FunASR e no Qwen2. Ele pode extrair rapidamente o conteúdo de áudio/vídeo e chamar o grande modelo para gerar notas estruturadas em Markdown, o que é conveniente para...
Introdução geral O Orate é um kit de ferramentas de IA voltado para a geração e transcrição de fala. Ele fornece uma API unificada que se integra perfeitamente aos principais provedores de IA, como OpenAI, ElevenLabs e AssemblyAI, para ajudar os usuários a criar...
Introdução abrangente O PengChengStarling (PengCheng Labs) é uma ferramenta de reconhecimento automático de fala (ASR) multilíngue capaz de converter a fala em diferentes idiomas em texto correspondente. Esse kit de ferramentas foi desenvolvido com base no projeto icefall e fornece um processo completo de reconhecimento de fala...
Introdução geral O RealtimeSTT é uma biblioteca de conversão de fala em texto eficiente e de baixa latência em tempo real, com detecção avançada de atividade de fala e ativação de palavras de alerta. Ela foi desenvolvida por Kolja Beigel para dar suporte a aplicativos que exigem conversão de fala em texto rápida e precisa...
Introdução geral O sherpa-onnx é um projeto de código aberto desenvolvido pela equipe do Next-gen Kaldi para fornecer soluções eficientes de reconhecimento e síntese de fala off-line. Ele é compatível com várias plataformas, incluindo Android, iOS, Raspber...
Introdução geral O Acoust é uma plataforma de serviços de geração de fala com IA on-line e de conversão de texto em fala (TTS) que usa a mais recente tecnologia de IA para gerar uma fala realista. A plataforma também oferece ferramentas avançadas de edição de vídeo que permitem aos usuários concluir a produção de vídeo sem a necessidade de vários softwares.
Descrição geral O Notta é uma poderosa ferramenta de transcrição de áudio e gravação de reuniões com IA projetada para ajudar os usuários a converter automaticamente reuniões, entrevistas ou gravações de áudio em texto pesquisável. Com o Notta, os usuários podem facilmente transcrever, editar, resumir e colaborar para aumentar a produtividade.
Introdução geral O AI no jimaku gumi (AI no subtitle group) é uma poderosa ferramenta de processamento de legendas de vídeo de linha de comando, cujo foco é permitir funções automatizadas de extração, transcrição e tradução de legendas de vídeo. A ferramenta integra tecnologias avançadas de IA, incluindo a fala Whisper...
Introdução abrangente O FunClip é uma ferramenta de edição de vídeo automatizada, localizada e de código aberto, desenvolvida pelo TONGYI Speech Lab do Alibaba Dharma Institute. A ferramenta integra o modelo de reconhecimento de fala Paraformer-Large de nível industrial, que pode identificar com precisão a fala no vídeo...
Introdução geral O BetterWhisperX é uma versão otimizada do projeto WhisperX, com foco no fornecimento de serviços de reconhecimento automático de fala (ASR) eficientes e precisos. Como um desdobramento aprimorado do WhisperX, o projeto foi desenvolvido por Federico ...
Descrição geral O Freed é um assistente de transcrição médica com IA projetado para profissionais de saúde. Ele ajuda os médicos e outros profissionais de saúde a automatizar o registro das visitas dos pacientes, reduzir a burocracia e melhorar a eficiência do trabalho por meio da tecnologia avançada de IA...
Introdução geral O Voicenotes é um aplicativo inteligente de anotações de voz projetado para ajudar os usuários a gravar e gerenciar facilmente anotações de voz e reuniões. O aplicativo suporta transcrição de voz em mais de 100 idiomas. Os usuários simplesmente falam seus pensamentos e o Voicenotes os transcreve automaticamente em texto...