视频分析工具(Video Analyzer):分析视频内容并生成详细描述

Analyseur vidéo : analyse le contenu des vidéos et génère des descriptions détaillées

Comprehensive Introduction Video Analyzer est un outil d'analyse vidéo complet qui combine des techniques de vision par ordinateur, de transcription audio et de traitement du langage naturel pour générer des descriptions détaillées du contenu vidéo. L'outil transcrit le contenu audio en extrayant les images clés de la vidéo...
Il y a 4 mois
01.4K
OpenAI Realtime Agents:多智能体语音交互应用(OpenAI示例)

OpenAI Realtime Agents : A Multi-Intelligent Body Speech Interaction Application (OpenAI Example)

Introduction générale OpenAI Realtime Agents est un projet open source qui vise à montrer comment l'API temps réel d'OpenAI peut être utilisée pour construire des applications vocales multi-intelligentes. Il fournit un modèle de corps intelligent de haut niveau (emprunté à OpenAI Swarm) qui permet...
il y a 5 mois
01.1K
Zerox:PDF、DOCX、图像转换为Markdown,视觉模型高精度OCR

Zerox : PDF, DOCX, conversion d'images en Markdown, modèle visuel OCR de haute précision

Introduction générale Zerox est un projet open source conçu pour convertir des documents PDF, DOCX, des images et d'autres documents au format Markdown par le biais de modèles visuels. Le projet est développé par l'équipe getomni-ai et fournit une solution OCR (Optical Character Recognition) simple et efficace....
il y a 5 mois
01.1K
MiniRAG:简化检索增强生成框架,实体图索引召回相关文本块

MiniRAG : Cadre de génération amélioré pour la recherche simplifiée, index de graphe d'entité rappelant les blocs de texte pertinents.

综合介绍 MiniRAG是一个极其简单的检索增强生成(RAG)框架,旨在通过异构图索引和轻量级拓扑增强检索,使小模型也能实现良好的RAG性能。该项目由香港大学数据科学实验室(HKUDS)开发,主要解决...
il y a 5 mois
01.1K
百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流

Bailing : un assistant de dialogue vocal open source à faible latence pour la conversation et la communication naturelles

Introduction Bailing (Bailing) est un assistant de dialogue vocal open source conçu pour engager un dialogue naturel avec les utilisateurs par le biais de la parole. Le projet combine les technologies de reconnaissance vocale (ASR), de détection de l'activité vocale (VAD), de modélisation du langage (LLM) et de synthèse vocale (TTS) pour...
il y a 5 mois
01.1K
元界AI:开源版AI数字人克隆与短视频生成工具

Metaverse AI : Version Open Source de l'outil de clonage humain numérique et de génération de courtes vidéos par l'IA

综合介绍 元界AI(开源版)是一个托管在 GitHub 上的项目,,由 libn-net 团队开发。它能通过 AI 技术克隆数字人形象和声音,生成短视频,还支持配音和字幕制作。这个工具提供 Windo...
Il y a 3 mois
0523