Comprehensive Introduction Video Analyzer est un outil d'analyse vidéo complet qui combine des techniques de vision par ordinateur, de transcription audio et de traitement du langage naturel pour générer des descriptions détaillées du contenu vidéo. L'outil transcrit le contenu audio en extrayant les images clés de la vidéo...
Introduction générale OpenAI Realtime Agents est un projet open source qui vise à montrer comment l'API temps réel d'OpenAI peut être utilisée pour construire des applications vocales multi-intelligentes. Il fournit un modèle de corps intelligent de haut niveau (emprunté à OpenAI Swarm) qui permet...
Introduction générale DeepFace est une bibliothèque Python légère pour la reconnaissance faciale et l'analyse des attributs faciaux (y compris l'âge, le sexe, l'émotion et l'ethnicité). Elle intègre plusieurs modèles avancés de reconnaissance faciale tels que VGG-Face, FaceNet, OpenFace, De...
Introduction générale Zerox est un projet open source conçu pour convertir des documents PDF, DOCX, des images et d'autres documents au format Markdown par le biais de modèles visuels. Le projet est développé par l'équipe getomni-ai et fournit une solution OCR (Optical Character Recognition) simple et efficace....
Introduction Bailing (Bailing) est un assistant de dialogue vocal open source conçu pour engager un dialogue naturel avec les utilisateurs par le biais de la parole. Le projet combine les technologies de reconnaissance vocale (ASR), de détection de l'activité vocale (VAD), de modélisation du langage (LLM) et de synthèse vocale (TTS) pour...