Trackers:用于视频对象跟踪的开源工具库

Trackers : bibliothèque d'outils open source pour le suivi d'objets vidéo

Introduction générale Trackers est une bibliothèque d'outils Python open source axée sur le suivi d'objets multiples dans les vidéos. Elle intègre plusieurs algorithmes de suivi de premier plan, tels que SORT et DeepSORT, et permet aux utilisateurs de combiner différents modèles de détection d'objets (tels que YOLO...
Il y a 2 mois
0516
YOLOE:实时视频检测和分割物体的开源工具

YOLOE : un outil open source pour la détection vidéo en temps réel et la segmentation d'objets

YOLOE est un projet open source développé par le Multimedia Intelligence Group (THU-MIG) de la School of Software de l'Université de Tsinghua, dont le nom complet est "You Only Look Once Eye". Il est basé sur le framework PyTorch, qui appartient à la série d'extensions YOLO...
Il y a 4 mois
0718
SegAnyMo:从视频中自动分割任意运动物体的开源工具

SegAnyMo : un outil open source pour segmenter automatiquement des objets arbitraires en mouvement à partir d'une vidéo

Introduction générale SegAnyMo est un projet open source développé par une équipe de chercheurs de l'UC Berkeley et de l'Université de Pékin, comprenant des membres tels que Nan Huang. Cet outil se concentre sur le traitement vidéo et peut automatiquement identifier et segmenter des objets arbitraires en mouvement dans une vidéo, tels que des personnes, des animaux ou...
Il y a 4 mois
0729
RF-DETR:实时视觉对象检测开源模型

RF-DETR : un modèle open source pour la détection d'objets visuels en temps réel

Introduction complète RF-DETR est un modèle de détection d'objets open source développé par l'équipe Roboflow. Il est basé sur l'architecture Transformer et sa caractéristique principale est l'efficacité en temps réel. Pour la première fois, le modèle atteint plus de 60 AP en temps réel sur l'ensemble de données Microsoft COCO...
Il y a 4 mois
0879
HumanOmni:分析人类视频情感和动作的多模态大模型

HumanOmni : un macromodèle multimodal pour l'analyse des émotions et des actions des vidéos humaines

Introduction générale HumanOmni est un grand modèle multimodal open source développé par l'équipe HumanMLLM et hébergé sur GitHub. Il se concentre sur l'analyse de vidéos humaines et peut traiter à la fois l'image et le son pour aider à comprendre les émotions, les actions et le contenu du dialogue. Le projet a utilisé 2...
Il y a 4 mois
0703
Vision Agent:解决多种视觉目标检测任务的视觉智能体

Vision Agent : une intelligence visuelle pour résoudre les tâches de détection de cibles visuelles multiples

Introduction générale Vision Agent est un projet open source développé par LandingAI (Team Enda Wu), hébergé sur GitHub, conçu pour aider les utilisateurs à générer rapidement du code pour résoudre des tâches de vision par ordinateur. Il utilise un cadre d'agent avancé et des modèles multimodaux...
il y a 5 mois
0794
MakeSense:免费使用的图像标注工具,提升计算机视觉项目效率

MakeSense : un outil d'annotation d'images gratuit pour améliorer l'efficacité des projets de vision par ordinateur

Introduction générale Make Sense est un outil d'annotation d'images en ligne gratuit conçu pour aider les utilisateurs à préparer rapidement des ensembles de données pour des projets de vision par ordinateur. Il ne nécessite aucune installation compliquée, il suffit d'ouvrir un accès au navigateur pour l'utiliser, il supporte plusieurs systèmes d'exploitation, et il est idéal pour les petits projets d'apprentissage profond. Les utilisateurs peuvent...
il y a 5 mois
0967
HealthGPT:支持医学图像分析与诊断问答的医疗大模型

HealthGPT : Un grand modèle médical pour soutenir l'analyse d'images médicales et les questions-réponses en matière de diagnostic

Introduction HealthGPT est un modèle de langage visuel médical avancé qui vise à atteindre une compréhension visuelle médicale unifiée et des capacités de génération grâce à l'adaptation des connaissances hétérogènes. L'objectif du projet est d'intégrer la compréhension visuelle médicale et les capacités de génération dans un cadre autorégressif unifié qui améliore...
il y a 5 mois
0862
MedRAX: 利用多模态大模型进行胸部X光片分析的智能体

MedRAX : Un organisme intelligent pour l'analyse des radiographies du thorax à l'aide de macromodèles multimodaux

Introduction complète MedRAX est une intelligence artificielle de pointe conçue pour l'analyse des radiographies pulmonaires (CXR). Il intègre des outils d'analyse CXR de pointe et des modèles multimodaux de langage étendu pour traiter dynamiquement des requêtes médicales complexes sans formation supplémentaire.
Il y a 4 mois
01K
Agentic Object Detection:无需标注和训练的视觉目标检测工具

Détection agentique d'objets : un outil de détection visuelle d'objets sans annotation ni formation

Introduction complète Agentic Object Detection est un outil avancé de détection de cibles par Landing AI. L'outil effectue la détection par le biais d'invites textuelles, éliminant ainsi le besoin d'annotation des données et d'entraînement du modèle, ce qui simplifie grandement le processus de détection de cibles traditionnel...
il y a 5 mois
01K
CogVLM2:开源多模态模型,支持视频理解与多轮对话

CogVLM2 : un modèle multimodal open source pour soutenir la compréhension vidéo et les dialogues multiples

Introduction complète CogVLM2 est un modèle multimodal open source développé par le Tsinghua University Data Mining Research Group (THUDM), basé sur l'architecture Llama3-8B, et visant à fournir des performances comparables ou même supérieures à GPT-4V. Le modèle prend en charge la compréhension des images, le dialogue...
il y a 5 mois
0909
视频分析工具(Video Analyzer):分析视频内容并生成详细描述

Analyseur vidéo : analyse le contenu des vidéos et génère des descriptions détaillées

Comprehensive Introduction Video Analyzer est un outil d'analyse vidéo complet qui combine des techniques de vision par ordinateur, de transcription audio et de traitement du langage naturel pour générer des descriptions détaillées du contenu vidéo. L'outil transcrit le contenu audio en extrayant les images clés de la vidéo...
il y a 5 mois
02.1K
Twelve Labs:理解视频内容的多模态AI解决方案,视频搜索、生成、嵌入API服务

Twelve Labs : solutions d'IA multimodale pour la compréhension du contenu vidéo, la recherche vidéo, la génération, l'intégration de services API

Introduction générale Twelve Labs est une société d'intelligence artificielle multimodale spécialisée dans la compréhension des vidéos, dont l'objectif est d'aider les utilisateurs à comprendre et à traiter de grandes quantités de contenu vidéo grâce à des technologies d'intelligence artificielle avancées. Ses principales technologies comprennent la recherche, la génération et l'intégration de vidéos, qui sont capables d'extraire des caractéristiques clés de la vidéo, telles que les actions, les objets...
il y a 5 mois
01.1K