Trackers:用于视频对象跟踪的开源工具库

Trackers: ビデオオブジェクト追跡のためのオープンソースツールライブラリ

一般的な紹介 Trackersは、映像内の複数オブジェクトのトラッキングに特化したオープンソースのPythonツールライブラリです。SORTやDeepSORTのようないくつかの主要なトラッキングアルゴリズムを統合しており、ユーザーは異なるオブジェクト検出モデル(YOLO...
2ヶ月前
0496
YOLOE:实时视频检测和分割物体的开源工具

YOLOE: リアルタイムのビデオ検出と物体分割のためのオープンソースツール

YOLOEは清華大学ソフトウェア学院のマルチメディア・インテリジェンス・グループ(THU-MIG)が開発したオープンソースプロジェクトで、正式名称は「You Only Look Once Eye」。PyTorchフレームワークをベースにしており、YOLOシリーズの拡張機能に属している。
3ヶ月前
0690
SegAnyMo:从视频中自动分割任意运动物体的开源工具

SegAnyMo: ビデオから任意の移動物体を自動的にセグメント化するオープンソースツール

概要 SegAnyMoは、カリフォルニア大学バークレー校と北京大学の研究者チームによって開発されたオープンソースプロジェクトで、Nan Huangなどのメンバーが参加している。このツールはビデオ処理に重点を置いており、ビデオ内の任意の動く物体、例えば人、動物、...を自動的に識別し、セグメント化することができる。
3ヶ月前
0710
RF-DETR:实时视觉对象检测开源模型

RF-DETR:リアルタイム視覚物体検出のためのオープンソースモデル

包括的な紹介 RF-DETRはRoboflowチームによって開発されたオープンソースの物体検出モデルです。RF-DETRはTransformerアーキテクチャをベースにしており、リアルタイム性を特徴としています。このモデルはMicrosoft COCOデータセット上で初めて60APs以上のリアルタイム性を達成した。
4ヶ月前
0862
HumanOmni:分析人类视频情感和动作的多模态大模型

HumanOmni:人間のビデオ感情や行動を分析するためのマルチモーダル・マクロモデル

一般的な紹介 HumanOmniは、HumanMLLMチームによって開発され、GitHubでホストされているオープンソースのマルチモーダルビッグモデルです。HumanOmniは人間の動画を分析することに特化しており、画像と音声の両方を処理することで、感情や行動、対話の内容を理解するのに役立ちます。このプロジェクトでは2...
4ヶ月前
0686
Vision Agent:解决多种视觉目标检测任务的视觉智能体

視覚エージェント:複数の視覚的ターゲット検出タスクを解決する視覚インテリジェンス

概要 Vision Agentは、LandingAI(Team Enda Wu)によって開発されたオープンソースプロジェクトで、GitHubでホストされています。先進的なエージェントフレームワークとマルチモーダルモデルを使用しています。
5ヶ月前
0776
MakeSense:免费使用的图像标注工具,提升计算机视觉项目效率

MakeSense:コンピュータビジョンプロジェクトの効率を高める、無料で使える画像注釈ツール

概要 Make Senseは、コンピュータ・ビジョン・プロジェクト用のデータセットを素早く準備できるように設計された、無料のオンライン画像注釈ツールです。複雑なインストールは不要で、ブラウザからアクセスするだけで使用でき、複数のオペレーティングシステムをサポートし、小規模なディープラーニングプロジェクトに最適です。ユーザーは...
5ヶ月前
0953
YOLOv12:实时图像和视频目标检测的开源工具

YOLOv12:リアルタイム画像・ビデオターゲット検出のためのオープンソースツール

総合的な紹介 YOLOv12はGitHubユーザーのsunsmarterjieによって開発されたオープンソースプロジェクトで、リアルタイムターゲット検出技術に焦点を当てています。このプロジェクトは、YOLO (You Only Look Once)シリーズのフレームワークをベースにしており、ノート・メモの導入...
5ヶ月前
01.2K
VLM-R1:通过自然语言定位图像目标的视觉语言模型

VLM-R1:自然言語による画像ターゲットの位置決定のための視覚言語モデル

包括的な紹介 VLM-R1は、Om AI Labによって開発され、GitHubでホストされているオープンソースの視覚言語モデリングプロジェクトです。このプロジェクトは、DeepSeekのR1アプローチとQwen2.5-VLモデルを強化学習によって組み合わせたものです。
5ヶ月前
01K
HealthGPT:支持医学图像分析与诊断问答的医疗大模型

HealthGPT:医療画像解析と診断Q&Aを支援する医療ビッグモデル

包括的な紹介 HealthGPTは、異種知識適応による統一的な医療視覚理解と生成能力の達成を目指す、先進的な医療グランドビジュアル言語モデルである。このプロジェクトの目標は、医療グラフを大幅に改善する統一的な自己回帰フレームワークに医療視覚理解と生成能力を統合することである。
5ヶ月前
0853
MedRAX: 利用多模态大模型进行胸部X光片分析的智能体

MedRAX:マルチモーダル・マクロモデルを用いた胸部X線写真解析のためのインテリジェントボディ

包括的な紹介 MedRAXは、胸部X線(CXR)解析用に設計された最先端のAIインテリジェンスです。最先端のCXR解析ツールとマルチモーダル大規模言語モデルを統合し、追加トレーニングなしで複雑な医療クエリを動的に処理します。
4ヶ月前
01K
Agentic Object Detection:无需标注和训练的视觉目标检测工具

エージェントによる物体検出:注釈やトレーニングを必要としない視覚的物体検出ツール

包括的な紹介 Agentic Object Detectionは、Landing AIによる先進的なターゲット検知ツールです。このツールは、テキストプロンプトによって検出を実行するため、データアノテーションやモデルトレーニングが不要となり、従来のターゲット検出のプロセスを大幅に簡素化します。
5ヶ月前
01K
CogVLM2:开源多模态模型,支持视频理解与多轮对话

CogVLM2: 映像理解と複数回の対話を支援するオープンソースのマルチモーダルモデル

包括的な紹介 CogVLM2は清華大学データマイニング研究グループ(THUDM)によって開発されたオープンソースのマルチモーダルモデルで、Llama3-8Bアーキテクチャをベースとしており、GPT-4Vに匹敵するか、それ以上の性能を提供することを目指している。このモデルは画像理解、多ラウンド対話、視覚...
5ヶ月前
0895
视频分析工具(Video Analyzer):分析视频内容并生成详细描述

ビデオアナライザー:ビデオコンテンツを分析し、詳細な説明を生成します。

Comprehensive Introduction Video Analyzerは、コンピュータ・ビジョン、音声転写、自然言語処理技術を組み合わせて、詳細なビデオ・コンテンツの説明を生成する、総合的なビデオ分析ツールです。このツールは、動画から主要なフレームを抽出し、音声コンテンツを書き起こします。
5ヶ月前
02K
Twelve Labs:理解视频内容的多模态AI解决方案,视频搜索、生成、嵌入API服务

Twelve Labs: 動画コンテンツの理解、動画検索、生成、APIサービスの組み込みのためのマルチモーダルAIソリューション

一般的な紹介 Twelve Labsは、動画理解に特化したマルチモーダルAI企業であり、高度なAI技術を通じて、ユーザーが大量の動画コンテンツを理解し、処理するのを支援することに専念している。そのコア・テクノロジーには、動画検索、生成、埋め込みなどがあり、動画から行動や物体などの主要な特徴を抽出することができる。
5ヶ月前
01.1K