视觉目标检测

順番に並べる

Trackers: ビデオオブジェクト追跡のためのオープンソースツールライブラリ

一般的な紹介 Trackersは、映像内の複数オブジェクトのトラッキングに特化したオープンソースのPythonツールライブラリです。SORTやDeepSORTのようないくつかの主要なトラッキングアルゴリズムを統合しており、ユーザーは異なるオブジェクト検出モデル（YOLO...

2ヶ月前

0496

Describe Anything: 画像やビデオ領域の詳細な説明を生成するオープンソースツール

一般的な説明 Describe AnythingはNVIDIAといくつかの大学によって開発されたオープンソースプロジェクトで、Describe Anything Model (DAM)を中核としています。このツールは、ユーザーの...

2ヶ月前

0446

Find My Kids：顔認証とWhatsApp通知による子供の安全監視ツール

概要 Find My KidsはGitHubでホストされているオープンソースプロジェクトで、開発者のTomer Kleinによって作成された。このプロジェクトはDeepFace顔認識技術とWhatsApp Green APIを組み合わせています。

3ヶ月前

0425

YOLOE: リアルタイムのビデオ検出と物体分割のためのオープンソースツール

YOLOEは清華大学ソフトウェア学院のマルチメディア・インテリジェンス・グループ（THU-MIG）が開発したオープンソースプロジェクトで、正式名称は「You Only Look Once Eye」。PyTorchフレームワークをベースにしており、YOLOシリーズの拡張機能に属している。

3ヶ月前

0690

SegAnyMo: ビデオから任意の移動物体を自動的にセグメント化するオープンソースツール

概要 SegAnyMoは、カリフォルニア大学バークレー校と北京大学の研究者チームによって開発されたオープンソースプロジェクトで、Nan Huangなどのメンバーが参加している。このツールはビデオ処理に重点を置いており、ビデオ内の任意の動く物体、例えば人、動物、...を自動的に識別し、セグメント化することができる。

3ヶ月前

0710

RF-DETR：リアルタイム視覚物体検出のためのオープンソースモデル

包括的な紹介 RF-DETRはRoboflowチームによって開発されたオープンソースの物体検出モデルです。RF-DETRはTransformerアーキテクチャをベースにしており、リアルタイム性を特徴としています。このモデルはMicrosoft COCOデータセット上で初めて60APs以上のリアルタイム性を達成した。

4ヶ月前

0862

HumanOmni：人間のビデオ感情や行動を分析するためのマルチモーダル・マクロモデル

一般的な紹介 HumanOmniは、HumanMLLMチームによって開発され、GitHubでホストされているオープンソースのマルチモーダルビッグモデルです。HumanOmniは人間の動画を分析することに特化しており、画像と音声の両方を処理することで、感情や行動、対話の内容を理解するのに役立ちます。このプロジェクトでは2...

4ヶ月前

0686

視覚エージェント：複数の視覚的ターゲット検出タスクを解決する視覚インテリジェンス

概要 Vision Agentは、LandingAI（Team Enda Wu）によって開発されたオープンソースプロジェクトで、GitHubでホストされています。先進的なエージェントフレームワークとマルチモーダルモデルを使用しています。

5ヶ月前

0776

MakeSense：コンピュータビジョンプロジェクトの効率を高める、無料で使える画像注釈ツール

概要 Make Senseは、コンピュータ・ビジョン・プロジェクト用のデータセットを素早く準備できるように設計された、無料のオンライン画像注釈ツールです。複雑なインストールは不要で、ブラウザからアクセスするだけで使用でき、複数のオペレーティングシステムをサポートし、小規模なディープラーニングプロジェクトに最適です。ユーザーは...

5ヶ月前

0953

YOLOv12：リアルタイム画像・ビデオターゲット検出のためのオープンソースツール

総合的な紹介 YOLOv12はGitHubユーザーのsunsmarterjieによって開発されたオープンソースプロジェクトで、リアルタイムターゲット検出技術に焦点を当てています。このプロジェクトは、YOLO (You Only Look Once)シリーズのフレームワークをベースにしており、ノート・メモの導入...

5ヶ月前

01.2K

VLM-R1：自然言語による画像ターゲットの位置決定のための視覚言語モデル

包括的な紹介 VLM-R1は、Om AI Labによって開発され、GitHubでホストされているオープンソースの視覚言語モデリングプロジェクトです。このプロジェクトは、DeepSeekのR1アプローチとQwen2.5-VLモデルを強化学習によって組み合わせたものです。

5ヶ月前

01K

HealthGPT：医療画像解析と診断Q&Aを支援する医療ビッグモデル

包括的な紹介 HealthGPTは、異種知識適応による統一的な医療視覚理解と生成能力の達成を目指す、先進的な医療グランドビジュアル言語モデルである。このプロジェクトの目標は、医療グラフを大幅に改善する統一的な自己回帰フレームワークに医療視覚理解と生成能力を統合することである。

5ヶ月前

0853

MedRAX：マルチモーダル・マクロモデルを用いた胸部X線写真解析のためのインテリジェントボディ

包括的な紹介 MedRAXは、胸部X線（CXR）解析用に設計された最先端のAIインテリジェンスです。最先端のCXR解析ツールとマルチモーダル大規模言語モデルを統合し、追加トレーニングなしで複雑な医療クエリを動的に処理します。

4ヶ月前

01K

Agentic Object Detection：无需标注和训练的视觉目标检测工具

エージェントによる物体検出：注釈やトレーニングを必要としない視覚的物体検出ツール

包括的な紹介 Agentic Object Detectionは、Landing AIによる先進的なターゲット検知ツールです。このツールは、テキストプロンプトによって検出を実行するため、データアノテーションやモデルトレーニングが不要となり、従来のターゲット検出のプロセスを大幅に簡素化します。

最新のAIツール # 視覚ターゲット検出

5ヶ月前

01K

CogVLM2: 映像理解と複数回の対話を支援するオープンソースのマルチモーダルモデル

包括的な紹介 CogVLM2は清華大学データマイニング研究グループ（THUDM）によって開発されたオープンソースのマルチモーダルモデルで、Llama3-8Bアーキテクチャをベースとしており、GPT-4Vに匹敵するか、それ以上の性能を提供することを目指している。このモデルは画像理解、多ラウンド対話、視覚...

5ヶ月前

0895

Gaze-LLE：映像中の人物注視のターゲット予測ツール

Synthesis Gaze-LLEは、大規模な学習エンコーダーに基づいた視線ターゲット予測ツールである。Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman, and J... によって開発された。

3ヶ月前

01.1K

ビデオアナライザー：ビデオコンテンツを分析し、詳細な説明を生成します。

Comprehensive Introduction Video Analyzerは、コンピュータ・ビジョン、音声転写、自然言語処理技術を組み合わせて、詳細なビデオ・コンテンツの説明を生成する、総合的なビデオ分析ツールです。このツールは、動画から主要なフレームを抽出し、音声コンテンツを書き起こします。

5ヶ月前

02K

Twelve Labs：理解视频内容的多模态AI解决方案，视频搜索、生成、嵌入API服务

Twelve Labs: 動画コンテンツの理解、動画検索、生成、APIサービスの組み込みのためのマルチモーダルAIソリューション

一般的な紹介 Twelve Labsは、動画理解に特化したマルチモーダルAI企業であり、高度なAI技術を通じて、ユーザーが大量の動画コンテンツを理解し、処理するのを支援することに専念している。そのコア・テクノロジーには、動画検索、生成、埋め込みなどがあり、動画から行動や物体などの主要な特徴を抽出することができる。

最新のAIツール # AIオープンサービス # 視覚ターゲット検出

5ヶ月前

01.1K

そうではない。