CogVLM2:开源多模态模型,支持视频理解与多轮对话

CogVLM2: 映像理解と複数回の対話を支援するオープンソースのマルチモーダルモデル

包括的な紹介 CogVLM2は清華大学データマイニング研究グループ(THUDM)によって開発されたオープンソースのマルチモーダルモデルで、Llama3-8Bアーキテクチャをベースとしており、GPT-4Vに匹敵するか、それ以上の性能を提供することを目指している。このモデルは画像理解、多ラウンド対話、視覚...
4ヶ月前
07750
VisoMaster:强大且易用的图片/视频换脸和编辑软件

VisoMaster: パワフルで使いやすい写真/ビデオ整形・編集ソフトウェア

はじめに VisoMasterは、人工知能技術を使用して自然でリアルなフェイススワップ効果を実現する、パワフルで使いやすいビデオフェイススワップ編集ツールです。画像でもビデオでも、VisoMasterは簡単な操作で高品質のフェイススワップ結果を生成することができ、一般的なビデオ編集に適しています。
4ヶ月前
01.5K0
基于RAG构建提供健康建议的小助手(实验项目)

健康アドバイスを提供するミニ・アシスタントのRAGベースの構築(パイロット・プロジェクト)

概論 LLM-RAG-Longevity-Coachは、Large Language Modelling (LLM)とRetrieval Augmented Generation (RAG)の技術に基づいたチャットボットで、ユーザーにパーソナライズされた健康と長寿のアドバイスを提供するように設計されている。このプロジェクトは、タイラー・バーレ...
4ヶ月前
08250
Maestro:简化主流开源视觉语言模型微调过程的工具

Maestro:主流のオープンソース視覚言語のモデルの微調整プロセスを簡素化するツール

包括的な紹介 MaestroはRoboflowによって開発されたツールで、マルチモーダルモデルのファインチューニングプロセスを簡素化、高速化し、誰でも独自の視覚マクロモデルをトレーニングできるようにします。F... などの一般的な視覚言語モデル(VLM)を微調整するためのレシピが用意されています。
4ヶ月前
08730
One-Prompt-One-Story:文本提示生成角色身份一致的图像

ワン・プロンプト・ワンストーリー:テキスト・プロンプトがキャラクターのアイデンティティと一貫したイメージを生み出す

综合介绍 One-Prompt-One-Story (1Prompt1Story) 是一个创新的文本到图像生成工具,旨在通过单一提示实现一致性图像生成。该项目由刘涛等人在ICLR 2025会议上提出...
4ヶ月前
08710
AudioNotes:快速提取音视频内容并生成结构化笔记

AudioNotes: 音声とビデオコンテンツをすばやく抽出し、構造化されたノートを作成します。

総合紹介 AudioNotesは、FunASRとQwen2に基づいて構築された、オーディオ/ビデオから構造化ノートへのシステムです。オーディオ/ビデオコンテンツを素早く抽出し、大きなモデルを呼び出して構造化されたMarkdownノートを生成することができます。
4ヶ月前
08410
Rowfill:批量提取文档结构化信息并自动化分析

ロウフィル:文書からの構造化情報の一括抽出と自動分析

概要 Rowfillは、ナレッジワーカーのために設計されたオープンソースの文書処理プラットフォームです。高度な人工知能技術を使用して、複雑な文書、画像、PDFからデータを抽出、分析、処理します。Rowfillは、Large Language Model(LLM)とOpe...
4ヶ月前
07580
PRAG:提升问答系统性能的参数化检索增强生成工具

PRAG: Q&Aシステムのパフォーマンス向上のためのパラメトリック検索拡張生成ツール

包括的な紹介 PRAG(Parametric Retrieval-Augmented Generation)は、大規模言語モデル(LLM)のパラメータ空間に直接埋め込むことで、外部知識の生成を強化することを目的とした革新的な検索拡張生成ツールである。
4ヶ月前
07590
GPT Researcher:利用本地和网络数据,生成全面、详实的研究报告

GPTリサーチャー:ローカルおよびウェブベースのデータを使用して、包括的で詳細な調査レポートを作成します。

包括的な紹介 GPT Researcher は、Large Language Model (LLM)をベースとした自律型エージェントツールで、ローカルリサーチやウェブリサーチを行い、詳細なリサーチレポートを作成するために設計されています。このツールは、エージェント作業を並列化することにより、安定したパフォーマンスと高速化を実現し、情報の正確性を保証します。
2ヶ月前
08250
Linly-Talker:数字人智能对话系统,结合大语言模型与视觉模型,实现互动新体验

Linly-Talker:デジタルピープルのためのインテリジェント対話システム、ビッグ言語モデルとビジュアルモデルを組み合わせた新しいインタラクティブ体験

综合介绍 Linly-Talker 是一个创新的数字人对话系统,结合了大语言模型(LLMs)与视觉模型,创造出一种新颖的人机互动方式。该系统集成了多种技术,如 Whisper、Linly、Micros...
4ヶ月前
08470
Airweave:让应用程序快速集成知识库,实现智能搜索

Airweave:インテリジェントな検索のためのナレッジベースをアプリケーションに迅速に統合することを可能にする

概論 Airweaveは、ユーザーのアプリケーション・データ、API、データベース、ウェブサイトをグラフやベクトル・データベースに同期させることで、あらゆるアプリケーションを検索可能にするために設計されたオープンソース・ツールである。Airweaveは、構造化データであろうとなかろうと、データを検索可能にするプロセスを単純化する。
4ヶ月前
07210
OpenDeepResearcher:自动化深度研究工具,撰写完整的研究报告

OpenDeepResearcher:完全な調査レポートを書くための自動詳細調査ツール

概要 OpenDeepResearcherは、人工知能技術によって研究効率を向上させるために設計されたオープンソースの自動ディープリサーチツールです。プロジェクトはmshumerによって開発され、GitHubでホストされています。OpenDeepResear...
2ヶ月前
01K0
ColiVara:基于视觉嵌入的文档存储与检索服务

ColiVara:視覚的埋め込みベースの文書保管・検索サービス

概要 ColiVara は、ビジュアル埋め込み技術に基づく文書保管・検索サービスです。光学式文字認識(OCR)やテキスト抽出の必要性をなくし、フォームの破損や画像の紛失といった問題を回避します。ColiVaraは、PDFを含む100以上のファイルフォーマットをサポートしています。
4ヶ月前
08010