SegAnyMo:从视频中自动分割任意运动物体的开源工具综合介绍 SegAnyMo 是一个开源项目,由加州大学伯克利分校和北京大学的研究团队开发,包括 Nan Huang 等成员。这个工具专注于视频处理,能自动识别和分割视频中任意运动的物体,比如人、动物或...最新AI工具# AI开源项目# AI抠图改背景# 视觉目标检测2个月前05240
GenXD:生成任意3D和4D场景视频的开源框架综合介绍 GenXD 是一个开源项目,由新加坡国立大学(NUS)和微软团队开发。它专注于生成任意 3D 和 4D 场景,解决真实世界中 3D 和 4D 生成因数据不足和模型设计复杂带来的难题。项目通过...最新AI工具# AI开源项目# AI文本与图片转3D2个月前04800
ChatAnyone:从照片生成半身数字人肖像视频的工具综合介绍 ChatAnyone 是 HumanAIGC 团队开发的一个创新项目。它利用人工智能技术,从单张照片和音频输入生成带有上半身动作的数字人肖像视频。这个项目基于层次运动扩散模型,能生成头部动作...最新AI工具# AI开源项目# AI数字人2个月前04630
Search-R1:强化学习训练大模型搜索与推理的工具综合介绍 Search-R1 是一个开源项目,由 PeterGriffinJin 在 GitHub 上开发,基于 veRL 框架构建。它通过强化学习(RL)技术训练大语言模型(LLM),让模型自主学会...最新AI工具# AI开源项目# 大模型微调2个月前04970
DeepGemini:多模型编排任务并封装为API接口综合介绍 DeepGemini 是一个开源项目,由开发者 Thomas Sligter 创建。它是一个支持多模型编排的 AI 管理工具,主要特点是能灵活组合多种 AI 模型,并通过 OpenAI 兼容...最新AI工具# AI开源项目2个月前05440
Optexity:用人类演示训练AI执行网页操作的开源项目综合介绍 Optexity 是一个在 GitHub 上开源的项目,由 Optexity 团队开发。它的核心是用人类演示数据训练 AI 完成计算机任务,尤其是网页操作。项目包含三个代码库:Compute...最新AI工具# AI开源项目# 大模型微调# 桌面自动化智能体2个月前05590
II-Researcher:深度搜索与分步推理解答复杂问题综合介绍 II-Researcher 是 Intelligent-Internet 团队开发的一款开源人工智能研究工具,托管于 GitHub。它专为深度搜索和复杂推理设计,能通过智能网页搜索和多步骤分...最新AI工具# AI开源项目# 生成深度研究报告2个月前05140
Cua:让AI代理在macOS/Linux沙盒中安全执行应用综合介绍 Cua 是一个开源项目,全称“Computer-Use Agent”(计算机使用代理),读作“koo-ah”。它专为 Apple Silicon 设备设计,能创建并运行高性能的 macOS ...最新AI工具# AI开源项目2个月前05740
Paper to Podcast:把学术论文转换为多人对话播客综合介绍 Paper to Podcast 是一个开源工具,专门把学术研究论文转化为生动有趣的播客。它通过人工智能技术,将 PDF 格式的论文变成三个角色——主持、学习者和专家——之间的对话,让复杂的...最新AI工具# AI开源项目# AI文本转语音2个月前04790
Anubis:通过工作量证明干扰AI爬虫抓取综合介绍 Anubis 是一个由 TecharoHQ 团队开发的开源工具,主要用来保护网站免受 AI 爬虫的侵扰。它在 HTTP 请求中加入 SHA256 工作量证明(Proof-of-Work)挑战...最新AI工具# AI开源项目2个月前05270
OmniSQL:将自然语言转化为高质量SQL查询的模型综合介绍 OmniSQL 是一个开源项目,由 RUCKBReasoning 团队开发,托管在 GitHub 上。它的核心功能是将用户输入的自然语言问题转化为高质量的 SQL 查询语句,帮助用户轻松与数...最新AI工具# AI开源项目# AI数据分析2个月前05790
LatentSync:用音频直接生成唇形同步视频的开源工具综合介绍 LatentSync 是字节跳动(ByteDance)开发的一个开源工具,托管在 GitHub 上。它通过音频直接驱动视频中人物的唇部动作,让嘴型与声音精准匹配。项目基于 Stable Di...最新AI工具# AI开源项目# 口型同步2个月前01.5K0
Morphik Core:处理多模态数据的开源 RAG 平台综合介绍 Morphik Core 是一个开源项目,由 morphik-org 团队开发,托管在 GitHub 上。它以前叫 DataBridge Core,现在更名为 Morphik Core。这个...最新AI工具# AI开源项目# 知识检索与RAG框架2个月前05240
基于Workers AI免费将多种文件转为Markdown格式综合介绍 serverless-markdown-convertor 是一个免费的开源工具,基于 Cloudflare Worker 和 Workers AI 开发,能将多种文件转换为 Markdow...最新AI工具# AI开源项目# 文档提取与清洗2个月前05530
EditorJumper:Cursor/Trae/Windsurf和JetBrains无缝切换工具综合介绍 EditorJumper 是一个专为 JetBrains IDE 设计的插件,由 GitHub 用户 wanniwa 开发。它能让开发者在 JetBrains IDE(如 IntelliJ ...最新AI工具# AI开源项目2个月前05040
VirtualWife:支持B站直播和语音互动的二次元数字人综合介绍 VirtualWife 是一个开源的虚拟数字人项目,由开发者 yakami129 创建。它目前处于孵化阶段,目标是打造一个有“灵魂”的虚拟角色,用户可以像朋友一样与之互动。项目支持 B站直播...最新AI工具# AI开源项目# AI数字人2个月前04990
GPT-Crawler:自动爬取网站内容生成知识库文件综合介绍 GPT-Crawler 是由 BuilderIO 团队开发的一个开源工具,托管在 GitHub 上。它通过输入一个或多个网站 URL,爬取页面内容,生成结构化的知识文件(output.jso...最新AI工具# AI开源项目# 文档提取与清洗2个月前01.3K0
MegaTTS3:合成中英文语音的轻量模型综合介绍 MegaTTS3 是字节跳动与浙江大学合作开发的一款开源语音合成工具,专注于生成高质量的中英文语音。它的核心模型只有 0.45B 参数,轻量高效,支持中英文混合语音生成和语音克隆。项目托管在...最新AI工具# AI开源项目# AI文本转语音# AI语音克隆2个月前06660
KBLaM:为大模型嵌入外部知识的开源增强工具综合介绍 KBLaM 是微软开发的一个开源项目,全称是“Knowledge Base augmented Language Model”(知识库增强语言模型)。它通过将外部知识转化为向量并嵌入大模型的...最新AI工具# AI开源项目# 知识检索与RAG框架2个月前05470