1-2-1-MNVTON:高效图像、视频中人物虚拟试穿服装(待开放)
综合介绍 1-2-1-MNVTON是一个基于GitHub的开源项目,旨在通过“Modality-specific Normalization for Virtual Try-On”(MNVTON)技术...
Kokoro-ONNX:高效文本转语音工具,支持多语言和多声音选择
综合介绍 Kokoro-ONNX是一个基于ONNX runtime的开源文本转语音(TTS)工具。该项目由thewh1teagle开发,旨在提供高效、快速的语音合成解决方案。Kokoro-ONNX支持...
Zerox:PDF、DOCX、图像转换为Markdown,视觉模型高精度OCR
综合介绍 Zerox是一个开源项目,旨在通过视觉模型将PDF、DOCX、图像等文件转换为Markdown格式。该项目由getomni-ai团队开发,提供了简单高效的OCR(光学字符识别)解决方案。Ze...
AIVLOG:自动剪辑视频精彩片段,轻松制作专业Vlog
综合介绍 AIVLOG是一款专为Vlog创作者设计的AI视频编辑工具。它能够自动分析视频内容,智能剪辑出精彩片段,节省用户95%的编辑时间。无论是日常生活、旅行记录还是谈话类视频,AIVLOG都能轻松...
Charla:基于终端的极简AI聊天工具,本地集成Ollama后端
综合介绍 Charla 是一个基于终端的聊天应用程序,旨在与本地语言模型进行对话。该应用程序集成了 Ollama 后端,支持上下文感知的对话,并将聊天会话保存为 Markdown 文件。用户可以通过简...
Windsurf Wave 2 重大更新:引入网页搜索和自动化记忆功能,并提供企业级混合部署版本
Codeium 近日推出 Windsurf Wave 2 更新,为开发者带来多项重要功能升级,包括 Web 搜索、自动化记忆和代码执行优化等。作为AI Coding工具Top 2,这些更新旨在为 20...
谷歌发布 Vertex AI RAG 引擎:一站式构建可靠的检索增强生成应用
生成式 AI 和大语言模型 (LLM) 正在改变各行各业,但两个关键挑战可能会阻碍企业采用:幻觉(生成不正确或无意义的信息)和超出其训练数据的有限知识。检索增强生成 (RAG) 和 grounding...
MiniRAG:简化检索增强生成框架,实体图索引召回相关文本块
综合介绍 MiniRAG是一个极其简单的检索增强生成(RAG)框架,旨在通过异构图索引和轻量级拓扑增强检索,使小模型也能实现良好的RAG性能。该项目由香港大学数据科学实验室(HKUDS)开发,主要解决...
Perplexity AI 提出与美国 TikTok 合并(收购)的竞标方案
要点: 据 CNBC 了解,Perplexity AI 上周六向 TikTok 的母公司字节跳动提交了一份竞标,提议 Perplexity 与 TikTok 美国业务合并。 一位熟悉情况的消息人士透露...
Omni-RGPT:图像和视频区域级理解多模态大模型,提升视觉内容分析能力
综合介绍 Omni-RGPT 是一个多模态大语言模型,旨在实现图像和视频的区域级理解。通过引入 Token Mark 技术,Omni-RGPT 能够在视觉特征空间内高亮目标区域,并通过区域提示(如框或...