ThinkSound - 阿里通义推出的音频生成模型
ThinkSound是阿里通义语音团队推出的首个CoT(链式思考)音频生成模型。模型能为视频画面生成精准匹配的音效,基于引入CoT推理,解决传统技术难以捕捉画面动态细节和空间关系的问题。
Qwen-TTS - 阿里通义千问推出的语音合成模型
Qwen-TTS是阿里通义推出的先进语音合成模型。模型能将文本高效转化为自然流畅的语音,支持多种语言和方言,如普通话、英语、北京话等,满足不同地域和场景需求。依托海量语料训练,模型语音输出质量高,韵律...
MultiAgentPPT - 开源的AI演示文稿生成系统
MultiAgentPPT 是开源的多智能体 AI 演示文稿生成系统。用户只需输入主题,系统基于多智能体协作,自动完成大纲生成、主题拆分、并行调研及内容汇总等步骤,快速生成高质量 PPT。系统基于流式...
Ovis-U1 - 阿里推出的多模态统一AI模型
Ovis-U1是阿里巴巴集团Ovis团队推出的多模态统一模型,参数规模达到30亿。模型具备多模态理解、文本到图像生成以及图像编辑等三大核心能力,凭借先进的架构设计和协同统一训练方法,支持实现高保真图像...
Doppl - Googleが提供するAIバーチャルフィッティングアプリ
Doppl是谷歌推出的AI虚拟试衣应用。用户上传全身照片后,应用支持将服装图片或截图“穿”在数字版自己身上,且能将静态图片转换为AI生成的视频,让用户更真切地感受服装上身效果。
迅雷MCP - 迅雷推出的AI自动下载服务
迅雷MCP是迅雷推出的,基于AI技术的自动下载服务。用户在支持该服务的AI应用中,用语音或文字输入下载需求,AI能自动搜索网络资源并启动下载。迅雷MCP支持PC版迅雷和NAS迅雷,打破传统下载模式,让...
咔皮记账 - 商汤科技推出的智能AI记账应用
咔皮记账是商汤科技推出的智能AI记账应用。应用以自动记账为核心功能,自动识别金额和分类,支持语音输入,让记账变得轻松便捷。咔皮记账能智能分析账单数据,定期推送个性化的消费总结和理财建议,帮助用户更好地...
Gemini CLI - 谷歌开源的编程Agent
Gemini CLI 是谷歌开源的 AI 编程工具,基于将 Gemini 大模型融入开发者终端,为开发者提供强大的 AI 功能。工具能理解代码、操作文件、执行命令并动态排查问题,帮助开发者高效地编写代...
AnimaTensor - Toast AI などによる二次画像生成モデル
AnimaTensor 是 CagliostroLab 团队与 TensorArt 联合推出的二次元图像生成模型,基于创新的 V-Prediction 技术,用预测图像生成过程中的“速度”优化噪声调度...
Gemini Robotics On-Device - グーグル、ローカルで動作する初のエンボディド・インテリジェンス・モデルを発表
Gemini Robotics On-Device 是谷歌 DeepMind 推出的支持在机器人本地运行的视觉-语言-动作模型。模型能离线执行任务,依据自然语言指令完成精细动作,如叠衣服、拉开袋子等...