ディープシーク、v3モデルの初のオープンソース版をリリース。
DeepSeek-V3是一款强大的混合专家(Mixture-of-Experts, MoE)语言模型,拥有6710亿总参数,针对每个token激活37亿参数。该模型采用了一种创新的多头潜在注意力(Mu...
CogAgent: Smart Spectrumのグラフィカル・インターフェース自動化のためのオープンソースのインテリジェント視覚言語モデル
综合介绍 CogAgent是由清华大学数据挖掘研究组(THUDM)开发的开源视觉语言模型,旨在实现跨平台的图形用户界面(GUI)自动化操作。该模型基于CogVLM(GLM-4V-9B),支持中英文双语...
ダルマ・インスティテュート「サーチライト」ビデオ制作プラットフォーム フルレビュー
今天早些时候收到“寻光”内测申请通过的通知,睡前发个简单的评测。 该平台定位是达摩院的“视觉技术能力应用平台”,目前应用较少(对比发布会)期待逐步开放更多视觉类应用。 寻光分为两个地址: https...
ディスポーズ:人間の姿勢を精密に制御してビデオを生成し、踊る女性を作り出す
一般的な紹介 DisPoseは、制御されたキャラクター画像アニメーション生成に焦点を当てた革新的なオープンソースの人工知能プロジェクトです。研究者チームによって開発され、GitHubでオープンソース化されたこのプロジェクトは、高度なディープラーニング技術を用いて、骨格のポーズ情報を分解することで正確なキャラクターアニメーションの制御を実現しています。
Smolagents:AIインテリジェンスの迅速な開発とインテリジェンスの軽量化のためのオープンソースプロジェクト
包括的な紹介 Smolagentsは、HuggingFaceによって開発された軽量インテリジェントエージェントライブラリで、AIエージェントシステムの開発プロセスを簡素化することに重点を置いています。このプロジェクトは、約1000行のコアコードしかないシンプルな設計思想で知られていますが、強力な機能統合機能を提供しています。このライブラリの最も ...
文書をMarkdown形式の文書に視覚的に抽出するための複合キュー・ワード・コマンド
このコマンドはVision Parseプロジェクトから来たもので、2つのステップでマークダウン文書を抽出します。 画像解析プロンプト(img_analysis.prompt):この画像を解析し、...
ナプキンAI中国語スタートガイド
如何开始使用 Napkin AI 生成视觉内容 ?(账户创建、视觉生成、导出为 pdf 或图像文件...) 欢迎使用 Napkin AI,这款工具可以轻松地将您的文本转换为精美的视觉效果。本指南将引导...
Vision Parse: 視覚言語モデルを用いたPDFドキュメントのMarkdownフォーマットへのインテリジェント変換
综合介绍 Vision Parse是一个革命性的文档处理工具,它巧妙地结合了最先进的视觉语言模型(Vision Language Models)技术,能够将PDF文档智能转换为优质的Markdown格...
InvSR: 画像解像度の質を向上させるオープンソース画像超解像プロジェクト
一般的な紹介 InvSRは、低解像度画像を高品質な高解像度画像に変換できる拡散インバージョン技術に基づいた革新的なオープンソースの画像超解像プロジェクトです。このプロジェクトは、事前に訓練された大規模拡散モデルに埋め込まれた豊富な画像事前知識を利用し、柔軟なサンプリングメカニズムを通じて、...
無限大:無制限の高解像度画像生成のためのビット単位の自己回帰モデリング
概要 Infinityは、FoundationVisionチームによって開発された画期的な高解像度画像生成フレームワークです。このプロジェクトは、革新的なビットレベルの視覚的自己回帰モデリング・アプローチによって、従来の画像生成モデルの限界を打ち破ります。