HumanOmni：分析人类视频情感和动作的多模态大模型

Últimas herramientas de IAPublicado hace 4 meses Sharenet.ai

720 0

Introducción general

HumanOmni 是由 HumanMLLM 团队开发的一个开源多模态大模型，托管在 GitHub 上。它专注于分析人类视频，能同时处理画面和声音，帮助理解情感、动作和对话内容。项目用了 240 万个以人为中心的视频片段和 1400 万条指令数据进行预训练，还用 5 万个手工标注的视频片段（含 10 万多条指令）进行微调。HumanOmni 分三个分支处理面部、身体和互动场景，能根据输入动态调整融合方式。它是业界首个以人类为中心的多模态模型，性能超过许多同类模型。团队还推出了基于它的 R1-Omni，首次结合强化学习提升推理能力。代码和部分数据集都开放，方便研究者和开发者使用。

Lista de funciones

情感识别: 分析视频中的面部表情和声音语调，判断人物情绪，如开心、生气或悲伤。
面部表情描述: 识别并描述人物面部细节，比如微笑或皱眉。
动作理解: 分析视频中人物的动作，描述他们在做什么，比如走路或挥手。
语音处理: 从音频中提取内容，支持语音识别和语调分析。
多模态融合: 结合画面和声音，理解复杂场景，提供更准确的分析。
动态分支调整: 用面部、身体、互动三个分支处理不同场景，自动调整权重。
开源支持: 提供代码、预训练模型和部分数据集，支持二次开发。

Utilizar la ayuda

HumanOmni 适合有技术基础的用户，比如开发者或研究者。以下是安装和使用步骤，详细到可以直接上手。

Proceso de instalación

要运行 HumanOmni，需要先准备好环境。以下是具体步骤：

检查硬件和软件要求
- 操作系统：支持 Linux、Windows 或 macOS。
- Python：需要 3.10 或更高版本。
- CUDA：建议 12.1 或更高（若用 GPU）。
- PyTorch：需要 2.2 或更高版本，支持 CUDA。
- 硬件：推荐 NVIDIA GPU，CPU 也能用但速度慢。
Descargar código
打开终端，输入命令下载项目：

git clone https://github.com/HumanMLLM/HumanOmni.git
cd HumanOmni

Creación de un entorno virtual
用 Conda 创建独立环境，避免冲突：

conda create -n humanOmni python=3.10 -y
conda activate humanOmni

Instalación de dependencias
项目有个 requirements.txt 文件，列出了所需库。运行以下命令安装：

pip install --upgrade pip
pip install -r requirements.txt
pip install flash-attn --no-build-isolation

Descargar modelos de pesos
HumanOmni 有三种模型：

HumanOmni-Video：处理视频，7B 参数。
HumanOmni-Audio：处理音频，7B 参数。
HumanOmni-Omni：融合视频和音频，7B 参数（简称 HumanOmni）。
从 Hugging Face 或 ModelScope 下载，比如：
HumanOmni-7B
HumanOmni-7B-Video
下载后放到项目文件夹。

Verificar la instalación
用测试命令检查环境：

python inference.py --modal video --model_path ./HumanOmni_7B --video_path test.mp4 --instruct "Describe this video."

如果输出视频描述，安装就成功了。

Función Flujo de operaciones

HumanOmni 的核心是分析视频和音频。以下是主要功能的详细操作。

1. 情感识别

mover
准备一个含人物的视频（比如 sample.mp4).
Ejecutar comando:

python inference.py --modal video_audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Which emotion is most obvious?"

模型会输出情绪，比如 “angry” 或 “happy”。
tenga en cuenta
视频要清晰，人物表情和声音需可辨识。
长视频可能需要更多计算时间。

2. 面部表情描述

mover
输入视频，运行：

python inference.py --modal video --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "What’s the major facial expression?"

输出可能是 “smile” 或 “frown”，带简单描述。
建议
用 10-30 秒的短视频测试效果更好。

3. 动作理解

mover
输入视频，运行：

python inference.py --modal video --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Describe the major action in detail."

输出动作描述，比如 “a person is walking”。
技巧
确保动作明显，避免背景杂乱。

4. 语音处理

mover
输入含音频的视频，运行：

python inference.py --modal audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "What did the person say?"

输出语音内容，比如 “Dogs are sitting by the door”。
tenga en cuenta
音频要清楚，无杂音效果最佳。

5. 多模态融合

mover
输入视频和音频，运行：

python inference.py --modal video_audio --model_path ./HumanOmni_7B --video_path sample.mp4 --instruct "Describe this video."

模型会结合画面和声音，给出完整描述。
vanguardia
能捕捉情绪和动作的关联，分析更全面。

6. 自定义数据集训练

mover
准备 JSON 格式的数据文件，包含视频路径和指令对话。比如：

[
{
"video": "path/to/video.mp4",
"conversations": [
{"from": "human", "value": "What’s the emotion?"},
{"from": "gpt", "value": "sad"}
]
}
]

descargando HumanOmni-7B-Video responder cantando HumanOmni-7B-Audio 权重。
运行训练脚本：

bash scripts/train/finetune_humanomni.sh

utilice
可以用自己的视频数据优化模型。

Preguntas frecuentes

运行报错：检查 Python 和 PyTorch 版本是否匹配。
模型加载失败：确认路径正确，磁盘空间够用（模型约 10GB）。
结果不准：换清晰的视频或调整指令表述。

通过这些步骤，用户可以轻松安装和使用 HumanOmni，体验它的强大功能。

escenario de aplicación

教育研究
分析课堂视频，识别学生的情绪和参与度，帮助老师调整教学方式。
医疗辅助
通过患者表情和语调，辅助医生判断心理状态，比如焦虑或抑郁。
影视制作
分析角色情感和动作，生成字幕或剧情描述，提升创作效率。
社交分析
用于会议视频，理解参与者的情绪和行为，优化沟通效果。

CONTROL DE CALIDAD

支持哪些文件格式？
支持 MP4 格式，音频需嵌入视频中。
¿Necesito trabajar en red?
不需要。下载代码和模型后可离线使用。
模型性能如何？
在情感理解上，HumanOmni 的 DFEW 数据 UAR 达 74.86%，远超 GPT4-O 的 50.57%。动作理解平均得分 72.6，高于 Qwen2-VL-7B 的 67.7。
普通人能用吗？
需要基础编程能力。如果不懂代码，建议请技术人员帮忙。