딥리서처: 복잡한 문제를 연구하는 강화 학습 기반 구동 AI

554 0

일반 소개

DeepResearcher 是由上海交通大学 GAIR-NLP 团队开发的开源项目。它是一个基于大型语言模型（LLM）的智能研究工具，通过强化学习（RL）在真实网络环境中进行端到端训练。项目旨在帮助用户高效完成复杂研究任务。它能自动搜索信息、验证数据准确性，并生成详细结果。DeepResearcher 支持 7B 参数模型，已在 Hugging Face 上开源。用户可通过 GitHub 获取代码，适合研究人员、学生和技术爱好者使用。

기능 목록

自动化研究：输入问题后，自动搜索网络并整理相关信息。
跨来源验证：从多个来源（如 Google、Bing）检查数据，确保结果可靠。
自我反思调整：根据搜索结果自我评估，调整研究方向以提高准确性。
制定研究计划：在处理复杂问题时，自动生成研究步骤。
保持诚实：无法找到明确答案时，会直接说明局限性。
오픈 소스 모델 지원：提供 7B 参数模型，用户可下载并定制。

도움말 사용

DeepResearcher 的安装和使用需要一定技术基础，但官方文档提供了清晰指引。以下是详细步骤，帮助用户快速上手。

설치 프로세스

克隆代码仓库
在终端运行以下命令，将项目下载到本地：

git clone https://github.com/GAIR-NLP/DeepResearcher.git

프로젝트 카탈로그로 이동합니다:

cd DeepResearcher

가상 환경 만들기
使用 conda 创建独立的 Python 环境，避免依赖冲突：

conda create -n deepresearcher python=3.10

환경을 활성화합니다:

conda activate deepresearcher

핵심 종속성 설치
在项目根目录依次运行以下命令，安装 PyTorch 和其他必要库：

pip3 install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu124
pip3 install flash-attn --no-build-isolation
cd verl
pip3 install -e .
cd ../
pip3 install -r requirements.txt

这些步骤确保模型运行所需的基础环境就位。

설치 확인
输入以下命令检查 PyTorch 是否正常安装：

python -c "import torch; print(torch.__version__)"

如果显示版本号（如 2.4.0），说明安装成功。

配置与启动

DeepResearcher 使用 Ray 框架进行训练和推理，还需要配置搜索服务。下面是具体操作。

启动 Ray 服务

设置节点排名
在终端输入以下命令，设置节点编号（即使只有一台机器也需设置）：

export PET_NODE_RANK=0
ray start --head

配置搜索服务

쇼(티켓) ./scrl/handler/config.yaml，修改搜索 API 密钥：
- 使用 Serper API：填入 serper_api_key.
- 使用 Azure Bing：填入 azure_bing_search_subscription_key 并设置 search_engine 为 Bing。
컴파일러 ./scrl/handler/server_handler.py，添加 Qwen-Plus API 密钥：
```
client = OpenAI(
api_key="sk-xxx",
base_url="xxxx"
)
```

启动服务处理器
터미널에서 실행됩니다:

python ./scrl/handler/server_handler.py

服务启动后，记录服务地址，更新 ./scrl/handler/config.yaml 정곡을 찌르세요 server_url_list.

运行主处理器
在训练主机上运行：

python ./scrl/handler/handler.py

训练模型

执行训练脚本
프로젝트 루트 디렉토리에서 실행합니다:

bash train_grpo.sh

训练过程会基于强化学习优化模型，需耐心等待。

使用与推理

生成研究结果
평가 스크립트를 실행합니다:

bash evaluate.sh

输出文件会保存在 ./outputs/{project_name}/{experiment_name}/rollout/rollout_step_0.json.

결과 보기
将输出文件重命名为 {experiment_name}_result.json，移至 ./evaluate/ 文件夹，然后运行：

python ./evaluate/cacluate_metrics.py {experiment_name}

得分会保存在 ./evaluate/{experiment_name}_score.json.

주요 기능 작동

自动化研究与跨来源验证
用户输入问题后，DeepResearcher 会通过配置的搜索引擎（如 Google、Bing）收集数据，并交叉验证结果。日志文件 ./outputs/research_log.txt 会记录验证过程。
自我反思调整
如果初始结果不理想，系统会自动调整关键词或搜索策略。例如，输入“AI 在医疗的应用”可能变为“AI 医疗最新技术”，结果会更精准。
保持诚实
当问题无明确答案时，它会返回类似“当前信息不足以给出确切结论”的提示，而不是胡乱猜测。