ReAct: 대규모 언어 모델에서 함께 작동하는 추론과 행동

AI 기술 자료11개월 전 업데이트 Sharenet.ai
1.8K 0
吐司AI

원본: https://arxiv.org/pdf/2210.03629.pdf

리액트를 읽고도 어떻게 작동하고 적용되는지 이해가 안 되시나요? 그렇다면ReAct 구현 로직 실습'를 실제 사례와 함께 살펴보세요.

 

초록

 

대규모 언어 모델(LLM)은 언어 이해와 대화형 의사 결정 작업에서 인상적인 성능을 보여 왔지만, 추론 능력(예: 사고 사슬 단서)과 행동 능력(예: 행동 계획 생성)은 주로 별도의 주제로 연구되어 왔습니다. 이 논문에서는 추론 궤적과 작업별 액션을 인터리브 방식으로 생성하기 위해 LLM을 사용하여 둘 사이의 시너지 효과를 높이는 방법을 살펴봅니다. 추론 궤적은 모델이 실행 계획을 일반화, 추적 및 업데이트하고 예외를 처리하는 데 도움이 되며, 액션은 외부 소스(예: 지식 기반 또는 환경)와 상호 작용하고 추가 정보를 수집할 수 있도록 해줍니다. 제안된 방법 ReAct는 다양한 언어 및 의사 결정 작업에 적용되어 인간의 해석 가능성과 신뢰성을 향상시킬 뿐만 아니라 최첨단 기준에서 그 효과가 입증되었습니다. 특히, 질문 답변(HotpotQA)과 사실 확인(Fever)에서 ReAct는 간단한 Wikipedia API와 상호 작용하여 추론 궤적이 없는 기준선보다 해석하기 쉬운 인간과 유사한 작업 해결 궤적을 생성함으로써 연쇄 추론에 만연한 착각과 오류 전파 문제를 극복합니다. 또한, 두 가지 대화형 의사 결정 벤치마크(ALFWorld 및 WebShop)에서 ReAct는 각각 34%와 10%의 절대 성공률로 모방 및 강화 학습 접근법을 능가하는 성능을 보였으며 한두 개의 문맥적 예시만 필요했습니다.

 

 

1 소개

 

인간 지능의 독특한 특징은 과제 지향적 행동과 언어적 추론을 원활하게 결합하는 능력으로, 이는 인간의 인지에 중요한 역할을 하며 자기 조절이나 전략 수립은 물론 작업 기억 유지에 기여하는 것으로 여겨집니다. 주방에서 요리를 하는 경우를 예로 들면, 두 가지 구체적인 행동 사이에 언어적 추론을 사용하여 진행 상황을 추적하고("이제 다 다졌으니 물 냄비를 데워야겠어"), 이상 징후에 대처하거나 상황에 따라 계획을 조정하고("소금이 없으니 간장과 후추를 사용하자. 대신"), 외부 정보가 필요한 경우("반죽은 어떻게 준비할까요? 인터넷 검색을 해볼게요"). 또한 추론을 뒷받침하고 질문에 답하기 위해 행동(레시피 책을 열어 레시피를 읽고, 냉장고를 열어 재료를 확인)을 취할 수도 있습니다("지금 당장 무엇을 요리할 수 있을까?"). 이런 종류의 '행동'은 우리에게 문제가 되지 않습니다. '행동'과 '추론'의 긴밀한 시너지 덕분에 인간은 새로운 작업을 빠르게 학습하고 이전에 접해보지 못한 환경이나 불확실한 정보에 직면했을 때 강력한 의사 결정이나 추론을 내릴 수 있습니다.

 

최근의 연구 결과는 자율 시스템에서 언어적 추론과 대화형 의사 결정을 결합할 수 있는 가능성을 암시합니다. 한편으로 적절하게 안내된 대규모 언어 모델(LLM)은 산술, 상식 및 상징적 추론 작업에서 여러 단계의 추론을 수행할 수 있는 능력을 보여주었습니다. 그러나 이러한 '연쇄적 사고' 추론은 모델이 내부 표현을 사용하여 사고를 생성하고 외부 세계에 기반하지 않는 정적 블랙박스로, 반응적으로 추론하거나 지식을 업데이트하는 능력이 제한됩니다. 이는 추론 과정에서 사실 착각과 오류 전파로 이어질 수 있습니다(그림 1(1b)). 반면, 최근의 연구에서는 언어적 선행을 통한 행동 예측에 중점을 두고 대화형 환경에서 계획과 행동을 위해 사전 학습된 언어 모델을 사용하는 방법을 모색하고 있습니다. 이러한 접근 방식은 일반적으로 멀티모달 관찰 내용을 텍스트로 변환하고 언어 모델을 사용하여 도메인별 작업 또는 계획을 생성한 다음 컨트롤러를 사용하여 이를 선택하거나 실행합니다. 그러나 현재 상태에 대한 공간적 사실을 반복하기 위해 제한된 형태의 언어적 추론을 수행한 Huang 등(2022b)을 제외하고는 높은 수준의 목표에 대해 추상적으로 추론하거나 행동을 지원하기 위해 작업 기억을 유지하기 위해 언어 모델을 사용하지는 않습니다. 이처럼 여러 구성 요소와 상호작용하는 단순한 구현 과제 외에도 추론과 행동이 어떻게 시너지 효과를 발휘하여 일반적인 과제를 해결할 수 있는지, 그리고 이러한 조합이 추론이나 행동 단독에 비해 체계적으로 이점을 제공할 수 있는지에 대한 연구는 없었습니다.

 

ReAct: 大语言模型中推理和行动协同工作

그림 1: (1) (a) 표준 프롬프트, (b) 생각의 사슬(CoT, 추론만), (c) 행동만, (d) ReAct(추론 + 행동)의 네 가지 프롬프트 방식을 비교하여 핫팟QA(양 외, 2018) 문제를 풀기 위한 방법. (2) AlfWorld(Shridhar et al., 2020b) 게임을 풀기 위한 (a) 액션 전용과 (b) ReAct 힌트 접근법의 비교. 두 영역 모두 프롬프트에서 맥락적 예시를 생략하고 모델(행동, 사고)과 환경(관찰)에 의해 생성된 문제 해결 궤적만 표시합니다.

 

이 백서는 다음을 제시합니다.ReAct는 추론과 행동을 언어 모델과 결합하여 다양한 언어적 추론 및 의사 결정 작업을 해결하기 위한 일반화된 패러다임입니다(그림 1). ReAct는 작업 관련 언어 추론 추적과 행동을 교차하는 방식으로 생성하여 모델이 동적 추론을 수행하여 높은 수준의 행동 계획을 생성, 유지 및 조정(추론된 행동)하는 동시에 외부 환경(예: Wikipedia)과 상호 작용하여 다음을 통합할 수 있도록 합니다. 추가 정보를 추론(행동에 의한 추론)에 통합할 수 있습니다.

 

이 백서에서는 퀴즈, 사실 확인, 텍스트 게임, 웹 탐색 등 네 가지 벤치마크에서 ReAct와 최신 기준선을 경험적으로 평가합니다. HotPotQA와 Fever의 경우, ReAct는 모델이 상호 작용할 수 있는 Wikipedia API에 액세스함으로써 일반적인 액션 생성 모델보다 성능이 뛰어나며, 사고 추론(CoT)과도 경쟁력이 있는 것으로 나타났습니다. 전반적으로 가장 좋은 접근 방식은 추론 과정에서 내부 지식과 외부에서 얻은 정보를 모두 사용할 수 있는 ReAct와 CoT를 결합하는 것입니다. ALFWorld와 WebShop에서는 두 개 또는 하나의 ReAct 프롬프트가 10개의3 ∼ 105과제 사례에 대해 훈련된 모방 또는 강화 학습 방법은 각각 34%와 10%의 절대적인 성공률 증가를 가져왔습니다. 의사 결정에서 희소하고 일반화된 추론의 중요성은 행동만 취하는 통제된 기준선에 비해 일관된 이점을 보여줌으로써 입증되었습니다. 추론과 행동의 결합은 일반적인 적용 가능성 및 성과 향상 외에도 인간이 모델의 내부 지식과 외부 환경에서 파생된 정보를 쉽게 구별하고 추론 궤적을 조사하여 모델 행동의 의사 결정 기반을 이해할 수 있기 때문에 모든 영역에서 모델의 해석 가능성, 신뢰성 및 진단 가능성에 기여합니다.

 

주요 기여 사항을 요약하면 다음과 같습니다.

(1) 일반적인 작업을 해결하기 위한 언어 모델링에서 협업적 추론과 행동을 위한 새로운 단서 기반 패러다임인 ReAct를 제안합니다.

(2) 샘플이 적은 학습 환경에서 추론 또는 액션 생성만 사용하는 이전 접근 방식에 비해 ReAct의 장점을 입증하기 위해 다양한 벤치마크에서 광범위한 실험을 수행했습니다.

(3) 추론 과제에서 행동의 중요성과 상호작용 과제에서 추론의 중요성을 이해하기 위해 체계적인 추론과 분석을 제안합니다.

(4) 큐 설정에서 ReAct의 한계(즉, 추론 및 행동에 대한 제한된 지원)를 분석하고 예비 미세 조정 실험을 수행하여 추가 훈련 데이터로 ReAct를 개선할 수 있는 잠재력을 보여줍니다. 추가 작업을 훈련하고 조작하도록 ReAct를 확장하고 강화 학습과 같은 상호 보완적인 패러다임과 결합하면 대규모 언어 모델의 잠재력을 더욱 발휘할 수 있습니다.

 

 

2 REACT: 협업적 추론 + 행동

 

작업을 해결하기 위해 환경과 상호 작용하는 지능형 객체의 일반적인 설정을 생각해 보세요. 시간 단계t켜짐, 에이전트가 환경으로부터 관찰을 수신합니다.ot ∈ O, 그리고 어떤 전략에 따르면π(at|ct) 작업을 수행합니다.at ∈ A, 여기서ct = (o1,a1,--- ,ot-1,at-1,ot)는 상담원의 컨텍스트입니다. 매핑할 때ct →7 at학습 전략이 매우 암시적이고 많은 양의 계산이 필요한 경우 학습 전략이 어려울 수 있습니다. 예를 들어 그림 1(1c)에 표시된 에이전트는 궤적 컨텍스트(질문, 행위 1-3, 관찰 1-3)에 대한 복잡한 추론이 필요하기 때문에 QA 작업을 완료하기 위한 올바른 최종 작업(행위 4)을 생성하지 못합니다. 마찬가지로 그림 1 (2a)에 표시된 에이전트는 싱크대 1에 후추통 1이 포함되어 있지 않다는 문맥을 이해하지 못하여 환각 행동을 계속 생성합니다.

 

ReAct의 개념은 간단합니다. 지능형 신체의 행동 공간을 Aˆ = A ∪ L로 확장하고, 여기서 L은 언어 공간입니다. 언어 공간에서의 동작aˆt ∈ L은 생각 또는 추론의 흔적이라고 할 수 있으며, 외부 환경에 영향을 주지 않으므로 관찰 피드백으로 이어지지 않습니다. 이와는 대조적으로, 생각aˆt현재 컨텍스트를 추론하여 유용한 정보를 구성하는 것을 목표로 합니다.ct를 클릭하고 컨텍스트를 업데이트합니다.ct+1 = (ct,aˆt) 미래의 추론이나 행동을 지원하기 위한 것입니다. 그림 1에서 볼 수 있듯이 작업 목표를 세분화하고 실행 계획을 세우는 것(2b, 행위 1, 1d, 생각 1), 작업 해결과 관련된 상식적인 지식을 주입하는 것(2b, 생각 1), 관찰에서 중요한 부분을 추출하는 것(1d, 생각 2,4), 진행 상황을 추적하고 실행 계획을 옮기는 것(2b, 생각 8), 예외를 처리하고 실행 계획을 조정하는 것( 1d, 생각 3) 등입니다.

 

그러나 언어 공간 L은 무한하기 때문에 이 증강 액션 공간에서의 학습은 어렵고 강력한 언어적 선행이 필요합니다. 이 백서에서는 이러한 환경에서 고정된 대규모 언어 모델 PaLM-540B(Chowdhery et al., 2022)에 초점을 맞춥니다.[1]샘플 수가 적은 맥락적 예시는 과제 해결을 위한 도메인별 행동과 자유 형식의 언어적 사고를 생성하기 위해 큐로 사용되었습니다(그림 1 (1d), (2b)). 각 맥락의 예는 과제 인스턴스를 해결하는 데 사용되는 인간의 행동, 생각, 환경 관찰의 궤적입니다(부록 C 참조). 추론이 가장 중요한 과제(그림 1(1))의 경우 생각과 행동을 번갈아 가며 생성하여 과제 해결 궤적이 여러 생각-행동-관찰 단계로 구성되도록 합니다. 반면, 다수의 행동을 수반할 수 있는 의사 결정 과제(그림 1(2)의 경우, 생각은 궤적의 가장 관련성이 높은 위치에만 드문드문 나타나면 되므로 언어 모델이 생각과 행동의 비동기적 발생을 스스로 결정하도록 합니다.

 

의사 결정 및 추론 기능이 대규모 언어 모델에 통합되어 있기 때문에 ReAct에는 몇 가지 고유한 기능이 있습니다.

A) 직관적이고 쉬운 디자인:인간 주석자는 행동 위에 자신의 생각을 말로 표현하기만 하면 되기 때문에 ReAct 프롬프트를 쉽게 디자인할 수 있습니다. 이 문서에서는 특정 형식 선택, 소리 내어 생각하기 디자인 또는 샘플 선택을 사용하지 않습니다. 각 작업에 대한 프롬프트 디자인은 섹션 3과 4에서 자세히 설명합니다.

B) 범용성과 유연성:유연한 사고 공간과 사고-행동-생성 형식으로 인해 ReAct는 QA, 사실 확인, 텍스트 게임, 웹 탐색 등 다양한 작업 공간과 추론이 필요한 다양한 작업에 적합하며, 이에 국한되지 않습니다.

C) 강력하고 견고한 성능:ReAct는 1~6개의 문맥적 예시에서 학습할 때 강력한 일반화를 보여주며, 여러 영역에서 추론이나 행동만 하는 기준선을 일관되게 뛰어넘습니다. 또한 섹션 3에서 미세 조정을 활성화할 때의 추가적인 이점과 섹션 4에서 선택 큐에 대한 ReAct 성능의 견고함을 보여줍니다.

D) 인간과 일치하고 제어할 수 있습니다:리액트는 인간이 추론과 사실의 정확성을 쉽게 확인할 수 있는 해석 가능한 순차적 의사 결정 및 추론 프로세스를 약속합니다. 또한 섹션 4의 그림 5에서 볼 수 있듯이, 인간은 편집에 대한 사고를 통해 지능적인 신체 행동을 제어하거나 수정할 수도 있습니다.

 

 

3가지 지식 집약적 추론 작업

 

멀티홉 퀴즈와 사실 확인과 같은 지식 집약적인 추론 작업부터 시작합니다. 그림 1 (1d)에서 볼 수 있듯이, Wikipedia API와 상호 작용하여 추론을 지원하는 정보를 검색하고 추론을 사용하여 다음에 검색할 내용을 결정함으로써 추론과 행동의 시너지를 보여줄 수 있는 ReAct가 있습니다.

 

3.1 설정

도메인 지식 검색 및 추론에 어려움을 주는 두 가지 데이터 세트, 즉 (1) 두 개 이상의 Wikipedia 문서에 대한 추론이 필요한 멀티홉 질문-답변 벤치마크인 HotPotQA와 (2) 각 진술에 SUPPORTS, REFUTES 또는 NOT 충분한 정보로 표시되는 사실 확인 벤치마크로, 해당 진술을 검증할 수 있는 위키백과 문서가 존재하는지 여부에 따라 다릅니다. 이 작업에서는 두 작업 모두에서 문제 전용 설정을 사용하여 모델이 문제/문장만 입력으로 받고 뒷받침하는 구절에 액세스할 수 없으며 추론을 지원하기 위해 내부 지식에 의존하거나 외부 환경과 상호 작용하여 지식을 검색해야 합니다.

액션 스페이스 저희는 대화형 정보 검색을 지원하기 위해 세 가지 유형의 연산을 포함하는 간단한 Wikipedia 웹 API를 설계했습니다:

(1) STH를 찾습니다. [엔티티]는 해당 엔티티 위키 페이지가 있는 경우 해당 위키 페이지에서 처음 5개의 문장을 반환하고, 그렇지 않은 경우 위키백과 검색 엔진에서 처음 5개의 유사한 엔티티를 제안합니다.

(2) 찾기 [문자열]을 입력하면 해당 문자열이 포함된 페이지의 다음 문장을 반환하여 브라우저에서 Ctrl+F 함수를 시뮬레이션합니다.

(3) 이행 [답]을 입력해 현재 작업을 완료하세요. 액션 스페이스는 대부분 정확한 단락 이름을 기준으로 단락의 일부만 검색할 수 있어 최첨단 어휘 검색기나 신경망 검색기보다 훨씬 약합니다. 목표는 인간이 Wikipedia와 상호 작용하는 방식을 시뮬레이션하고 모델이 언어의 명시적 추론을 통해 검색하도록 하는 것입니다.

 

3.2 방법론

리액트 프롬프트 핫팟QA와 피버에 적용한 결과, 훈련 세트에서 무작위로 6개와 3개의 사례를 선택하고 프롬프트에서 언더샘플링된 샘플로 사용할 ReAct 형식의 궤적을 수동으로 작성했습니다. 그림 1 (d)와 마찬가지로 각 궤적은 다양한 목적으로 자유 형식의 생각을 사용하는 여러 생각-행동-관찰 단계(즉, 밀도 있는 사고)로 구성됩니다. 구체적으로, 우리는 생각의 조합을 사용하여 문제를 분해하고("x를 검색하고, y를 찾은 다음 z를 찾아야 한다"), Wikipedia 관찰에서 정보를 추출하고("x는 1844년에 시작되었다", "구절은 x에게 x에게 알려줘"), 상식("x는 y가 아니므로 z는 ......")을 수행하거나 또는 산술적 추론("1844 < 1989"), 검색 재구성 지시(""아마도 x를 검색/찾을 수 있을 것 같습니다"), 최종 답변 종합(" "...... 그래서 답은 x입니다"). 자세한 내용은 부록 C를 참조하세요.

 

기준선 우리는 체계적으로 ReAct 궤적을 제거하여 여러 기준선 단서를 구성했습니다(그림 1 (1a-1c) 형식).

(a)표준 프롬프트/표준 프롬프트(표준)으로 설정하여 모든 생각, 행동, 관찰을 ReAct 궤적에서 제거합니다.

(b)생각의 연쇄 프롬프트 / 생각의 연쇄 프롬프트(CoT)는 행동과 관찰을 배제하고 추론의 기준선으로만 사용됩니다. 추론 중에 21개의 CoT 디코딩 온도 0.7의 궤적을 샘플링하고 대부분의 답변을 사용하여 자체 일관된 기준선(CoT-SC)을 설정했으며, 이 기준선은 CoT보다 일관되게 성능이 향상되는 것으로 나타났습니다.

(c)행동 전용 프롬프트(Act) 궤적에서 아이디어를 제거하는 것은 WebGPT가 인터넷과 상호작용하여 질문에 답하는 방식과 거의 유사하지만, 다른 작업 및 행동 공간에서 작동하고 프롬프트 대신 모방 및 강화 학습을 사용한다는 점이 다릅니다.

 

내부 및 외부 지식 결합하기 / 내부 및 외부 지식 결합하기 3.3절에서 자세히 설명하겠지만, 다음과 같이 관찰됩니다.ReAct는 보다 사실적이고 근거에 기반한 문제 해결 과정을 보여준 반면, CoT는 추론 구조를 공식화하는 데 더 정확했지만 환각에 빠지기 쉬웠습니다.따라서 ReAct와 CoT-SC를 병합하고 다음 휴리스틱에 따라 모델이 다른 방법으로 전환할 시점을 결정하도록 제안합니다.

a) ReActCoT-SC주어진 단계 수 내에 ReAct가 답을 반환하지 못하면 CoT-SC로 폴백합니다. 단계가 많을수록 ReAct 성능이 향상되지 않는다는 것을 발견했기 때문에 HotpotQA와 FEVER에 각각 7단계와 5단계를 설정했습니다.

b) CoT-SCReAct:: 언제nCoT-SC 샘플의 대부분의 답은 다음보다 적게 나타납니다.n/2번의 경우(즉, 내부 지식이 작업을 확실하게 지원하지 못할 수 있는 경우) ReAct로 돌아갑니다.

 

미세 조정/미세 조정 추론 궤적과 행동을 대규모로 수동으로 라벨링하는 데 따르는 어려움 때문에, 이 백서에서는 ReAct(다른 기준선에서도 사용됨)에서 생성된 정답이 있는 3000개의 궤적을 사용하여 더 작은 언어 모델(PaLM-8/62B)을 미세 조정하여 입력 질문/문장(모든 것)에 조건화된 궤적을 디코딩하는 Zelikman 외(2022)의 접근 방식과 유사한 자가 지원 방식을 고려합니다. 생각, 행동, 관찰). 자세한 내용은 부록 B.1을 참조하세요.

 

3.3 결과 및 관찰

ReAct가 전반적으로 Act를 능가하는 성능/ ReAct가 지속적으로 Act를 능가하는 성능 표 1은 PaLM-540B를 기본 모델로 사용하고 다양한 큐잉 방법을 사용한 HotpotQA와 Fever의 결과를 보여줍니다. 그림 1(1c-d)에서 볼 수 있듯이 두 작업 모두에서 ReAct가 Act보다 성능이 뛰어나며, 특히 최종 답변을 종합할 때 추론이 행동을 유도하는 데 있어 그 가치를 입증합니다. 미세 조정 결과 3에서도 추론 추적을 통해 더 많은 정보를 바탕으로 조치를 취할 수 있다는 이점을 확인할 수 있습니다.

 

ReAct: 大语言模型中推理和行动协同工作

표 1: HotpotQA 및 Fever에 대한 PaLM-540B 큐잉 결과.

 

ReAct vs. CoT 반면, ReAct는 발열에 대한 CoT(60.9 대 56.3)를 능가하고 핫팟QA에 대한 CoT(27.4 대 29.4)보다 약간 뒤처지는 것으로 나타났습니다. 찬성/반박 열성 발언의 경우 약간의 차이만 있을 수 있으므로(부록 D.1 참조) 정확한 최신 지식을 얻기 위한 조치를 취하는 것이 중요합니다. HotpotQA에서 ReAct와 CoT의 행동 차이를 더 잘 이해하기 위해, 저희는 각각 50개의 궤적에서 정답과 오답(EM 판단)을 무작위로 샘플링하고(총 200개의 예시), 표 2에서 성공 및 실패 패턴에 수동으로 태그를 붙였습니다. 다음은 몇 가지 주요 관찰 결과입니다.

 

ReAct: 大语言模型中推理和行动协同工作

표 2: 인간 연구에서 무작위로 선택한 사례에서 HotpotQA의 ReAct 및 CoT의 성공 및 실패 모드의 유형과 그 비율.

 

A) 환각은 CoT에게 심각한 문제입니다.는 성공 모드에서 ReAct보다 훨씬 높은 오경보율(14% 대 6%)을 보이며, 주요 실패 모드(56%)를 구성합니다. 반면, ReAct의 문제 해결 궤적은 외부 지식 기반에 액세스할 수 있기 때문에 더 관련성이 높고 사실에 기반하며 신뢰할 수 있습니다.

나) 추론, 행동, 관찰 단계가 서로 맞물려 있어 ReAct의 실용성과 신뢰성을 높이는 반면, 이러한 구조적 제약은 추론 단계를 공식화할 때 유연성을 떨어뜨립니다.ReAct에는 모델이 이전 생각과 행동을 재생성하는 특정 빈번한 오류 패턴이 있는데, 이는 모델이 다음 행동에 대해 적절하게 추론하지 못하고 루프에서 벗어나기 때문에 '추론 오류'의 일부로 분류합니다.

C) ReAct의 경우 검색을 통한 정보 지식의 성공적인 검색이 매우 중요합니다.비정보성 검색은 오류 사례의 23%를 차지하여 모델 추론을 방해하고 아이디어를 복구하고 재구성하는 것을 어렵게 만들었습니다. 이는 사실성과 유연성 사이에서 예상되는 상충 관계일 수 있으며, 이에 따라 두 가지 접근 방식을 결합하는 전략을 제안하게 되었습니다.

부록 E.1에 각 성공 및 실패 모드에 대한 예시가 나와 있습니다. 또한 일부 HotpotQA 질문에는 오래된 답변 레이블이 포함되어 있을 수 있음을 발견했습니다(예는 그림 4를 참조하세요).

 

ReAct + CoT-SC는 LLM을 유도하는 데 있어 가장 우수한 성능을 보였습니다.표 1에서 볼 수 있듯이 HotpotQA와 Fever에서 가장 우수한 큐잉 방법은 각각 ReAct → CoT-SC와 CoT-SC → ReAct였습니다. 또한 그림 2는 다양한 수의 CoT-SC 샘플을 사용할 때 다른 방법의 성능을 보여줍니다. 두 가지 ReAct + CoT-SC 방법은 각각의 작업에서 장점이 있지만, 다양한 샘플 수에 걸쳐 3~5개의 샘플만 사용해도 CoT-SC보다 유의미하고 일관되게 우수한 성능을 보였으며, 이는 모델 내부 지식과 추론 작업 외부 지식을 적절히 결합하는 것이 얼마나 중요한지 보여주는 결과입니다.

 

ReAct: 大语言模型中推理和行动协同工作

그림 2: 사용된 CoT-SC 샘플 수에 따라 표시되는 PaLM-540B 프롬프트 결과.

 

ReAct는 미세 조정 측면에서 최적의 성능을 발휘합니다.그림 3은 네 가지 방법(표준, CoT, Act, ReAct)에 대한 큐잉/미세 조정의 확장된 효과가 HotpotQA에 미치는 영향을 보여줍니다. PaLM-8/62B에서는 시나리오에서 추론하고 행동하는 학습의 어려움으로 인해 ReAct에 대한 프롬프트가 네 가지 방법 중 가장 낮은 성능을 보였습니다. 그러나 3,000개의 예제만으로 미세 조정했을 때 ReAct는 네 가지 방법 중 가장 우수한 성능을 보였으며, PaLM-8B로 미세 조정된 ReAct는 모든 PaLM-62B 프롬프트 방법보다, PaLM-62B로 미세 조정된 ReAct는 모든 540B 프롬프트 방법보다 우수한 성능을 보였습니다. 반면, PaLM8/62B에서 전자는 주로 모델에 (가상의) 지식 사실을 암기하도록 가르치고, 후자는 모델에 보다 일반적인 지식 추론 기술인 Wikipedia에서 정보를 얻는 방법을 (추론하고) 행동하는 방법을 가르치기 때문에 표준 또는 CoT를 미세 조정하는 것이 ReAct 또는 Act를 미세 조정하는 것보다 훨씬 더 나쁜 성능을 보였습니다. 모든 프롬프트 방식은 여전히 도메인별 최신 기술(표 1)에 크게 미치지 못하므로, 사람이 직접 작성한 데이터를 더 많이 사용하여 미세 조정하는 것이 ReAct의 기능을 발휘하는 더 좋은 방법일 수 있습니다.

 

ReAct: 大语言模型中推理和行动协同工作

그림 3: ReAct(당사 방법)와 기준선을 사용하여 큐잉 및 HotPotQA 미세 조정을 위한 확장된 결과.

 

 

4 의사 결정 작업

 

또한 두 가지 대화형 언어 기반 의사 결정 과제인 ALFWorld와 WebShop에서 ReAct를 테스트했는데, 두 과제 모두 보상이 희박하고 오랜 시간 동안 지능이 행동을 취해야 하는 복잡한 환경으로, 지능이 행동을 취하고 탐색하기 위해 효과적으로 추론해야 하는 과제입니다.

ALFWorld ALFWorld(그림 1(2))는 구현된 ALFRED 벤치마크와 일치하도록 설계된 합성 텍스트 기반 게임입니다. 이 게임은 텍스트 동작(예: 커피 테이블로 이동1 , 파일 집기2 , 책상 램프 사용1 )을 탐색하고 시뮬레이션된 가족과 상호 작용하여 높은 수준의 목표(예: 책상 램프 아래 파일 확인)를 달성하기 위해 지능이 필요한 6가지 유형의 작업으로 구성되어 있습니다. 작업 인스턴스에는 50개 이상의 위치가 있을 수 있으며, 이를 해결하기 위해 50단계 이상의 전문가 전략이 필요하므로 지능이 하위 목표를 계획하고 추적하는 것은 물론 체계적으로 탐색(예: 책상 램프를 찾기 위해 모든 테이블을 하나씩 확인)하도록 도전합니다. 특히 ALFWorld에 내장된 과제 중 하나는 일반적인 가정용품의 위치를 파악해야 하는 것(예: 테이블 램프가 테이블, 선반 또는 서랍장에 있을 가능성이 높음)으로, 이 설정은 LLM이 사전 학습된 상식 지식을 활용하기에 이상적입니다. ReAct에 힌트를 주기 위해 각 작업 유형에 대해 훈련 세트에 (1) 목표 분해, (2) 하위 목표 완료 추적, (3) 다음 하위 목표 결정, (4) 상식적인 추론을 통해 물체의 위치와 물체로 할 일 찾기라는 세 가지 궤적을 무작위로 주석으로 달았습니다. 부록 C.4에 ALFWorld에 사용된 힌트가 나와 있습니다. Shridhar 등의 접근 방식에 따라 특정 과제 환경에서 134개의 보이지 않는 평가 게임을 평가했습니다. 견고성을 위해 주석이 달린 3개의 궤적 각각을 순열하여 각 과제 유형에 대해 6개의 단서를 구성했으며, Act 단서는 동일한 궤적을 사용했지만 아이디어 없이 구성했습니다. 과제 인스턴스가 훈련 세트에서 무작위로 선택되었으므로 ReAct나 Act에 편향되지 않았습니다. Act로 편향되지 않았기 때문에 희박한 아이디어의 중요성을 테스트하기 위한 공정하고 통제된 비교를 제공합니다. 기준으로는 각 작업 유형에 대해 105개의 전문가 궤적으로 훈련된 모방 학습 인텔리전스인 BUTLER를 사용했습니다.

 

웹샵 ReAct가 노이즈가 많은 실제 언어 환경과도 상호 작용하여 실제 적용이 가능할까요? 저희는 최근 제안된 온라인 쇼핑 웹사이트 환경인 WebShop에 118만 개의 실제 제품과 12,000개의 인간 지침이 포함된 환경을 연구했습니다. ALFWorld와 달리 웹샵에는 대량의 정형 및 비정형 텍스트(예: 아마존에서 크롤링한 제품 제목, 설명, 옵션)가 포함되어 있으며, 사용자 명령(예: "서랍이 있는 협탁을 찾고 있어요.")에 따라 지능이 상호 작용하도록 요청합니다. 니켈 마감으로 140달러 미만이어야 합니다.") 웹 상호작용(예: '나이트스탠드 서랍'을 검색하고 '색상: 모던 니켈 화이트' 또는 '다음으로 돌아가기' 등의 버튼을 선택해 검색", "색상: 모던 니켈 화이트" 또는 "뒤로" 등의 버튼을 선택하여 제품을 구매하는 경우). 이 작업은 500개의 테스트 지침에 대해 평균 점수(선택한 제품에 포함된 필수 속성의 비율, 전체 에피소드의 평균)와 성공률(선택한 제품이 모든 요구 사항을 충족한 에피소드의 비율)로 평가되었습니다. 검색, 제품 선택, 옵션 선택 및 구매를 위한 작업을 포함하는 Act 프롬프트를 개발했으며, ReAct 프롬프트는 추가적으로 추론하여 탐색할 내용, 구매 시기 및 지침과 관련된 제품 옵션을 결정합니다. 예시 프롬프트는 표 6을, 모델 예측은 부록의 표 10을 참조하세요. 이를 1012개의 개인 주석이 달린 궤적으로 훈련된 모방 학습 접근 방식과 10587개의 훈련 지침으로 훈련된 추가 모방 + 강화 학습 접근 방식(IL + RL)과 비교합니다.

 

결국 ReAct는 ALFWorld(표 3) 및 웹샵(표 4) 플랫폼 모두에서 Act보다 성능이 뛰어나며, ALFWorld에서 최고 성능의 ReAct 실험은 평균 성공률 711 TP3T를 달성하여 최고의 Act(451 TP3T) 및 BUTLER(371 TP3T) 실험을 크게 뛰어넘는 결과를 얻었습니다. 실제로 가장 성능이 좋지 않은 ReAct 실험(481 TP3T)도 두 방법의 최고 실험을 능가했습니다. 또한, Act에 비해 ReAct의 우위는 6개의 대조 실험에서 지속되었으며, 상대적 성능 향상 폭은 331 TP3T에서 901 TP3T, 평균 621 TP3T에 달했습니다. 질적 관점에서 보면 Act는 목표를 더 작은 하위 목표로 정확하게 세분화하지 못하거나 전혀 생각이 없는 상태에서 환경의 현재 상태를 추적하지 못한다는 것을 알 수 있었습니다. ReAct와 Act를 비교한 궤적의 예는 부록 D.2.1과 부록 D.2.2에서 확인할 수 있습니다.

 

ReAct: 大语言模型中推理和行动协同工作

표 3: AlfWorld 작업별 성공률(%). 빔 검색을 사용하는 BUTLER를 제외한 모든 방법은 그리디 디코딩을 사용하지만, BUTLER 및 BUTLERg의 결과는 Shridhar 외. 2020b 표 4.

 

ReAct: 大语言模型中推理和行动协同工作

표 4: 웹샵의 점수 및 성공률(SR). IL/IL+RL 데이터는 Yao 외. (2022)에서 가져온 것입니다.

 

웹샵에서 일회성 액트 힌트는 IL 및 IL+RL 방식과 함께 사용할 수 있게 되었습니다. 희소 추론을 추가하면 ReAct는 이전 최고 성공률보다 10%의 절대적인 개선으로 훨씬 더 나은 성능을 달성할 수 있습니다. 예를 살펴본 결과, ReAct는 명령과 관련된 제품 및 옵션을 식별하는 추론을 통해 노이즈가 많은 관찰과 행동 사이의 간극을 메울 가능성이 더 높은 것으로 나타났습니다(예: "'공간 절약형 거실 발판 스툴'의 경우, 항목의 크기는 '. 39x18x18인치'와 '파란색' 옵션이 있어 구매 가치가 있어 보인다.") . 그러나 기존 방식은 훨씬 더 많은 제품 탐색과 쿼리 재구성을 수행하는 전문 인력(표 4)에 비해 여전히 성능이 훨씬 떨어지며, 이는 큐 기반 방식이 해결해야 할 과제로 남아 있습니다.

 

내부 추론과 외부 피드백의 가치에 대하여 우리가 아는 한, 대화형 환경에서 추론과 행동을 결합한 폐쇄 루프 시스템에 적용된 LLM의 첫 번째 데모는 ReAct입니다. 아마도 가장 근접한 선행 연구는 Huang 등(2022b)의 내부 독백(IM)으로, 구현된 에이전트의 행동이 시조인 '내부 독백'에 의해 주도됩니다.그러나 IM의 '내부 독백'은 환경의 상태와 목표를 달성하기 위해 에이전트가 수행해야 하는 작업에 대한 관찰로 제한됩니다.반면, ReAct의 의사 결정 추론 추적은 유연하고 드물기 때문에 작업마다 다양한 추론 유형을 유도할 수 있습니다(섹션 2 참조).

ReAct와 IM의 차이를 입증하고 외부 피드백에 대한 단순한 반응보다 내적 추론의 중요성을 강조하기 위해, IM 스타일의 밀도 높은 외부 피드백으로 구성된 사고 패턴을 사용하여 제거 실험을 실시했습니다. 표 3에서 볼 수 있듯이 ReAct는 전체 성공률에서 71% 대 53%로 IM 스타일의 프롬프트(ReAct-IM)를 크게 앞섰으며, 6개 과제 중 5개 과제에서 일관된 우위를 보였습니다. 질적으로 보면, ReAct-IM은 높은 수준의 목표 세분화가 부족하여 하위 목표가 언제 완료되었는지 또는 다음 하위 목표가 무엇인지 판단하는 데 자주 오류가 발생하는 것으로 나타났습니다. 또한, 많은 ReAct-IM 궤적은 상식적인 추론이 부족하여 ALFWorld 환경에서 항목이 어디에 위치할 수 있는지 판단하는 데 어려움을 겪었습니다.
이 두 가지 단점은 모두 ReAct 패러다임에서 해결할 수 있습니다. ReAct-IM에 대한 자세한 내용은 부록 B.2에서 확인할 수 있으며, ReAct-IM에 대한 예제 힌트는 부록 C.4에서, 예제 궤적은 부록 D.2.3에서 확인할 수 있습니다.

 

 

 5 관련 작업

 

추론의 언어적 모델 대규모 언어 모델(LLM)을 이용한 추론에 관한 가장 잘 알려진 연구는 아마도 LLM이 문제를 해결하기 위해 자신만의 '사고 과정'을 공식화할 수 있는 능력을 밝혀낸 생각의 연쇄(CoT)일 것입니다. 이후 복잡한 작업에 대한 최소한의 프롬프트, 제로 샷 CoT, 자기 일관성 추론 등 여러 후속 연구가 수행되었습니다. 최근에는 (Madaan & Yazdanbakhsh, 2022)에서 CoT의 구성과 구조를 체계적으로 조사하여 기호, 스키마 및 텍스트의 존재가 CoT의 효과에 중요하다는 것을 관찰했습니다.
다른 작업은 단순한 힌트를 넘어 더 복잡한 추론 아키텍처로 확장되었습니다. 예를 들어, 선택-추론은 추론 프로세스를 '선택'과 '추론' 단계로 나누고, STaR은 모델 자체에서 생성된 올바른 추론을 기반으로 모델을 미세 조정하여 추론 프로세스를 안내합니다. 추론 프로세스. 충실한 추론은 다단계 추론을 세 단계로 분해하고 각 단계는 전용 LM에 의해 실행됩니다. 스크래치패드와 같은 유사한 접근 방식도 중간 계산 단계에서 LM을 미세 조정하여 다단계 계산 문제를 개선하는 방법을 보여줍니다.
이러한 접근 방식과 달리 ReAct는 고립되고 고정된 추론 그 이상을 수행하며 모델 작업과 해당 관찰을 일관된 입력 스트림으로 통합하여 모델이 더 정확하게 추론하고 추론 이상의 작업(예: 대화형 의사 결정)을 해결할 수 있도록 합니다.

 

의사 결정에 언어 모델 사용 강력한 LLM의 기능 덕분에 언어 생성 이상의 작업을 수행할 수 있으며, 특히 대화형 환경에서 의사 결정을 위한 전략 모델로 LLM을 활용하는 것이 점점 인기를 얻고 있습니다.WebGPT는 웹 브라우저와 상호 작용하고 웹 페이지를 탐색하며 ELI5 에서 복잡한 질문에 대한 답을 추론하기 위해 LLM을 사용합니다. 이와는 대조적으로 WebGPT는 사고와 추론 과정을 명시적으로 모델링하지 않고 강화 학습을 위해 값비싼 사람의 피드백에 의존합니다. 대화 모델링에서는 BlenderBot 및 Sparrow와 같은 시스템과 SimpleTOD와 같은 작업 지향 대화 시스템도 LM이 API 호출에 대한 결정을 내릴 수 있도록 학습시킵니다. ReAct와 달리 이러한 시스템은 추론 과정을 명시적으로 고려하지 않으며 정책 학습을 위해 값비싼 데이터 세트와 사람의 피드백 세트에 의존합니다. 반면, ReAct는 의사 결정 과정에 추론 과정을 설명하는 언어만 필요하기 때문에 더 저렴한 방식으로 정책을 학습합니다.

 

언어 모델(LLM)은 대화형 및 구현형 환경에서의 계획 및 의사 결정에도 점점 더 많이 적용되고 있습니다. 이와 관련하여 ReAct와 가장 관련성이 높은 것은 아마도 SayCan과내면의 독백SayCan에서는 LLM이 로봇의 가능한 동작을 직접 예측하라는 메시지를 표시한 다음 시각 환경 기반 가용성 모델에 의해 순서를 다시 지정하여 최종 예측을 수행합니다. SayCan에서 LLM은 로봇이 취할 수 있는 동작을 직접 예측하라는 메시지를 받은 다음 시각 환경 기반 가용성 모델에 의해 순서가 변경되어 최종 예측을 수행하며, 환경으로부터 주입된 피드백으로 구현되는 유명한 "내부 독백"이 추가되어 더욱 개선되었습니다. 환경으로부터의 피드백. 우리가 알기로는 이너 모놀로그가 이러한 폐쇄 루프 시스템을 구현한 최초의 작품이며, 리액트는 이를 기반으로 합니다. 그러나 이너 모놀로그에는 실제로 내적 사고가 포함되어 있지 않다고 주장하며, 이에 대해서는 섹션 4에 자세히 설명되어 있습니다. 또한 대화형 의사결정 과정에서 의미론적으로 풍부한 입력으로 언어를 사용하는 것이 다른 환경에서도 성공적으로 입증되었다는 점에 주목합니다. LLM을 사용하면 언어가 근본적인 인지 메커니즘으로서 상호작용과 의사 결정에 핵심적인 역할을 할 것이라는 사실이 점점 더 분명해지고 있습니다. 또한 LLM의 발전은 Reed 등과 같은 다목적 범용 에이전트의 개발에 영감을 주었습니다.

 

 

6 결론

 

대규모 언어 모델에서 추론과 행동을 조율하는 간단하면서도 효과적인 방법인 ReAct를 소개합니다. 멀티홉 질문 답변, 사실 확인, 대화형 의사 결정 작업에 대한 다양한 실험을 통해 ReAct가 파싱 가능한 의사 결정 경로를 통해 우수한 성능을 이끌어낸다는 것을 보여줍니다. 접근 방식의 단순성에도 불구하고 대규모 작업 공간에서 복잡한 작업을 제대로 학습하려면 더 많은 예제가 필요하며, 이는 문맥 학습에서 입력 길이 제한을 쉽게 초과할 수 있습니다. HotpotQA에서 미세 조정된 접근 방식을 시도해 본 초기 결과는 고무적이지만, 더 많은 고품질의 인간 주석으로 학습하면 성능이 더욱 향상될 것으로 예상됩니다. 강화 학습과 같은 상호 보완적인 패러다임과 결합하여 ReAct를 다중 작업 훈련에서 확장할 수 있게 되면 더 많은 애플리케이션에서 LLM의 잠재력을 발휘하는 더욱 강력한 에이전트가 탄생할 수 있습니다.

 

 

추가 결론

 

A.1 GPT-3 실험

ReAct: 大语言模型中推理和行动协同工作

표 5: PaLM-540B와 GPT-3(텍스트-다빈치-002, 욕심 디코딩)을 사용한 ReAct 프롬프트의 결과 비교. HotpotQA에서는 500개의 검증 질문의 하위 집합을 무작위로 선택했습니다. ALFWorld에서는 PaLM-540B에 따라 선택된 최상의 힌트 세트와 함께 134개의 보이지 않는 검증 작업의 모든 인스턴스를 사용했습니다.

다양한 대규모 언어 모델에서 ReAct 단서 성능의 일반성을 확인하기 위해 추가 GPT-3(Brown et al., 2020) 실험을 수행했습니다. 표 5에서 볼 수 있듯이, GPT-3(텍스트 다빈치-002, 욕심 디코딩)는 사람의 지시를 따르도록 미세 조정되었기 때문에 HotpotQA 및 ALFWorld에서 PaLM-540B보다 일관되게 우수한 성능을 보였습니다. 이는 ReAct 큐가 다양한 대규모 언어 모델에 대해 서로 다른 작업에 효과적이라는 것을 시사합니다. 이 실험의 코드는 https://react-lm.github.io/ 에서 확인할 수 있습니다.

 

A.2 핫팟QA에 대한 최신 지식을 얻기 위한 리액트

ReAct: 大语言模型中推理和行动协同工作

그림 4: 원본 레이블이 오래된 핫팟 퀴즈 문제의 또 다른 예입니다. 리액트만이 추론과 함께 실제 웹 상호 작용을 통해 가장 최신의 답을 얻을 수 있었습니다.

 

A.3 ALFWorld의 사이클에 대한 인간의 참여에 대한 행동 수정

또한 인간이 ReAct의 추론 흔적을 검사하고 편집할 수 있는 인간 참여 루프 상호작용도 살펴봤습니다. 그림 5는 17막에서 환각적인 문장을 제거하고 23막에서 몇 가지 단서를 추가하는 것만으로 ReAct의 동작을 크게 변경하고 이러한 인간의 사고 편집에 맞춰 작업을 성공적으로 완료하도록 만들 수 있음을 보여줍니다. 인간의 입장에서는 수십 개의 동작을 입력하는 것에서 몇 가지 생각만 편집하는 것으로 작업을 훨씬 쉽게 해결할 수 있어 새로운 유형의 인간과 기계의 협업이 가능해집니다. 인간은 모델 매개변수를 변경할 수 없고 몇 가지 액션을 변경해도 모델의 나머지 동작이 편집되지 않을 수 있기 때문에 Act 및 이전 RL 접근 방식에서는 이러한 전략 편집이 어렵다는 점에 유의하세요. 이 패러다임은 또한 Huang 외(2022b)에서 설명한 것처럼 목표나 하위 목표를 업데이트하기 위해 인간의 대화를 넘어서는데, ReAct 아이디어를 편집하면 이 모든 작업을 수행할 수 있을 뿐만 아니라 모델의 내부 신념, 추론 스타일 또는 유연한 사고 공간 지원을 수정하여 작업을 더 잘 해결할 수 있습니다. 이는 인간 정렬을 위한 흥미로운 방향이며, 보다 체계적인 연구가 향후 과제로 남아있습니다.

 

ReAct: 大语言模型中推理和行动协同工作

그림 5: AlfWorld에서 ReAct를 사용한 HCI 행동 교정의 예시. (a) 환각적 사고(행동 17)로 인해 ReAct 궤적이 실패합니다. (b) 인간이 두 개의 마음(행동 17, 23)을 간단히 편집함으로써 ReAct 궤적은 원하는 추론 궤적과 행동을 성공적으로 생성합니다.

 

 

B 실험 세부 정보

 

B.1 인기 주제 퀴즈 세부 사항 조정하기

모든 미세 조정에는 64개의 배치 크기를 사용합니다. PaLM-8B에서는 ReAct 및 Act 메서드에 대해 4,000단계의 미세 조정을, 표준 및 CoT 메서드에 대해 2,000단계의 미세 조정을 수행합니다. PaLM-62B에서는 ReAct 및 Act 방법을 4,000스텝, 표준 및 CoT 방법을 1,000스텝 미세 조정했습니다. ReAct 및 Act 방법은 일반적으로 더 많은 훈련 단계(및 더 많은 훈련 데이터)에서 이점이 있는 반면, 표준 및 CoT 방법은 미세 조정 직후부터 성능이 저하되기 시작합니다.

 

B.2 ALFWORLD 인스턴트 스타일 세부 정보

즉각적인 스타일 제거 실험을 위해 ReAct에 사용된 것과 동일한 전문가 궤적을 다시 주석으로 달았는데, 이 궤적에는 내부적으로 (1) 현재 목표의 분해와 (2) 완료해야 할 현재 하위 목표만 고려하도록 ReAct-IM을 제한하는 외부 피드백 사고가 밀도 있게 포함되어 있었습니다. 구체적으로 ReAct-IM에는 (1) 하위 목표의 완료 시점을 결정하는 사고 (2) 다음 하위 목표가 무엇인지 결정하는 사고 (3) 환경 내 항목의 가능한 위치를 식별하기 위해 LLM이 내부적으로 사전 학습된 지식을 참조하도록 유도하는 사고가 부족합니다.

 

 

C 프롬프트

 

C.1 인기 주제 퀴즈

인기 Q&A 팁

원본
질문답변
콜로라도 오로겐의 동쪽 구역이 확장되는 지역의 고도 범위는 얼마입니까?1,800~7,000피트
음악가이자 풍자 작가인 앨리 고어츠는 "심슨 가족"에 관한 노래를 만들었습니다. 캐릭터 맷 그로닝은 닉슨의 이름을 따서 누구의 이름을 지었나요?리처드 닉슨
핀란드 록 그룹, 아담 클레이튼 파월 또는 사이마 제스처에 관한 다큐멘터리는 무엇인가요?사이마 제스처
니콜라스 레이와 엘리아 카잔의 직업은 어떤 공통점이 있나요?감독, 시나리오 작가, 배우
아서스 매거진과 퍼스트 포 우먼 중 어느 잡지가 먼저 창간되었나요?아서 매거진
파벨 유리손과 레오니드 레빈은 같은 유형의 작업으로 유명하나요?

 

원본
이슈솔루션
콜로라도 오로니아의 동쪽 확장 지점의 고도 범위는 어떻게 되나요?1,800~7,000피트
음악가이자 풍자 작가인 앨리 고어츠가 심슨 가족 캐릭터인 밀하우스에 대한 노래를 작곡한 맷 그로닝은 어느 닉슨 대통령의 이름을 딴 인물인가요?리처드 닉슨.
핀란드 록 밴드 아담 클레이튼 파월과 사이마에 관한 다큐멘터리는 무엇인가요?사이마 작전
니콜라스 레이와 엘리아 카잔의 공통점은 무엇인가요?감독, 시나리오 작가, 배우
아서스 매거진과 퍼스트 포 우먼 중 어느 잡지가 더 먼저 창간되었나요?아서 매거진
파벨 우리존과 레오니드 레빈은 같은 유형의 작업으로 유명하나요?be

 

Act
질문액션관찰
콜로라도 오로겐의 동쪽 구역이 확장되는 지역의 고도 범위는 얼마입니까?콜로라도 오로겐] 검색콜로라도 오로겐은 콜로라도와 그 주변 지역에서 산이 형성된 사건(오로겐)입니다.
조회 [동부 섹터](결과 1 / i) 동쪽 구역은 고원 지대로 뻗어 있으며 중앙 평원 오로겐이라고 불립니다.
높은 평원] 검색고원지대는 두 개의 뚜렷한 토지 지역 중 하나를 의미합니다.
검색[하이 플레인즈 (미국)]고원지대는 대평원의 하위 지역으로, 동쪽에서 서쪽으로 약 1,800~7,000피트(550~2,130m)의 고도가 상승합니다. [3]
완료[1,800~7,000피트]
음악가이자 풍자 작가인 앨리 고어츠는 "심슨 가족" 캐릭터 밀하우스에 대한 노래를 만들었는데, 맷 그로닝은 누구의 이름을 땄을까요?밀하우스] 검색밀하우스 무솔리니 반 호텐은 파멜라 헤이든이 목소리를 내고 맷 그로닝이 만든 폭스 애니메이션 TV 시리즈 심슨 가족의 반복되는 캐릭터입니다. 파멜라 헤이든이 목소리를 연기하고 맷 그로닝이 제작한 심슨 가족.
조회 [이름](결과 1 / l) 밀하우스는 미국 대통령 리처드 닉슨의 중간 이름이 밀하우스인 이름을 따서 명명되었습니다.
완료[리처드 닉슨]
핀란드 록 그룹, 아담 클레이튼 파월 또는 사이마 제스처에 관한 다큐멘터리는 무엇인가요?아담 클레이튼 파월] 검색하기아담 클레이튼 파월]을 찾을 수 없습니다. 유사 검색어: ['아담 클레이튼 파월 3세', '7번가(맨해튼)', '아담 클레이튼 파월 주니어 주 오피스 빌딩', '이사벨 워싱턴 파월', '아담 클레이튼 파월(영화)', '아담 클레이튼 파월(영화)']. 파월', '아담 클레이튼 파월 (영화)', '지안카를로 에스포지토'].
아담 클레이튼 파월 (영화)] 검색아담 클레이튼 파월은 리처드 킬버그 감독의 1989년 미국 다큐멘터리 영화입니다. 이 영화는 영향력 있는 아프리카계 미국인 정치인 아담 클레이튼 파월 주니어[3][4]의 흥망성쇠를 다룬 작품으로, 이후 PB 시리즈 아메리칸 익스피리언스의 일부로 방영되기도 했죠. 이 영화는 영향력 있는 아프리카계 미국인 정치인 아담 클레이튼 파월 주니어의 흥망성쇠를 다룬 작품으로[3][4] 이후 PB 시리즈 '아메리칸 익스피리언스'의 일부로 방영되었습니다.
완료[사이마 제스처]
니콜라스 레이와 엘리아 카잔의 직업은 어떤 공통점이 있나요?니콜라스 레이] 검색니콜라스 레이 (레이몬드 니콜라스 키엔즐 주니어, ) 1911년 8월 7일 - 1979년 6월 16일 출생)는 미국 영화 감독, 시나리오 작가, 배우로 가장 잘 알려져 있습니다. 1955년 영화 이유 없는 반란.
엘리아 카잔] 검색엘리아 카잔은 미국의 영화 및 연극 감독, 프로듀서, 시나리오 작가, 배우입니다.
 완료 [감독, 시나리오 작가, 배우]
어느 잡지가 먼저 시작되었나요? 아서스 매거진 또는 퍼스트 포 우먼?아서 매거진] 검색아서스 매거진(1844-1846)은 19세기 필라델피아에서 발행된 미국 문학 정기 간행물입니다.
여성을 위한 첫 번째] 검색퍼스트 포 우먼은 미국의 바우어 미디어 그룹에서 발행하는 여성 잡지입니다.[1] 이 잡지는 1989년에 창간되었습니다.
아서 매거진] 완료
파벨 유리손과 레오니드 레빈은 같은 유형의 작업으로 유명했나요?파벨 유리손] 검색파벨 사무일로비치 유리손(1898년 2월 3일 - 1924년 8월 17일)은 소련의 수학자로, 차원 이론에 기여한 것으로 가장 잘 알려져 있습니다.
레오니드 레빈] 검색레오니드 아나톨리예비치 레빈은 소련계 미국인 수학자이자 컴퓨터 과학자.
마침[yes]

 

Act
이슈움직임주의
콜로라도 오로겐의 동쪽 부분이 확장되는 지역의 고도 범위는 얼마입니까?콜로라도 산 만들기 캠페인] 검색콜로라도 오로겐은 콜로라도와 그 주변에서 발생한 산 형성 운동(오로겐)입니다.
동부 지역] 찾기(결과 1 / i) 동쪽 구간은 고원 지대로 뻗어 있으며 중앙 평원 오로겐으로 알려져 있습니다.
높은 평원] 검색고원지대는 두 가지 지역 중 하나를 가리킵니다:
하이 플레인즈(미국)] 검색고원지대는 대평원의 하위 지역입니다. 고원지대의 고도는 동쪽에서 서쪽으로 약 1,800피트(550미터)에서 7,000피트(2,130미터)까지 상승합니다. [3]
이행[1,800~7,000피트]
음악가이자 풍자 작가인 앨리 고어츠는 심슨 가족 캐릭터 밀하우스에 대한 노래를 만들었는데, 매트 그로닝이 캐릭터의 이름을 따서 지었나요?밀하우스] 검색밀하우스 무솔리니 반 호텐은 파멜라 헤이든이 목소리를 연기하고 매트 그로닝이 제작한 폭스 애니메이션 TV 시리즈 심슨 가족의 상주 캐릭터입니다.
명명된 소스] 찾기(결과 1 / l) 밀하우스는 중간 이름이 밀하우스인 미국 대통령 리처드 닉슨의 이름을 따서 명명되었습니다.
이행[리처드 닉슨]
핀란드 록 밴드인 아담 클레이튼 파월과 사이마 제스처에 관한 다큐멘터리는 무엇인가요?아담 클레이튼 파월] 검색하기아담 클레이튼 파월]을 찾을 수 없습니다. 유사: ['아담 클레이튼 파월 3세', '7번가(맨해튼)', '아담 클레이튼 파월 주니어 주 오피스 빌딩', '이사벨 워싱턴 파월', '아담 파월', '아담 클레이튼 파월 (영화)', '지안카를로 에스포지토'].
아담 클레이튼 파월 (영화)] 검색아담 클레이튼 파월은 리처드 킬버그 감독의 1989년 미국 다큐멘터리 영화입니다. 이 영화는 영향력 있는 아프리카계 미국인 정치인 아담 클레이튼 파월 주니어의 흥망성쇠를 따라갑니다. [3][4] 이 영화는 나중에 PBS 시리즈 The American Experience의 일부로 방송되었습니다.
이행[사이마 제스처]
니콜라스 레이와 엘리아 카잔의 공통점은 무엇인가요?니콜라스 레이] 검색니콜라스 레이(본명 레이몬드 니콜라스 키엔즐 주니어, 1911년 8월 7일 - 1979년 6월 16일)는 미국의 영화 감독, 시나리오 작가, 배우로 1955년 영화 '이유 없는 반항'으로 가장 잘 알려진 인물입니다.
엘리아 카잔] 검색엘리아 카잔은 미국의 영화 및 연극 감독, 프로듀서, 시나리오 작가, 배우입니다.
완료 [감독, 시나리오 작가, 배우]
아서스 매거진과 퍼스트 포 우먼 중 어느 잡지가 먼저 창간되었나요?아서 매거진]을 검색합니다.아서스 매거진(1844-1846)은 19세기 미국 필라델피아에서 발행된 미국 문예지입니다.
여성을 위한 첫 번째] 검색퍼스트 포 우먼은 바우어 미디어 그룹이 미국에서 발행하는 여성 잡지입니다.[1] 1989년에 창간되었습니다. [1] 이 잡지는 1989년에 창간되었습니다.
아서 매거진] 완료
파벨 유리손과 레오니드 레빈은 같은 유형의 작업으로 유명하나요?파벨 유리손] 검색파벨 사무일로비치 유리손(1898년 2월 3일 - 1924년 8월 17일)은 소련의 수학자로, 차원수 이론에 기여한 것으로 가장 잘 알려져 있습니다.
레오니드 레빈] 검색레오니드 아나톨리예비치 레빈은 소련계 미국인 수학자이자 컴퓨터 과학자였습니다.
완료됨 [예]

 

CoT
질문생각답변
콜로라도 오로겐의 동쪽 구역이 확장되는 지역의 고도 범위는 얼마입니까?차근차근 생각해 봅시다. 콜로라도 오로겐의 동부 지역은 고원 지대로 확장됩니다. 고원 지대는 해발 1,800~7,000피트에서 상승하므로, 정답은 1,800~7,000피트입니다. 고원 지대의 고도는 약 1,800피트에서 7,000피트까지 상승하므로 정답은 1,800~7,000피트입니다.1,800~7,000피트
음악가이자 풍자 작가인 앨리 고어츠는 "심슨 가족" 캐릭터 밀하우스에 대한 노래를 만들었는데, 맷 그로닝은 누구의 이름을 땄을까요?밀하우스는 미국 대통령 리처드 닉슨의 이름을 딴 것이므로 정답은 리처드 닉슨입니다.리처드 닉슨
핀란드 록 그룹, 아담 클레이튼 파월 또는 사이마 제스처에 관한 다큐멘터리는 무엇인가요?차근차근 생각해 봅시다. 아담 클레이튼 파월(영화)은 핀란드 록 그룹이 아니라 아프리카계 미국인 정치인에 관한 다큐멘터리입니다. 아담 클레이튼 파월(영화)은 핀란드 록 그룹이 아닌 아프리카계 미국인 정치인에 관한 다큐멘터리입니다.사이마 제스처
니콜라스 레이와 엘리아 카잔의 직업은 어떤 공통점이 있나요?니콜라스 레이의 직업은 감독, 시나리오 작가, 배우입니다. 엘리아 카잔의 직업은 감독, 프로듀서, 시나리오 작가, 배우입니다. 엘리아 카잔의 직업은 감독, 프로듀서, 배우입니다.감독, 시나리오 작가, 배우
어느 잡지가 먼저 시작되었나요? 아서스 매거진 또는 퍼스트 포 우먼?차근차근 생각해 봅시다. 아서스 매거진은 1844년에 시작되었고, 퍼스트 포 우먼은 1989년에 시작되었습니다. 1844년(아서스 매거진) < 1989년(퍼스트 포 우먼), 그러니까 아서스 매거진이 먼저 시작되었습니다.아서 매거진
파벨 유리손과 레오니드 레빈은 같은 유형의 작업으로 유명했나요?차근차근 생각해 봅시다. 파벨 유리손은 수학자이고 레오니드 레빈은 수학자이자 컴퓨터 과학자입니다. 따라서 파벨 유리손과 레오니드 레빈은 같은 종류의 일을 합니다.

 

CoT
이슈사고 과정솔루션
콜로라도 오로겐의 동쪽 부분이 확장되는 지역의 고도 범위는 얼마입니까?이를 단계별로 살펴봅시다. 콜로라도 오로겐의 동쪽 부분은 고원 지대로 이어집니다. 고원 지대의 고도는 약 1,800피트에서 7,000피트까지 상승하므로 정답은 1,800~7,000피트입니다.1,800~7,000피트
음악가이자 풍자 작가인 앨리 고어츠는 심슨 가족 캐릭터 밀하우스에 대한 노래를 만들었는데, 매트 그로닝이 캐릭터의 이름을 따서 지었나요?밀하우스는 미국 대통령 리처드 닉슨의 이름을 딴 것이므로 정답은 리처드 닉슨입니다.리처드 닉슨.
핀란드 록 밴드 아담 클레이튼 파월에 관한 다큐멘터리인가요, 아니면 세마자 제스처에 관한 다큐멘터리인가요?차근차근 살펴봅시다. 아담 클레이튼 파월(영화)은 핀란드 록 밴드에 관한 다큐멘터리가 아니라 아프리카계 미국인 정치인에 관한 다큐멘터리입니다. 따라서 핀란드 록 밴드에 대한 다큐멘터리는 '세마자 제스처'가 될 것입니다.세마야 제스처
니콜라스 레이와 일리야 카잔의 공통점은 무엇인가요?차근차근 살펴봅시다. 니콜라스 레이의 직업은 감독, 시나리오 작가, 배우입니다. 일리야 카잔의 직업은 감독, 프로듀서, 시나리오 작가, 배우입니다. 따라서 니콜라스 레이와 일리야 카잔은 감독, 시나리오 작가, 배우라는 직업을 공유합니다.감독, 시나리오 작가, 배우
아서스 매거진이나 퍼스트 포 우먼이 먼저 시작되었나요?이를 단계별로 살펴봅시다. 아서스 매거진은 1844년에 창간되었습니다. 1844년(아서스 매거진) < 1989년(퍼스트 포 우먼)이므로 아서스 매거진이 먼저 창간되었습니다.아서 매거진
파벨 유리손과 레오니드 레빈은 같은 유형의 작업으로 유명하나요?파벨 유리손은 수학자이고 레오니드 레빈은 수학자이자 컴퓨터 과학자입니다. 따라서 파벨 유리손과 레오니드 레빈은 같은 종류의 직업을 가지고 있습니다.be

 

ReAct
질문생각액션관찰
콜로라도 오로겐의 동쪽 구역이 확장되는 지역의 고도 범위는 얼마입니까?콜로라도 오로겐을 검색하고 콜로라도 오로겐의 동쪽 부분이 확장되는 지역을 찾은 다음 해당 지역의 고도 범위를 찾아야 합니다.콜로라도 오로겐] 검색콜로라도 오로겐은 콜로라도와 그 주변 지역에서 발생한 산 형성(아노로겐)의 한 에피소드입니다.
동쪽 섹터에 대한 언급이 없으니 동쪽 섹터를 찾아야 합니다.조회 [동부 섹터] (결과 1/1) 동쪽 구역은 고원 지대까지 뻗어 있으며 중앙 평원 오로겐이라고 불립니다.
콜로라도 오로겐의 동쪽 구역은 고원 지대까지 뻗어 있으므로 고원 지대를 검색하여 고도 범위를 찾아야 합니다.높은 평원] 검색고원지대는 다음 두 가지 토지 지역 중 하나를 의미합니다.
대신 하이 플레인즈(미국)를 검색해야 합니다.검색[하이 플레인즈 (미국)]고원지대는 대평원의 하위 지역으로, 동쪽에서 서쪽으로 약 1,800~7,000피트(550~2,130m)의 고도가 상승합니다. [3]
 고원지대의 고도는 약 1,800피트에서 7,000피트까지 상승하므로, 답은
는 1,800~7,000피트입니다.
마감 [1,800~7,000피트]
음악가이자 풍자 작가인 앨리 고어츠는 "심슨 가족" 캐릭터 밀하우스에 대한 노래를 만들었는데, 맷 그로닝은 누구의 이름을 땄을까요?"심슨 가족"의 캐릭터 밀하우스는 누구의 이름을 땄는지에 대한 질문으로 단순화됩니다. 밀하우스를 검색하여 누구의 이름을 땄는지만 찾으면 됩니다.밀하우스] 검색밀하우스 무솔리니 반 호텐은 파멜라 헤이든이 목소리를 연기하고 맷 그로닝이 제작한 폭스 애니메이션 심슨 가족의 반복되는 캐릭터입니다. 심슨 가족은 파멜라 헤이든이 목소리를 연기하고 맷 그로닝이 제작했습니다.
이 단락에는 밀하우스의 이름이 누구의 이름을 따서 지었는지 나와 있지 않으니 '이름을 딴'을 찾아볼 수 있을 것 같습니다.조회 [이름](결과 1/1) 밀하우스는 미국 대통령 리처드 닉슨의 중간 이름이 밀하우스인 이름을 따서 명명되었습니다.
밀하우스는 미국 대통령 리처드 닉슨의 이름을 딴 것이므로 정답은 리처드 닉슨입니다.완료 [리처드 닉슨]
핀란드 록 그룹, 아담 클레이튼 파월 또는 사이마 제스처에 관한 다큐멘터리는 무엇인가요?아담 클레이튼 파월과 사이마 제스처를 검색하고 핀란드 록 그룹에 관한 다큐멘터리를 찾아야 합니다.아담 클레이튼 파월] 검색하기아담 클레이튼 파월]을 찾을 수 없습니다. 유사 검색어: ['아담 클레이튼 파월 3세', '7번가(맨해튼)', '아담 클레이튼 파월 주니어', '아담 클레이튼 파월 주니어. 클레이튼 파월 주니어 주 오피스 빌딩', '이사벨 워싱턴 파월', '아담 파월 ', '아담 클레이튼 파월 (영화)', '지안카를로 에스포지토'].
다큐멘터리를 찾으려면 아담 클레이튼 파월(영화)을 검색하면 됩니다.아담 클레이튼 파월 (영화)] 검색아담 클레이튼 파월은 리처드 킬버그 감독의 1989년 미국 다큐멘터리 영화입니다. 이 영화는 영향력 있는 아프리카계 미국인 정치인 아담 클레이튼 파월 주니어[3][4]의 흥망성쇠를 다룬 작품으로, 이후 PBS 시리즈 아메리칸 익스피리언스의 일부로 방영되었습니다. 이 영화는 영향력 있는 아프리카계 미국인 정치인 아담 클레이튼 파월 주니어의 흥망성쇠를 다룬 작품으로[3][4] 이후 PBS 시리즈 아메리칸 익스피리언스의 일부로 방영되었습니다.
아담 클레이튼 파월(영화)은 핀란드 록 그룹이 아니라 아프리카계 미국인 정치인에 관한 다큐멘터리입니다. 따라서 핀란드 록 그룹에 관한 다큐멘터리는 사이마 제스처가 되어야 합니다. 따라서 핀란드 록 그룹에 관한 다큐멘터리는 '사이마 제스처'가 되어야 합니다.사이마 제스처] 완료하기
니콜라스 레이와 엘리아 카잔의 직업은 어떤 공통점이 있나요?니콜라스 레이와 엘리아 카잔을 검색하여 직업을 찾은 다음 두 사람의 공통점을 찾아야 합니다.니콜라스 레이] 검색니콜라스 레이(레이몬드 니콜라스 키엔즐 주니어, 1911년 8월 7일 - 1979년 6월 16일 출생)는 미국 영화 감독, 시나리오 작가, 배우로 가장 잘 알려져 있습니다. 1955년 영화 이유 없는 반란.
니콜라스 레이의 직업은 감독, 시나리오 작가, 배우입니다. 다음으로 엘리아 카잔을 검색하여 그의 직업을 찾아야 합니다.엘리아 카잔] 검색엘리아 카잔은 미국의 영화 및 연극 감독, 프로듀서, 시나리오 작가, 배우입니다.
엘리아 카잔의 직업은 감독, 프로듀서, 시나리오 작가, 배우입니다. 따라서 니콜라스 레이와 엘리아 카잔의 직업은 감독, 시나리오 작가, 배우라는 공통점이 있습니다.완료 [감독, 시나리오 작가, 배우]
어느 잡지가 먼저 시작되었나요? 아서스 매거진 또는 퍼스트 포 우먼?아서 매거진과 퍼스트 포 우먼을 검색해서 어느 것이 먼저 시작되었는지 찾아야 합니다.아서 매거진] 검색아서스 매거진(1844-1846)은 19세기 필라델피아에서 발행된 미국 문학 정기 간행물입니다.
1844년에 창간된 '아서 매거진'을 검색해야 합니다. 다음으로 '퍼스트 포 우먼'을 검색해야 합니다.여성을 위한 첫 번째] 검색퍼스트 포 우먼은 미국의 바우어 미디어 그룹에서 발행하는 여성 잡지입니다.[1] 이 잡지는 1989년에 창간되었습니다.
1844년(아서스 매거진) < 1989년(퍼스트 포 우먼)으로 아서스 매거진이 먼저 창간되었습니다. .아서 매거진] 완료
파벨 유리손과 레오니드 레빈은 같은 유형의 작업으로 유명했나요?파벨 유리손과 레오니드 레빈을 검색하여 두 사람의 작업 유형을 찾은 다음 두 사람이 같은지 확인해야 합니다.파벨 유리손] 검색파벨 사무일로비치 유리손(1898년 2월 3일 - 1924년 8월 17일)은 소련의 수학자로, 차원 이론에 기여한 것으로 가장 잘 알려져 있습니다.
파벨 유리손은 수학자입니다. 다음으로 레오니드 레빈을 검색해서 그 작품의 유형을 찾아야 합니다.레오니드 레빈] 검색레오니드 아나톨리예비치 레빈은 소련계 미국인 수학자이자 컴퓨터 과학자입니다.
레오니드 레빈은 수학자이자 컴퓨터 과학자입니다. 따라서 파벨 유리손과 레오니드 레빈은 같은 유형의 일을 하고 있습니다.마침[yes]

 

ReAct

이슈반사act
콜로라도 조산대의 동쪽 부분이 확장되는 지역의 고도 범위는 얼마입니까?콜로라도 조산대를 검색하여 동쪽 구간이 확장되는 지역을 찾은 다음 해당 지역의 고도 범위를 찾아야 합니다.콜로라도 오로겐 벨트] 검색
동쪽 구간에 대한 언급이 없습니다. 그래서 동쪽 섹션을 찾아야 합니다.동부 지역] 찾기
콜로라도 조산대의 동쪽 구간은 고원 지대로 이어집니다. 따라서 고지대를 검색하여 고도 범위를 찾아야 합니다.높은 평원] 검색
고원지대의 고도는 약 1,800피트에서 7,000피트까지 상승하므로 정답은 1,800피트에서 7,000피트입니다.완료 [1800피트~7000피트]
음악가이자 풍자 작가인 앨리 고어츠는 "심슨 가족"의 캐릭터 밀하우스에 대한 노래를 만들었는데, 매트 그로닝이 밀하우스의 이름을 따서 지었나요?문제는 "심슨 가족"에서 밀하우스의 이름을 딴 캐릭터가 누구인지로 단순화되었습니다. 밀하우스를 검색하여 누구의 이름을 딴 캐릭터인지 알아내기만 하면 됩니다.밀하우스] 검색
이 단락에는 밀하우스의 이름을 딴 사람이 누구인지 나와 있지 않으므로 "이름을 딴..."을 찾아볼 수 있습니다. 이름을 따서".이름] 찾기... 이름] 찾기
밀하우스는 미국 대통령 리처드 닉슨의 이름을 딴 것이므로 정답은 리처드 닉슨입니다.완료 [리처드 닉슨]
핀란드 록 밴드 아담 클레이튼 파월에 관한 다큐멘터리인가요, 아니면 사이마 제스처인가요?아담 클레이튼 파월과 사이마 제스처를 검색하고 핀란드 록 밴드에 관한 다큐멘터리를 찾아야 합니다.아담 클레이튼 파월] 검색하기
다큐멘터리를 찾으려면 아담 클레이튼 파월(영화)을 검색합니다.아담 클레이튼 파월 (영화)] 검색
아담 클레이튼 파월(영화)은 핀란드 록 밴드에 관한 다큐멘터리가 아니라 아프리카계 미국인 정치인에 관한 다큐멘터리입니다. 따라서 핀란드 록 밴드에 관한 다큐멘터리는 가 되어야 합니다.사이마 제스처] 완료하기
니콜라스 레이와 엘리아 카잔의 공통점은 무엇인가요?니콜라스 레이와 엘리아 카잔을 검색하여 직업을 찾은 다음 두 사람의 공통점이 무엇인지 알아내야 합니다.니콜라스 레이] 검색
니콜라스 레이의 직업은 감독, 시나리오 작가, 배우였습니다. 다음으로 엘리아 카잔을 검색하여 그의 직업을 찾아야 합니다.엘리아 카잔] 검색
엘리아 카잔의 직업은 감독, 프로듀서, 시나리오 작가, 배우입니다. 따라서 니콜라스 레이와 엘리아 카잔은 감독, 시나리오 작가, 배우라는 같은 직업을 공유하고 있습니다.완성 [감독, 시나리오 작가, 배우]
아서스 매거진과 퍼스트 포 우먼 중 어느 잡지가 먼저 창간되었나요?아서 매거진과 퍼스트 포 우먼을 검색하여 어느 것이 먼저 시작되었는지 알아내야 합니다.아서 매거진]을 검색합니다.
아서 매거진은 1844년에 설립되었습니다. 다음으로 여성을 위한 첫걸음을 검색해야 합니다.여성을 위한 첫 번째] 검색
1844년(아서스 매거진) < 1989년(퍼스트 포 우먼)이므로 아서스 매거진이 먼저 창간되었습니다.아서 매거진] 완료
파벨 유리손과 레오니드 레빈은 같은 유형의 작업으로 유명하나요?파벨 유리손과 레오니드 레빈을 검색하여 두 사람이 어떤 일을 하는지 알아본 다음 같은 사람인지 확인해야 합니다.파벨 유리손] 검색
파벨 유리손은 수학자입니다. 다음으로 레오니드 레빈을 검색하여 그가 어떤 일을 하는지 알아봐야 합니다.레오니드 레빈] 검색
레오니드 레빈은 수학자이자 컴퓨터 과학자입니다. 따라서 파벨 유리손과 레오니드 레빈은 같은 직업을 가지고 있습니다.완료됨 [예]

 

C.2 팩트 추출 및 유효성 검사 데이터세트/FEVER

발열 프롬프트

원본
질문: 주장을 지지하거나 반박하는 관찰이 있는지 또는 정보가 충분하지 않은지 판단합니다.
클레임답변
니콜라이 코스터-왈다우는 폭스 방송사에서 일했습니다.지원
기묘한 이야기는 인디애나주 블루밍턴을 배경으로 합니다.반박
2003년 빌보드 핫 100에서 2위를 차지한 뷰티풀.정보가 충분하지 않음

 

원본
질문: 진술을 뒷받침하거나 반박하는 관찰 자료가 있는지 또는 정보가 불충분한지 판단합니다.
표현솔루션
니콜라 코스터-왈다우(Nikolaj Coster-Waldau)는 폭스 방송사와 함께 일했습니다.지원
기묘한 이야기는 인디애나주 블루밍턴을 배경으로 합니다.레토르트
2003년에는 'Beautiful'이라는 곡으로 빌보드 핫 100에서 2위를 차지했습니다.불충분한 정보

 

Act
질문: 주장을 지지하거나 반박하는 관찰이 있는지 또는 정보가 충분하지 않은지 판단합니다.
클레임액션관찰
니콜라 코스터-발다우는 폭스 방송사와 함께 일했습니다. 니콜라이 코스터-발다우] 검색하기니콜라 윌리엄 코스터 발다우(1970년 7월 27일생)는 덴마크의 배우 겸 프로듀서입니다. 1993년 코펜하겐의 덴마크 국립 공연 예술 학교를 졸업하고[1], 영화 나이트워치(1994)로 덴마크에서 획기적인 역할을 맡았습니다. 1993년 코펜하겐,[1] 영화 나이트워치(1994)로 덴마크에서 획기적인 역할을 맡았습니다. HBO 판타지 드라마 시리즈 왕좌의 게임에서 제이미 라니스터 역을 맡아 프라임타임 에미상 우수상 후보에 두 번이나 올랐습니다. 드라마 시리즈 남우조연상 후보에 올랐습니다. 코스터-왈다우는 헤드헌터(2011), 천 번의 굿나잇(2013) 등 모국인 덴마크와 스칸디나비아에서 수많은 영화에 출연했습니다. . 미국에서는 전쟁 영화 블랙 호크 다운(2001)에서 무공훈장 수상자 게리 고든 역으로 데뷔했으며[2] 이후 단명했던 폭스 TV 시리즈 뉴욕 시티에서 형사를 연기했습니다. 미국에서는 전쟁 영화 블랙 호크 다운(2001)에서 메달 오브 아너 수상자 게리 고든 역으로 영화에 데뷔했으며[2] 이후 단명했던 폭스 텔레비전 시리즈 뉴 암스테르담(2008)에서 형사를 연기했고 2009년 폭스 텔레비전 영화 버추얼리티(원래 파일럿으로 제작된)에 출연했다.
마침[지원]
기묘한 이야기는 인디애나주 블루밍턴을 배경으로 합니다.기묘한 이야기] 검색기묘한 이야기는 더퍼 형제가 만든 미국 공상 과학 공포 드라마 텔레비전 시리즈입니다. 1980 년대를 배경으로 주로 인디애나 주 호킨스에서 1980년대를 배경으로 주로 인디애나주 호킨스라는 가상의 마을을 배경으로 하는 이 시리즈는 마을 주변에서 일어나는 여러 가지 미스터리와 초자연적인 사건, 그리고 그것이 어린이와 성인 캐릭터의 앙상블에 미치는 영향을 중심으로 전개됩니다. 어린이와 성인 캐릭터의 앙상블
완료 [반박]
2003년 빌보드 핫 100에서 2위를 차지한 뷰티풀.아름다운] 검색Beautiful]를 찾을 수 없습니다. 유사 검색어: ['뷰티풀', '뷰티풀, 뷰티풀', '뷰티풀 마인드 (영화) ', 'Beautiful (크리스티나 아길레라 노래)', '인생은 아름다워'].
검색 [Beautiful (크리스티나 아길레라 노래)"Beautiful"은 미국 가수 크리스티나 아길레라가 네 번째 정규 앨범인 Stripped(2002)에 수록한 곡입니다.
빌보드 핫 100] 조회(결과 1/3) 이 노래는 미국 빌보드 핫 100에서 2위를 차지했으며, 50만 대 출하량으로 골드 인증을 받았습니다.
완료 [정보 부족]

 

Act
문제: 관찰이 진술을 뒷받침하거나 반박하는지 또는 정보가 불충분한지 판단합니다.
표현act주의
니콜라 코스터-발다우는 폭스 방송사와 함께 일했습니다.니콜라이 코스터-발다우] 검색하기니콜라이 윌리엄 코스터 발다우(1970년 7월 27일생)는 덴마크의 배우 겸 프로듀서입니다. 1993년 코펜하겐의 덴마크 국립 공연 예술 아카데미를 졸업했으며[1], 영화 나이트 워치(1994)를 통해 덴마크에서 획기적인 역할을 맡게 되었습니다. HBO 판타지 시리즈 왕좌의 게임에서 제이미 라니스터를 연기해 프라임타임 에미상 드라마 시리즈 남우조연상 후보에 두 차례 올랐으며, 코스터-왈다우는 헤드헌터(2011), 천 번의 굿나잇(2013) 등 고국인 덴마크와 스칸디나비아에서 수많은 영화에 출연했습니다. 미국에서는 전쟁 영화 블랙 호크 다운(2001)에서 메달 오브 아너 수상자 게리 고든 역으로 첫 영화에 출연했습니다.[2] 또한 단명했던 폭스 텔레비전 시리즈 뉴 암스테르담(2008)에서 형사를 연기했으며, 2009년 폭스 텔레비전 영화 버츄어 파이터(원래 파일럿 에피소드로 제작된)에도 출연했습니다.
완료됨 [지원됨]
기묘한 이야기는 인디애나주 블루밍턴을 배경으로 합니다.기묘한 이야기] 검색기묘한 이야기는 더프 형제가 제작한 미국 공상 과학 공포 드라마 시리즈입니다. 1980년대를 배경으로 한 이 드라마는 주로 인디애나주 호킨스라는 가상의 마을을 배경으로 마을에서 일어나는 일련의 미스터리하고 초자연적인 사건과 그 사건이 어린이와 성인 캐릭터에게 미치는 영향을 중심으로 전개됩니다.
완료 [반박]
'Beautiful'은 2003년 빌보드 핫 100에서 2위를 기록했습니다.아름다운] 검색Beautiful]를 찾을 수 없습니다. 유사: ['뷰티풀', '뷰티풀, 뷰티풀', '뷰티풀 마인드 (영화) ', 'Beautiful (크리스티나 아길레라 노래)', '인생은 아름다워'].
검색 [Beautiful(크리스티나 아길레라 노래)]]"Beautiful"은 미국 가수 크리스티나 아길레라가 2002년에 발매한 네 번째 정규 앨범 Stripped에 수록된 곡입니다.
빌보드 핫 100] 찾기(결과 1/3) 이 곡은 미국 빌보드 핫 100에서 2위에 올랐고 50만 장의 출하량으로 골드 인증을 받았습니다.
완료됨 [정보 불충분]

 

CoT
질문: 주장을 지지하거나 반박하는 관찰이 있는지 또는 정보가 충분하지 않은지 판단합니다.
클레임생각답변
니콜라이 코스터-왈다우는 폭스 방송사에서 일했습니다.니콜라 윌리엄 코스터-왈다우는 2009년 폭스 텔레비전 영화 '버추얼리티'에 출연한 이후 폭스 방송사와 함께 일하고 있습니다.지원
기묘한 이야기는 인디애나주 블루밍턴을 배경으로 합니다.기묘한 이야기는 인디애나주 블루밍턴이 아닌 인디애나주 호킨스라는 가상의 마을을 배경으로 합니다.반박
2003년 빌보드 핫 100에서 2위를 차지한 뷰티풀.이 노래는 미국 빌보드 핫 100에서 2위를 차지했지만 2003년인지 여부는 확실하지 않습니다.정보가 충분하지 않음

 

COT
문제: 주장을 뒷받침하거나 반박하는 관찰 자료가 있는지 또는 정보가 불충분한지 판단합니다.
관점반사솔루션
니콜라 코스터-왈다우(Nikolaj Coster-Waldau)는 폭스 방송사와 함께 일했습니다.니콜라이 윌리엄 코스터-왈다우는 2009년 폭스 TV 영화 '버추얼 라이프'에 출연하여 폭스 방송사와 함께 일한 경력이 있습니다.지원
기묘한 이야기는 인디애나주 블루밍턴에서 펼쳐집니다.기묘한 이야기는 인디애나주 블루밍턴이 아닌 가상의 마을인 인디애나주 호킨스를 배경으로 합니다.레토르트
2003년에는 'Beautiful'이라는 곡으로 빌보드 핫 100에서 2위를 차지했습니다.이 노래는 빌보드 핫 100에서 2위에 올랐지만 2003년이었는지는 확실하지 않습니다.불충분한 정보

 

ReAct
질문: 주장을 지지하거나 반박하는 관찰이 있는지 또는 정보가 충분하지 않은지 판단합니다.
클레임생각액션관찰
니콜라이 코스터-왈다우는 폭스 방송사에서 일했습니다.니콜라 코스터-발다우를 검색해서 그가 폭스 방송사와 함께 일한 적이 있는지 알아봐야 합니다.니콜라이 코스터-발다우] 검색하기니콜라 윌리엄 코스터 발다우(1970년 7월 27일생)는 덴마크의 배우 겸 프로듀서입니다. 1993년 코펜하겐의 덴마크 국립 공연 예술 학교를 졸업하고[1], 영화 나이트워치(1994)로 덴마크에서 획기적인 역할을 맡았습니다. 1993년 코펜하겐,[1] 영화 나이트워치(1994)로 덴마크에서 획기적인 역할을 맡았습니다. HBO 판타지 드라마 시리즈 왕좌의 게임에서 제이미 라니스터 역을 맡아 프라임타임 에미상 우수상 후보에 두 번이나 올랐습니다. 드라마 시리즈 남우조연상 후보에 올랐습니다. 코스터-왈다우는 헤드헌터(2011), 천 번의 굿나잇(2013) 등 모국인 덴마크와 스칸디나비아에서 수많은 영화에 출연했습니다. . 미국에서는 전쟁 영화 블랙 호크 다운(2001)에서 무공훈장 수상자 게리 고든 역으로 데뷔했으며[2] 이후 단명했던 폭스 TV 시리즈 뉴욕 시티에서 형사를 연기했습니다. 미국에서는 전쟁 영화 블랙 호크 다운(2001)에서 메달 오브 아너 수상자 게리 고든 역으로 영화에 데뷔했으며[2] 이후 단명했던 폭스 텔레비전 시리즈 뉴 암스테르담(2008)에서 형사를 연기했고 2009년 폭스 텔레비전 영화 버추얼리티(원래 파일럿으로 제작된)에 출연했다.
그는 "2009년 폭스 텔레비전 영화 '버추얼리티'에 출연"했기 때문에 폭스 방송사와 함께 일했어야 했습니다.마침[지원]
기묘한 이야기는 인디애나주 블루밍턴을 배경으로 합니다.기묘한 이야기'를 검색해서 인디애나주 블루밍턴을 배경으로 하는지 확인해야겠어요.기묘한 이야기] 검색기묘한 이야기는 더퍼 형제가 만든 미국 공상 과학 공포 드라마 텔레비전 시리즈입니다. 1980 년대를 배경으로 주로 인디애나 주 호킨스에서 1980년대를 배경으로 주로 인디애나주 호킨스라는 가상의 마을을 배경으로 하는 이 시리즈는 마을 주변에서 일어나는 여러 가지 미스터리와 초자연적인 사건, 그리고 그것이 어린이와 성인 캐릭터의 앙상블에 미치는 영향을 중심으로 전개됩니다. 어린이와 성인 캐릭터의 앙상블
"인디애나주 호킨스라는 가상의 마을"을 배경으로 하고 있으므로 블루밍턴을 배경으로 하는 것은 아니라는 관측이 있습니다.완료 [반박]
2003년 빌보드 핫 100에서 2위를 차지한 뷰티풀.2003년 빌보드 핫 100에서 2위를 차지한 노래 'Beautiful'을 검색해서 찾아야 합니다.아름다운] 검색Beautiful]를 찾을 수 없습니다. 유사 검색어: ['뷰티풀', '뷰티풀, 뷰티풀', '뷰티풀 마인드 (영화) ', 'Beautiful (크리스티나 아길레라 노래)', '인생은 아름다워'].
추천 목록에서 'Beautiful(크리스티나 아길레라 노래)'을 검색하여 노래를 찾아야 합니다.검색 [Beautiful(크리스티나 아길레라 노래)]]"Beautiful"은 미국 가수 크리스티나 아길레라가 네 번째 정규 앨범인 Stripped(2002)에 수록한 곡입니다.
빌보드에 대한 언급이 없으므로 2003년에 2위에 올랐는지 알아보려면 '빌보드 핫 100'을 찾아봐야 합니다.빌보드 핫 100] 조회(결과 1/3) 이 노래는 미국 빌보드 핫 100에서 2위를 차지했으며, 50만 대 출하량으로 골드 인증을 받았습니다.
이 노래가 빌보드 핫 100에서 2위를 기록했다고만 되어 있을 뿐, 2003년이 맞는지는 확실하지 않습니다. 이 주장이 사실인지 아닌지는 잘 모르겠습니다.완료 [정보 부족]

 

ReAct

질문: 진술을 뒷받침하거나 반박하는 관찰 자료가 있는지 또는 정보가 불충분한지 판단합니다.
표현반사act주의
니콜라 코스터-왈다우(Nikolaj Coster-Waldau)는 폭스 방송사와 함께 일했습니다.니콜라 코스터-왈다우를 검색해서 그가 폭스 방송에서 일했는지 알아봐야 합니다.니콜라이 코스터-발다우] 검색하기니콜라 빌헬름 코스터-발다우(1970년 7월 27일생)는 덴마크의 배우 겸 프로듀서입니다. 1993년 코펜하겐의 덴마크 국립 공연 예술 아카데미를 졸업했으며[1] 1994년 영화 나이트 시프트로 덴마크에서 획기적인 역할을 맡았다. 그는 HBO 판타지 시리즈 왕좌의 게임에서 제이미 라니스터 역으로 프라임타임 에미상 드라마 시리즈 남우조연상 후보에 두 차례 올랐습니다. 코스터-발다우는 헤드헌터(2011), 천 번의 굿나잇(2013) 등 모국인 덴마크와 스칸디나비아에서 수많은 영화에 출연했습니다. 미국에서는 전쟁 영화 블랙 호크 다운(2001)에서 메달 오브 아너 수상자 게리 고든 역으로 첫 영화에 출연했습니다. [2] 폭스 텔레비전 스케치 쇼 뉴 암스테르담(2008)에서 형사로 출연했으며, 파일럿 에피소드로 제작되었던 2009년 폭스 텔레비전 영화 버추얼 월드(2009)에도 출연했습니다.
2009년 폭스 TV 영화 '버추어 파이터'에 출연한 이후 폭스 방송과 함께 일하게 됩니다.완료됨 [지원됨]
기묘한 이야기는 인디애나주 블루밍턴에서 펼쳐집니다.인디애나주 블루밍턴에서 열리는지 기묘한 이야기를 검색해 봐야겠어요.기묘한 이야기]를 검색합니다.기묘한 이야기는 더프 형제가 만든 미국 공상 과학 공포 드라마 시리즈입니다. 1980년대 인디애나주 호킨스라는 가상의 마을을 배경으로, 이 드라마는 마을에서 일어나는 일련의 미스터리하고 초자연적인 사건과 그 사건이 어린이와 성인 캐릭터에게 미치는 영향을 중심으로 전개됩니다.
관측에 따르면 "인디애나주 호킨스라는 가상의 마을"을 배경으로 하고 있으므로 블루밍턴에서 열리는 것은 아닙니다.완료 [반박]
2003년 빌보드 핫 100에서 2위를 차지한 뷰티풀.Beautiful이라는 곡을 검색하여 2003년에 빌보드 핫 100에서 2위를 차지했는지 알아봐야 합니다.아름다운] 검색['Beautiful']을 찾을 수 없습니다. 유사: ['뷰티풀', '뷰티풀, 뷰티풀', '뷰티풀 마인드 (영화) ', 'Beautiful (크리스티나 아길레라 노래)', '인생은 아름다워'].
추천 목록에서 '크리스티나 아길레라의 노래 'Beautiful'을 검색해서 이 노래를 찾았어야 했습니다.크리스티나 아길레라의 노래 'Beautiful'을 검색합니다."Beautiful"은 미국 가수 크리스티나 아길레라가 2002년에 발매한 네 번째 정규 앨범 Stripped에 수록된 곡입니다.
빌보드에 대한 언급이 없으므로 2003년에 2위에 올랐는지 확인하려면 '빌보드 핫 100'을 찾아봐야 합니다.빌보드 핫 100] 찾기(결과 1 / 3) 이 노래는 미국 빌보드 핫 100에서 2위를 차지하며 50만 장의 골드 인증을 받았습니다.
이 노래가 빌보드 핫 100에서 2위에 올랐다고만 언급되어 있을 뿐, 2003년에 나왔는지는 언급되어 있지 않습니다. 이 진술이 사실인지 아닌지 잘 모르겠습니다.완료됨 [정보 불충분]

 

C.3 인터넷 쇼핑

ReAct: 大语言模型中推理和行动协同工作

표 6: 4장 웹 상점 실험에 사용된 프롬프트. 왼쪽의 단서는 행동(Act)에, 오른쪽의 단서(추론 추가)는 반응(ReAct)에 사용했습니다.

지침:민감한 피부를 위한 밝은 시트러스 향의 데오도란트 3온스 병을 $50.00 미만에 구매하고 싶습니다!
ActReAct
움직임주의움직임주의
민감성 피부를 위한 브라이트 시트러스 향 데오도란트 3온스]를 검색하세요.[검색으로 돌아가기] 1페이지 (총 결과: 50) [다음][B078GWRC1J]지구 엄마의 밝은 시트러스 데오도란트 | 천연 & 적합 대상
유기농으로 민감한 피부, 임신 및 모유 수유를 위한
메리골드 플라워 3온스
$10.99[B078GTKVXY]지구 엄마의 생강 프레쉬 데오도란트 | 자연스럽고 적합한 대상
유기농으로 민감한 피부, 임신 및 모유 수유를 위한
메리골드 플라워 3온스
$10.99[B08KBVJ4XN]배럴 앤 오크 - 남성용 알루미늄 프리 데오도란트
에센셜 오일 기반 향, 24시간 냄새 방지, 시더우드
& 파출리 블렌드는 민감한 피부에도 순하게 작용합니다(세이지 산.
(2.7온스, 2병)
$15.95
민감성 피부를 위한 브라이트 시트러스 향 데오도란트 3온스 찾기[검색으로 돌아가기] 1페이지 (총 결과: 50) [다음][B078GWRC1J]지구 엄마의 밝은 시트러스 데오도란트 | 천연 & 적합 대상
유기농으로 민감한 피부, 임신 및 모유 수유를 위한
메리골드 플라워 3온스
$10.99[B078GTKVXY]지구 엄마의 생강 프레쉬 데오도란트 | 자연스럽고 적합한 대상
유기농으로 민감한 피부, 임신 및 모유 수유를 위한
메리골드 플라워 3온스
$10.99[B08KBVJ4XN]배럴 앤 오크 - 남성용 알루미늄 프리 데오도란트
에센셜 오일 기반 향, 24시간 냄새 방지, 시더우드
& 파출리 블렌드는 민감한 피부에도 순하게 작용합니다(세이지 산.
(2.7온스, 2병)
$15.95
B078GWRC1J]를 클릭합니다.이전 페이지 검색으로 돌아가기
향기 [다양한 향] [밝은 시트러스] [수딩 라벤더] 생강
[리프레싱] 심플리 언센티드] 사이즈 [여행용 세트(4병)] [3온스.
병)] 어스 마마 브라이트 시트러스 데오도란트 | 내추럴 & 적합 대상
유기농으로 민감한 피부, 임신 및 모유 수유를 위한
메리골드 플라워 3온스
가격: $10.99
등급: N.A.
[설명][기능][리뷰][지금 구매]
생각 [B078GWRC1J와 B078GTKVXY는 50달러 미만의 밝은 시트러스 향 데오도란트입니다. B078GWRC1J를 먼저 확인해볼까 합니다].알겠습니다.
밝은 시트러스]를 클릭합니다.밝은 시트러스를 클릭하셨습니다.B078GWRC1J]를 클릭합니다.[검색 뒤로][이전] 향 [다양한 향][밝은 시트러스][진정 라벤더] 생강
[리프레싱] 심플리 언센티드] 사이즈 [여행용 세트(4병)] [3온스.
병)] 어스 마마 브라이트 시트러스 데오도란트 | 내추럴 & 적합 대상
유기농으로 민감한 피부, 임신 및 모유 수유를 위한
메리골드 플라워 3온스
가격: $10.99
등급: N.A.
[설명][기능][리뷰][지금 구매]
3온스(1병)]를 클릭합니다.3온스(1병)을 클릭하셨습니다.생각 [민감한 피부를 위한 브라이트 시트러스 향 데오도란트 3온스 병의 경우, '브라이트 시트러스'와 '3온스(1병)' 옵션이 있어 구매할 수 있을 것 같습니다].알겠습니다.
지금 구매]를 클릭합니다.밝은 시트러스]를 클릭합니다.밝은 시트러스를 클릭하셨습니다.
3온스(1병)]를 클릭합니다.3온스(1병)을 클릭하셨습니다.

 

C.4 ALFWORLD

주방, 거실, 침실 등 실제 환경을 아우르는 25,000개 이상의 고유하고 절차적으로 생성된 작업이 포함된 환경인 ALFWORLD 시뮬레이터입니다.

방 한가운데에 있습니다. 주위를 빠르게 둘러보니 캐비닛이 있습니다.
13, 캐비닛 12, 캐비닛 11, 캐비닛 10, 캐비닛 9, 캐비닛 8, 캐비닛 8, 캐비닛
7, 캐비닛 6, 캐비닛 5, 캐비닛 4, 캐비닛 3, 캐비닛 2, 캐비닛 2, 캐비닛
1, 커피머신 1, 조리대 1, 식탁 1, 서랍 1, 냉장고 1, 1
쓰레기통 1, 전자레인지 1, 선반 3, 선반 2, 선반 1, 싱크대 1, 싱크대 1, ㄱ
스토브버너 4, 스토브버너 3, 스토브버너 2, 스토브버너 1, 토스터기 1.
여러분의 임무는 식탁에 깨끗한 상추를 놓는 것입니다.
> 냉장고 1로 이동
냉장고 1이 닫혀 있습니다.
> 냉장고 열기 1
냉장고 1을 열었습니다. 냉장고 1이 열렸습니다. 그 안에 컵 3, 달걀 2, 달걀 3, 달걀 2가 있습니다.
감자 3, 감자 2.
> 식탁으로 이동 1
식탁 1에는 사과 1, 빵 1, 버터나이프 2, 컵 2, 컵 2, 사과 1, 빵 1이 있습니다.
포크 2, 나이프 2, 칼 1, 국자 1, 양상추 1, 머그컵 2, 머그컵 1, 팬 2, 냄비 1, 냄비 2, 냄비 1
페퍼쉐이커 1, 주걱 3, 토마토 2, 토마토 1.
> 식탁 1에서 상추 1을 가져옵니다.
식탁 1에서 양상추 1을 집어 올립니다.
> 싱크대 1로 이동
싱크대 1에는 사과 2, 국자 2, 숟가락 1, 토마토 3이 있습니다.
> 싱크대 1로 양상추 1 깨끗이 씻기
싱크대 1을 사용하여 양상추 1을 세척합니다.
> 이제 양상추(1)를 씻습니다. 다음으로 식탁(1)에 넣거나 식탁 위에 올려야 합니다.
OK.
> 식탁으로 이동 1
식탁 1에는 사과 1, 빵 1, 버터 나이프 2, 컵 2, 포크가 있습니다.
2, 칼 2, 칼 1, 국자 1, 머그잔 2, 머그잔 1, 팬 2, 후추통 1, 1
주걱 3, 토마토 2, 토마토 1.
> 상추 1을 식탁 1에 놓습니다.
상추 1을 식탁 1에 올려놓습니다.

표 7: ALFWorld 청소 작업을 위한 행동 요령. 제공된 아이디어가 없습니다.

 

여러분은 방 한가운데에 있습니다. 재빨리 주위를 둘러보니 찬장이 보입니다.
13, 캐비닛 12, 캐비닛 11, 캐비닛 10, 캐비닛 9, 캐비닛 8, 캐비닛
7, 캐비닛 6, 캐비닛 5, 캐비닛 4, 캐비닛 3, 캐비닛 2, 캐비닛
1, 커피머신 1대, 조리대 1대, 식탁 1대, 서랍 1대, 냉장고 1대,
쓰레기통 1개, 전자레인지 1개, 선반 3개, 선반 2개, 선반 1개, 싱크대 1개,
쿠커 4, 스토브 3, 스토브 2, 스토브 1 및 토스터 1.
여러분의 임무는 깨끗한 상추를 식탁에 올려놓는 것입니다.
> 냉장고 1로 이동
냉장고 1이 닫혀 있습니다.
> 냉장고 열기 1
냉장고 1을 열었습니다. 냉장고 1이 열려 있습니다. 그 안에는 컵 3, 달걀 2, 달걀 3, 달걀 2가 있습니다.
감자 3개, 감자 2개.
> 표 1로 이동
표 1에는 사과 1, 빵 1, 버터 나이프 2, 컵 2, 컵 2가 있습니다.
포크 2, 나이프 2, 칼 1, 손잡이가 긴 스푼 1, 양상추 1, 컵 2, 머그잔 1, 팬 2,
페퍼 쉐이커 1개, 스패출러 3개, 토마토 2개, 토마토 1개.
> 표 1의 양상추 1
표 1에서 상추 1을 선택합니다.
> 싱크대로 이동 1
싱크대 1에는 사과 2, 손잡이가 긴 숟가락 2, 숟가락 1, 토마토 3이 있습니다.
> 양상추 세척기 1개, 싱크대 포함 1개
싱크대 1을 사용하여 양상추 1을 씻습니다.
> 생각하기: 이제 상추를 씻습니다(1). 다음으로 표 1에 넣거나 그 위에 놓아야 합니다.
알겠습니다.
> 표 1로 이동
표 1에서 사과 1, 빵 1, 버터 나이프 2, 컵 2, 포크를 볼 수 있습니다.
2, 칼 2, 나이프 1, 손잡이가 긴 스푼 1, 컵 2, 머그컵 1, 팬 2, 후추통 1,
주걱 3개, 토마토 2개, 토마토 1개.
> 테이블 1에 양상추를 1인분씩 놓습니다.
테이블 1에 상추 1을 놓습니다.

 

방 한가운데에 있습니다. 주위를 빠르게 둘러보니 캐비닛이 있습니다.
13, 캐비닛 12, 캐비닛 11, 캐비닛 10, 캐비닛 9, 캐비닛 8, 캐비닛 8, 캐비닛
7, 캐비닛 6, 캐비닛 5, 캐비닛 4, 캐비닛 3, 캐비닛 2, 캐비닛 2, 캐비닛
1, 커피머신 1, 조리대 1, 식탁 1, 서랍 1, 냉장고 1, 1
쓰레기통 1, 전자레인지 1, 선반 3, 선반 2, 선반 1, 싱크대 1, 싱크대 1, ㄱ
스토브버너 4, 스토브버너 3, 스토브버너 2, 스토브버너 1, 토스터기 1.
여러분의 임무는 식탁에 깨끗한 상추를 놓는 것입니다.
> 생각: 작업을 해결하려면 양상추를 찾아서 가져와서 씻어야 합니다.
싱크대에 넣고 식탁에 놓습니다.
OK.
> 먼저 양상추를 찾아야 합니다. 양상추는 다음에 나타날 가능성이 더 높습니다.
냉장고(1), 식탁(1), 싱크대(1), 스토브버너(1-3), 수납장(1-13). I
냉장고 1번부터 하나씩 확인할 수 있습니다.
OK.
> 냉장고 1로 이동
냉장고 1이 닫혀 있습니다.
> 냉장고 열기 1
냉장고 1을 열었습니다. 냉장고 1이 열렸습니다. 그 안에 컵 3, 달걀 2, 달걀 3, 달걀 2가 있습니다.
감자 3, 감자 2.
> 식탁으로 이동 1
식탁 1에는 사과 1, 빵 1, 버터나이프 2, 컵 2, 컵 2, 사과 1, 빵 1이 있습니다.
포크 2, 나이프 2, 칼 1, 국자 1, 양상추 1, 머그컵 2, 머그컵 1, 팬 2, 냄비 1, 냄비 2, 냄비 1
페퍼쉐이커 1, 주걱 3, 토마토 2, 토마토 1.
> 이제 양상추를 찾았습니다(1). 다음으로 가져가야 합니다.
OK.
> 식탁 1에서 상추 1을 가져옵니다.
식탁 1에서 양상추 1을 집어 올립니다.
> 생각하기: 이제 상추(1)를 가져갑니다. 다음으로, 싱크대(1)로 가서 청소해야 합니다.
It.
OK.
> 싱크대 1로 이동
싱크대 1에는 사과 2, 국자 2, 숟가락 1, 토마토 3이 있습니다.
> 싱크대 1로 양상추 1 깨끗이 씻기
싱크대 1을 사용하여 양상추 1을 세척합니다.
> 이제 양상추(1)를 씻습니다. 다음으로 식탁(1)에 넣거나 식탁 위에 올려야 합니다.
OK.
> 식탁으로 이동 1
식탁 1에는 사과 1, 빵 1, 버터 나이프 2, 컵 2, 포크가 있습니다.
2, 칼 2, 칼 1, 국자 1, 머그잔 2, 머그잔 1, 팬 2, 후추통 1, 1
주걱 3, 토마토 2, 토마토 1.
> 상추 1을 식탁 1에 놓습니다.
상추 1을 식탁 1에 올려놓습니다.

표 8: ALFWorld 청소 작업에 대한 ReAct 작업 알림.

 

여러분은 방 한가운데에 있습니다. 빠르게 주위를 둘러보면 캐비닛 13, 캐비닛 12, 캐비닛 11, 캐비닛 10, 캐비닛 9, 캐비닛 8, 캐비닛 7, 캐비닛 6, 캐비닛 5, 캐비닛 4, 캐비닛 3, 캐비닛 2, 캐비닛 1, 커피메이커 1, 조리대 1, 식탁 1, 서랍장 1, 냉장고 1, 쓰레기통 1이 보입니다, 전자레인지 1, 선반 3, 선반 2, 선반 1, 세면대 1, 호브 4, 호브 3, 호브 2, 호브 1 및 토스터기 1.
여러분의 임무는 깨끗한 상추를 테이블 위에 올려놓는 것입니다.
> 생각하기: 이 과제를 해결하려면 상추를 찾아서 싱크대에서 씻은 다음 마지막으로 식탁 위에 올려야 합니다.
알겠습니다.
> 생각하기: 먼저 상추를 찾아야 합니다. 상추는 냉장고(1번), 식탁(1번), 싱크대(1번), 가스레인지 상단(1~3번), 찬장(1~13번)에 있을 가능성이 높습니다. 냉장고 1번부터 하나씩 확인할 수 있습니다.
알겠습니다.
> 냉장고로 이동 1
냉장고 1이 닫혀 있습니다.
> 냉장고 열기 1
냉장고 1을 열었습니다. 냉장고 1이 열렸습니다. 내부에는 컵 3, 달걀 2, 감자 3, 감자 2가 있습니다.
> 표 1로 이동
테이블 1에는 사과 1, 빵 1, 버터 나이프 2, 컵 2, 포크 2, 나이프 2, 커터 1, 스푼 1, 주걱 1, 양상추 1, 머그컵 2, 머그컵 1, 팬 2, 후추통 1, 숟가락 3, 토마토 2, 토마토 1이 있습니다.
> 생각하기: 이제 상추를 찾았습니다(1). 다음으로, 그것을 가져가야 합니다.
알겠습니다.
> 표 1에서 양상추 1을 가져옵니다.
표 1에서 상추 1을 선택합니다.
> 생각하기: 이제 상추(1)를 가져왔습니다. 다음으로, 싱크대(1)로 가서 씻어야 합니다.
알겠습니다.
> 세면대 1로 이동
세면대 1에는 사과 2, 주걱 2, 숟가락 1, 토마토 3이 있습니다.
> 세면대에서 양상추 씻기 1 1
1번 세면대에서 상추 1을 씻었습니다.
> 생각하기: 이제 상추를 씻었습니다(1). 이제 /업 테이블에 올려야 합니다.
알겠습니다.
> 표 1로 이동
테이블 1에는 사과 1, 빵 1, 버터 나이프 2, 컵 2, 포크 2, 나이프 2, 칼 1, 숟가락 1, 머그잔 2, 머그잔 1, 팬 2, 후추통 1, 숟가락 3, 토마토 2, 토마토 1이 있습니다.
> 양상추 1을 테이블 위에 올려 놓습니다.
테이블 1에 양상추 1번을 놓습니다.

 

방 한가운데에 있습니다. 주위를 빠르게 둘러보니 캐비닛이 있습니다.
13, 캐비닛 12, 캐비닛 11, 캐비닛 10, 캐비닛 9, 캐비닛 8, 캐비닛 8, 캐비닛
7, 캐비닛 6, 캐비닛 5, 캐비닛 4, 캐비닛 3, 캐비닛 2, 캐비닛 2, 캐비닛
1, 커피머신 1, 조리대 1, 식탁 1, 서랍 1, 냉장고 1, 1
쓰레기통 1, 전자레인지 1, 선반 3, 선반 2, 선반 1, 싱크대 1, 싱크대 1, ㄱ
스토브버너 4, 스토브버너 3, 스토브버너 2, 스토브버너 1, 토스터기 1.
여러분의 임무는 식탁에 깨끗한 상추를 놓는 것입니다.
> 생각: 작업을 해결하려면 양상추를 찾아서 가져와서 씻어야 합니다.
싱크대에 넣고 식탁에 놓습니다.
OK.
> 먼저 양상추를 찾아야 합니다.
OK.
> 냉장고 1로 이동
냉장고 1이 닫혀 있습니다.
> 먼저 양상추를 찾아야 합니다.
OK.
> 냉장고 열기 1
냉장고 1을 열었습니다. 냉장고 1이 열렸습니다. 그 안에 컵 3, 달걀 2, 달걀 3, 달걀 2가 있습니다.
감자 3, 감자 2.
> 먼저 양상추를 찾아야 합니다.
OK.
> 식탁으로 이동 1
식탁 1에는 사과 1, 빵 1, 버터나이프 2, 컵 2, 컵 2, 사과 1, 빵 1이 있습니다.
포크 2, 나이프 2, 칼 1, 국자 1, 양상추 1, 머그컵 2, 머그컵 1, 팬 2, 냄비 1, 냄비 2, 냄비 1
페퍼쉐이커 1, 주걱 3, 토마토 2, 토마토 1.
> 먼저 양상추를 찾아야 합니다.
OK.
> 식탁 1에서 상추 1을 가져옵니다.
식탁 1에서 양상추 1을 집어 올립니다.
> 생각: 싱크대 1을 사용하여 이 양상추(1)를 씻어야 합니다.
OK.
> 싱크대 1로 이동
싱크대 1에는 사과 2, 국자 2, 숟가락 1, 토마토 3이 있습니다.
> 생각: 싱크대 1을 사용하여 이 양상추(1)를 씻어야 합니다.
OK.
> 싱크대 1로 양상추 1 깨끗이 씻기
싱크대 1을 사용하여 양상추 1을 세척합니다.
> 생각: 이 씻은 상추(1)를 식탁 1에 놓아야 한다.
OK.
> 식탁으로 이동 1
식탁 1에는 사과 1, 빵 1, 버터 나이프 2, 컵 2, 포크가 있습니다.
2, 칼 2, 칼 1, 국자 1, 머그잔 2, 머그잔 1, 팬 2, 후추통 1, 1
주걱 3, 토마토 2, 토마토 1.
> 생각: 이 씻은 상추(1)를 식탁 1에 놓아야 한다.
OK.
> 상추 1을 식탁 1에 놓습니다.
상추 1을 식탁 1에 올려놓습니다.

표 9: ALFWorld 청소 작업에 대한 ReAct-IM 작업 프롬프트.

 

여러분은 방 한가운데에 있습니다. 빠르게 둘러보면 캐비닛 13, 캐비닛 12, 캐비닛 11, 캐비닛 10, 캐비닛 9, 캐비닛 8, 캐비닛 7, 캐비닛 6, 캐비닛 5, 캐비닛 4, 캐비닛 3, 캐비닛 2, 캐비닛 1, 커피 메이커 1, 조리대 1, 식탁 1, 서랍장 1, 냉장고 1, 쓰레기통 1, 다음이 보입니다. 전자레인지 1, 선반 3, 선반 2, 선반 1, 싱크대 1, 호브 버너 4, 호브 버너 3, 호브 버너 2, 호브 버너 1, 토스터기 1.
여러분의 임무는 깨끗한 상추를 테이블 위에 올려놓는 것입니다.
> 생각하기: 이 과제를 해결하려면 상추를 찾아서 싱크대에서 씻은 다음 식탁에 올려야 합니다.
알겠습니다.
> 생각: 먼저 양상추를 찾아야 합니다.
알겠습니다.
> 냉장고로 이동 1
냉장고 1이 닫혀 있습니다.
> 생각: 먼저 양상추를 찾아야 합니다.
알겠습니다.
> 냉장고 열기 1
냉장고 1을 열었습니다. 냉장고 1이 열렸습니다. 냉장고 안에는 컵 3, 달걀 2, 감자 3, 감자 2가 있습니다.
> 생각: 먼저 양상추를 찾아야 합니다.
알겠습니다.
> 표 1로 이동
테이블 1에는 사과 1, 빵 1, 버터 나이프 2, 컵 2, 포크 2, 나이프 2, 칼 1, 숟가락 1, 주걱 1, 양상추 1, 머그컵 2, 머그컵 1, 팬 2, 후추통 1, 주걱 3, 토마토 2, 토마토 1이 있습니다.
> 생각: 먼저 양상추를 찾아야 합니다.
알겠습니다.
> 표 1에서 양상추 1을 제거합니다.
표 1에서 상추 1을 선택합니다.
> 생각하기: 이 양상추(1)를 씻으려면 싱크대 1을 사용해야 합니다.
알겠습니다.
> 세면대 1로 이동
세면대 1에는 사과 2, 주걱 2, 숟가락 1, 토마토 3이 있습니다.
> 생각하기: 이 양상추(1)를 씻으려면 싱크대 1을 사용해야 합니다.
알겠습니다.
> 손 대야 사용 1 양상추 씻기 1
1번 세면기를 사용하여 1번 양상추를 씻었습니다.
> 생각하기: 이미 씻은 상추(1)를 식탁 위에 올려야 해요.
알겠습니다.
> 표 1로 이동
테이블 1에는 사과 1, 빵 1, 버터 나이프 2, 컵 2, 포크 2, 나이프 2, 칼 1, 숟가락 1, 머그잔 2, 머그잔 1, 팬 2, 후추통 1, 주걱 3, 토마토 2, 토마토 1이 있습니다.
> 생각하기: 이미 씻은 상추(1)를 식탁 위에 올려야 해요.
알겠습니다.
> 상추 1을 테이블 위에 놓습니다.
상추 1번을 테이블 위에 놓습니다.

 

 

D 궤적

 

D.1 FEVER 궤적

아래는 ReAct, CoT, Act에서 생성된 궤적 중 일부이며, FEVER 개발 세트에서 무작위로 선택한 몇 가지 예시입니다. 지면 절약을 위해 검색 결과는 생략했습니다.

 

예 2491(표준 답변: 반박)

ReAct
주장: 버뮤다 삼각지대는 태평양의 느슨하게 정의된 지역입니다.
생각 1: 버뮤다 삼각지대를 검색해서 태평양에 있는지 찾아야 합니다.
행동 1: 검색[버뮤다 삼각지대] 관찰 1: 유령이 출몰한다고 알려진 장소...
생각 2 : 관측에 따르면 북대서양 서부에 있다고합니다.
바다이므로 태평양에 있지 않습니다.
행동 2: 완료[반박]관찰 2: 에피소드 완료
Act
주장: 버뮤다 삼각지대는 태평양의 느슨하게 정의된 지역입니다.
행동 1 : 검색[버뮤다 삼각지대]관찰 1 : 유령이 출몰한다고 알려진 장소:...
행동 2: 완료[반박]관찰 2: 에피소드 완료
CoT
주장: 버뮤다 삼각지대는 태평양의 느슨하게 정의된 지역입니다.
생각: 차근차근 생각해 봅시다. 버뮤다 삼각지대는 느슨하게 정의된 지역입니다.
태평양은 대서양이 아닙니다.
답변: 반박

 

ReAct

고지 사항: 버뮤다 삼각지대는 태평양의 느슨하게 정의된 지역입니다.

생각 1: 버뮤다 삼각지대가 태평양에 있는지 알아보기 위해 버뮤다 삼각지대를 검색해야 합니다.

조치 1: [버뮤다 삼각지대] 검색

관찰 1: 유령이 출몰하는 것으로 알려진 장소 중 일부는 다음과 같습니다.

반사 2: 관측 결과 북대서양 서쪽에 위치하므로 태평양에 있는 것이 아닙니다.

조치 2: 결론 [반박]

관찰 2: 에피소드 종료

Act

고지 사항: 버뮤다 삼각지대는 태평양의 느슨하게 정의된 지역입니다.

조치 1: [버뮤다 삼각지대] 검색

관찰 1: 유령이 출몰하는 것으로 알려진 장소는 다음과 같습니다.

조치 2: 결론 [반박]

관찰 2: 에피소드 종료

CoT(사고 과정)

고지 사항: 버뮤다 삼각지대는 태평양의 느슨하게 정의된 지역입니다.

생각: 한 번에 한 단계씩 살펴봅시다. 버뮤다 삼각지대는 대서양의 느슨하게 정의된 지역입니다. 태평양은 대서양이 아닙니다.

답변: 반박

이러한 논리적 추론 과정을 통해 버뮤다 삼각지대는 실제로 태평양이 아닌 대서양에 위치한다는 결론을 내릴 수 있습니다. 이 결론은 버뮤다 삼각지대의 지리적 위치에 대한 지식과 확인을 기반으로 합니다. 버뮤다 삼각지대는 신비한 실종과 전설로 유명하지만, 잘못된 정보와 혼란을 피하기 위해서는 지리적 위치의 정확성도 중요합니다.

 

예 5908(표준 답변: 지원)

ReAct
주장: 원령공주는 영화입니다.
생각 1: 원령공주를 검색해서 영화인지 확인해야겠어요.
행동 1: 검색[원령공주]관찰 1: 원령공주 ...
생각 2: 관찰한 바에 따르면 원령공주는 영화라고 합니다.
작업 2: 완료[지원]관찰 2: 에피소드 완료
Act
주장: 원령공주는 영화입니다.
행동 1: 검색[원령공주]관찰 1: 원령공주 ...
작업 2: 완료[지원]관찰 2: 에피소드 완료
CoT
주장: 원령공주는 영화입니다.
생각: 차근차근 생각해 봅시다. 원령공주는 영화이고, 영화는 다음과 같습니다.
영화.
답변: 지원

 

ReAct
면책 조항: 노자르카의 공주는 영화입니다.
아이디어 #1: 노자르카의 공주를 검색해서 영화인지 확인해야겠어요.
행동 1: [노이자르카의 공주] 관찰 1: "노이자르카의 공주"...
아이디어 2: 관찰 결과, 노자르카의 공주는 영화입니다.
조치 2: 완료 [지원] 관찰 2: 이 에피소드가 완료되었습니다.
Act
면책 조항: 노자르카의 공주는 영화입니다.
행동 1: [노이자르카의 공주] 관찰 1: "노이자르카의 공주"...
조치 2: 완료 [지원] 관찰 2: 이 에피소드가 완료되었습니다.
CoT
면책 조항: 노자르카의 공주는 영화입니다.
아이디어: 한 번에 한 단계씩 생각해 봅시다. 노자르카의 공주는 영화이고, 영화는 영화일 뿐입니다.
답변: 지원

 

예제 1951(표준 답안: 반박)

ReAct
주장: 소유즈는 미국 우주 프로그램의 일부였습니다.
생각 1: 소유즈 우주선을 검색하여 미국 우주선의 일부인지 확인해야 합니다.
프로그램.
활동 1: 검색[소유즈]관찰 1: 소유즈는 음역...
생각 2: 미국 우주 프로그램에 대한 언급이 없으므로 검색해야 합니다.
"미국 우주 프로그램"을 검색하여 그 일부인지 확인합니다.
활동 2: [미국 우주 프로그램] 검색하기 관찰 2: 우주 정책은...
생각 3: 소유즈에 대한 언급이 없기 때문에 이 주장이 사실인지 아닌지 잘 모르겠습니다.
조치 3: 완료[정보 불충분]관찰 3: 에피소드 완료
Act
주장: 소유즈는 미국 우주 프로그램의 일부였습니다.
활동 1: 검색[소유즈]관찰 1: 소유즈는 음역...
조치 2: 완료[정보 불충분]관찰 2: 에피소드 완료
CoT
주장: 소유즈는 미국 우주 프로그램의 일부였습니다.
생각: 차근차근 생각해 봅시다. 소유즈는 러시아 우주선입니다.
우주 프로그램은 NASA입니다. 함께 에서
국제 우주 정거장.
답변: 지원

 

ReAct
면책 조항: 소유즈는 미국 우주 프로그램의 일부입니다.
생각 1: 소유즈가 미국 우주 프로그램의 일부인지 알아보기 위해 소유즈를 검색해야 합니다.
활동 1: [소유즈] 검색하기 관찰 1: 소유즈는 소리 나는 단어입니다...
생각 2: 미국 우주 프로그램에 대한 언급이 없으므로 '미국 우주 프로그램'을 검색하여 그 일부인지 확인해야 합니다.
활동 2: 검색 [미국 우주 프로그램] 관찰 2: 우주 정책...
생각 3: 소유즈에 대한 언급이 없기 때문에 이 진술이 사실인지 아닌지 잘 모르겠습니다.
조치 3: 결론 [정보 불충분] 관찰 3: 결론
Act
면책 조항: 소유즈는 미국 우주 프로그램의 일부입니다.
활동 1: [소유즈] 검색하기 관찰 1: 소유즈는 소리 나는 단어입니다...
조치 2: 결론 [정보 불충분] 관찰 2: 결론
CoT
면책 조항: 소유즈는 미국 우주 프로그램의 일부입니다.
생각하기: 차근차근 생각해 봅시다. 소유즈는 러시아 우주선입니다. 미국의 우주 프로그램은 NASA입니다.NASA와 러시아는 국제 우주 정거장에서 협력하고 있습니다.
답변: 지원

 

예 3208(표준 답변: 반박)

ReAct
클레임: 레인 오버 미는 2010년에 제작된 미국 영화입니다.
생각 1: '나를 지배하라'를 검색해서 미국 영화인지 확인해야 합니다.
2010년에
행동 1: 검색[나를 다스리다] 관찰 1: 나를 다스리다 ...
생각 2 : 관찰에 따르면 2007 년에 만들어진 미국 영화이므로 그렇지 않습니다.
2010년에 제작되었습니다.
행동 2: 완료[반박]관찰 2: 에피소드 완료
Act
클레임: 레인 오버 미는 2010년에 제작된 미국 영화입니다.
행동 1: 검색[나를 지배하라] 행동 2: 완료[지원] 관찰 2: 에피소드 완료
CoT
클레임: 레인 오버 미는 2010년에 제작된 미국 영화입니다.
차근차근 생각해 봅시다. 먼저, '나를 지배하라'는 미국 영화인가요? 네, 맞습니다.
둘째, 2010년에 제작되었나요? 네, 그렇습니다.
답변: 지원

 

ReAct
면책 조항: '나를 지배하라'는 2010년에 제작된 미국 영화입니다.
아이디어 1: 2010년에 제작된 미국 영화인지 확인하기 위해 Reign Over Me를 검색해야 합니다.
활동 1: [나를 다스리다] 관찰 1: "나를 다스리다" 검색...
아이디어 2: 관찰 결과 2007년에 제작된 미국 영화이므로 2010년에 제작되지 않은 것으로 보입니다.
조치 2: 종료 [반박] 관찰 2: 종료
Act
면책 조항: '나를 지배하라'는 2010년에 제작된 미국 영화입니다.
행동 1: 검색 [내 위에 군림] 행동 2: 종료 [지원] 관찰 2: 종료
CoT
면책 조항: '나를 지배하라'는 2010년에 제작된 미국 영화입니다.
생각: 한 번에 한 단계씩 살펴봅시다. 먼저, '레인 오버 미'는 미국 영화인가요? 네, 맞습니다. 둘째, 2010년에 제작된 영화인가요? 네, 그렇습니다.
답변: 지원

 

D.2 ALFWORLD 궤적

동일한 ALFWorld 게임인 pick_clean_then_place_in_recep-Knife-None-CounterTop-10/ trial_T20190909_110445_675754에서 ReAct, Act 및 ReAct-IM의 궤적 예시를 제공합니다.

 

D.2.1 REACT 궤적

리액트는 칼을 제대로 찾아서 세척한 다음 조리대 위에 놓을 수 있었습니다.

 

리액트 ALF세계 궤적

방 한가운데에 있습니다. 주위를 빠르게 둘러보니 캐비닛 6, 캐비닛 7, 캐비닛 8이 있습니다.
캐비닛 5, 캐비닛 4, 캐비닛 3, 캐비닛 2, 캐비닛 1, 커피 머신 1, A
카운터탑 3, 카운터탑 2, 카운터탑 1, 서랍 3, 서랍 2, 서랍 1, 서랍 1, A
냉장고 1, 쓰레기통 1, 전자레인지 1, 선반 3, 선반 2, 선반 1, 세면대 1
1, 스토브버너 4, 스토브버너 3, 스토브버너 2, 스토브버너 1, 토스터기 1
1.
여러분의 임무는 깨끗한 칼을 조리대에 놓는 것입니다.
> 생각: 작업을 해결하려면 칼을 찾아서 가져와서 칼을 닦아야 합니다.
싱크대에 넣은 다음 조리대에 놓습니다.
OK.
> 먼저 칼을 찾아야 합니다. 칼은 캐비닛에 있을 가능성이 더 높습니다.
(1-6), 서랍(1-3), 조리대(1-3), 냉장고(1), 쓰레기통(1), 선반(1-3),
싱크대(1), 스토브버너(1-4), 토스터기(1). 다음부터 하나씩 확인할 수 있습니다.
캐비닛 1.
OK.
> 캐비닛 1로 이동
캐비닛 1에 그릇 1이 표시됩니다.
> 캐비닛 2로 이동
캐비닛 2가 닫혀 있습니다.
> 캐비닛 3으로 이동
캐비닛 3에는 유리병 1이 있습니다.
> 캐비닛 4로 이동
캐비닛 4에 머그컵 1이 있습니다.
> 캐비닛 5로 이동
캐비닛 5가 닫혀 있습니다.
> 캐비닛 6으로 이동
캐비닛 6이 닫혀 있습니다.
> 서랍 1로 이동
서랍 1이 닫혀 있습니다.
> 서랍 2로 이동
서랍 2가 닫혀 있습니다.
> 서랍 3으로 이동
서랍 3이 닫혀 있습니다.
> 카운터탑 1로 이동
조리대 1에는 양상추 2, 머그잔 2, 페퍼샤커 1, 스푼 2가 있습니다.
> 카운터탑 2로 이동
조리대 2에는 컵 1, 수세미 1, 유리병 3, 나이프 1, 칼 1이 있습니다.
접시 2, 감자 3, 동상 1.
> 이제 칼을 찾았습니다(1). 이제 칼을 가져가야 합니다.
OK.
> 조리대 2에서 칼 1을 가져옵니다.
조리대 2에서 칼 1을 집어 올립니다.
> 이제 칼을 가져옵니다(1). 다음으로 싱크대(1)로 가서 청소해야 합니다.
OK.
> 싱크대 1로 이동
싱크대 1에는 포크 3, 양상추 3, 주걱 2가 있습니다.
> 싱크대 1로 칼 1 청소하기
싱크대 1을 사용하여 칼 1을 청소합니다.
> 이제 칼을 닦습니다(1). 다음으로 조리대(1) 안에/위에 놓아야 합니다.
OK.
> 카운터탑 1로 이동
조리대 1에는 양상추 2, 머그잔 2, 페퍼샤커 1, 스푼 2가 있습니다.
> 칼 1을 조리대 1에 놓습니다.
조리대 1에 칼 1을 놓습니다.

 

여러분은 방의 중앙에 위치합니다. 빠르게 둘러보면 캐비닛 6, 캐비닛 5, 캐비닛 4, 캐비닛 3, 캐비닛 2, 캐비닛 1, 커피 메이커 1, 테이블 상판 3, 테이블 상판 2, 테이블 상판 1, 서랍 3, 서랍 2, 서랍 1, 냉장고 1, 빈 1, 전자렌지 1, 선반 3, 선반 2, 선반 1, 선반 1이 있습니다. 싱크대 1, 호브 4, 호브 3, 호브 2, 호브 1, 토스터기 1.
당신의 임무: 깨끗한 칼을 테이블 위에 올려놓으세요.
> 생각하기: 작업을 완료하려면 칼을 찾아서 집은 다음 싱크대에서 칼을 닦아서 테이블 위에 놓아야 합니다.
알겠습니다.
> 생각하기: 먼저 칼을 찾아야 합니다. 칼은 찬장(1-6), 서랍(1-3), 테이블 위(1-3), 냉장고(1), 쓰레기통(1), 선반(1-3), 싱크대(1), 호브 플레이트(1-4), 토스터기(1)에 있을 가능성이 더 높습니다. 1번 캐비닛부터 하나씩 살펴볼 수 있습니다.
알겠습니다.
> 캐비닛 1로 이동
캐비닛 1에는 그릇 1이 표시됩니다.
> 캐비닛 2로 이동
캐비닛 2가 닫힙니다.
> 캐비닛 3으로 이동
캐비닛 3에는 유리병 1이 있습니다.
> 캐비닛 4로 이동
캐비닛 4에는 컵 1이 있습니다.
> 캐비닛 5로 이동
캐비닛 5가 닫힙니다.
> 캐비닛 6으로 이동
캐비닛 6이 닫힙니다.
> 서랍 1로 이동
서랍 1이 닫혀 있습니다.
> 서랍 2로 이동
서랍 2가 닫혀 있습니다.
> 서랍 3으로 이동
서랍 3이 닫혀 있습니다.
> 데스크톱 1로 이동
상판 1에는 상추 2, 컵 2, 후추 소금통 1, 숟가락 2가 있습니다.
> 前往桌面2
在桌面2上,你看到一个杯子1,一个刷盘绵1,一个玻璃瓶3,一把刀1,一个盘子2,三个土豆3,和一个雕像1。
> 思考:现在我找到一把刀(1)。接下来,我需要拿它。
알겠습니다.
> 从桌面2上拿起刀1
你从桌面2上拿起刀1。
> 思考:现在我拿起一把刀(1)。接下来,我需要去水槽(1)清洗它。
알겠습니다.
> 前往水槽1
在水槽1上,你看到一个叉子3,一头生菜3,和一个翻锅铲2。
> 用水槽1清洗刀1
你用水槽1清洗刀1。
> 思考:现在我清洗了一把刀(1)。接下来,我需要把它放在/于桌面1上。
알겠습니다.
> 데스크톱 1로 이동
상판 1에는 상추 2, 컵 2, 후추 소금통 1, 숟가락 2가 있습니다.
> 把刀1放在/于桌面1上
你把刀1放在/于桌面1上。

 

D.2.2 ACT 轨迹

动作模型能够正确找到刀具,但在实际前往水槽洗手盆之前,尝试使用水槽洗手盆清洁它。从那时起,模型无法恢复,并陷入重复相同的命令序列。使用ReAct模型,已有的想法会具体识别出刀具已经被拿走,下一个子目标是前往水槽洗手盆进行清洁。

D.2.3 REACT-IM 轨迹

ReAct-IM能够正确找到刀具,但也无法清洁它。然后LLM在尝试将这把刀放在台面上时陷入困境。一个可能的问题是错误的想法:think: 我需要找到一把干净的刀。这似乎让LLM误以为刀具已经被清洁过了。在ReAct中,这一系列子目标将通过每个想法具体捕捉。

 

D.3 WEBSHOP 轨迹

지침:给我买一包十六包装的苹果肉桂味冻干香蕉片,价格低于50.00美元

ReAct: 大语言模型中推理和行动协同工作

表10:由Act和ReAct预测的Webshop示例轨迹。与Act相比,ReAct使用推理来寻找满足所有目标属性的产品。

 

 

E 更多分析

 

E.1 成功和失败模式分析

我们提供了一些对应于第3.3节中给出的成功和错误模式分析的例子。为了节省空间,搜索结果和非代表性步骤被省略。

 

预测正确/Success: True positive

ReAct
Question: Author David Chanoff has collaborated with a U.S. Navy admiral who served as
the ambassador to the United Kingdom under which President?
Thought 1: I need to search David Chanoff and find the U.S. Navy admiral he
collaborated with.
Action 1: Search[David Chanoff]Observation 1: David Chanoff is a noted author...
Action 2: Search[William J. Crowe]Observation 2: William J. Crowe is...
Thought 3: William J. Crowe served as the ambassador to the United Kingdom under
President Bill Clinton. So the answer is Bill Clinton.
Action 3: Finish[Bill Clinton]Observation 3: Episode finished
CoT
Question: What was the name of the team that represented an Arizona university in
the conference that covers a broad expanse of the western United States,
including Arizona, California, and New Mexico?
Thought: Let’s think step by step. The name of the team that represented an Arizona
university in the conference that covers a broad expanse of the western
United States, including Arizona, California, and New Mexico is Arizona
State Sun Devils.
Answer: Arizona State Sun Devils

 

ReAct
问题:作者大卫·查诺夫曾与一位美国海军将军合作,这位将军在哪位总统的任期下曾担任英国大使?
思考1:我需要查找大卫·查诺夫,并找出他合作过的美国海军将军。
行动1:搜索[大卫·查诺夫]观察1:大卫·查诺夫是一位著名的作者...
行动2:搜索[威廉·J·克洛]观察2:威廉·J·克洛是...
思考3:威廉·J·克洛在比尔·克林顿的总统任期下担任英国大使。所以答案是比尔·克林顿。
行动3:结束[比尔·克林顿]观察3:进行完毕
CoT
问题:在涵盖了亚利桑那州、加利福尼亚州和新墨西哥州等美国西部广大地区的会议中,哪个代表亚利桑那某大学的团队参加?
思考:我们来逐步分析。在涵盖了亚利桑那州、加利福尼亚州和新墨西哥州等美国西部广大地区的会议中,代表亚利桑那某大学参加的团队是亚利桑那州立大学太阳恶魔队。
回答:亚利桑那州立大学太阳恶魔队

 

预测错误/Success: False positive

ReAct
Question: Did the board game San Marco or About Time come out first?
Thought 1: I need to search San Marco and About Time, and find which came out first.
Action 1: Search[San Marco]Observation 1: San Marco is one of the ... The was built in venice.
Thought 2: San Marco is a sestiere of Venice. I need to search About Time next.
Action 2: Search[About Time]Observation 2: Could not find [About Time]. Similar: [...].
Thought 3: About Time is a 2013 film. So San Marco came out first.
Action 3: Finish[San Marco]Observation 3: Episode finished
CoT
Question: Was Vanderbilt University or Emory University founded first?
Thought: Let’s think step by step. Vanderbilt University was founded in 1873. Emory
University was founded in 1836. 1873 (Vanderbilt University) > 1836 (Emory
University), so Vanderbilt University was founded first.
Answer: Emory University

 

ReAct
问题:《圣马可》或《关于时间》这两款桌游哪个首先面世?
思考1:我需要找出《圣马可》和《关于时间》哪款游戏优先发布。
行动1:搜索[圣马可]观察1:圣马可是... 这是在威尼斯建造的。
思考2:圣马可是威尼斯的一个区。接下来我需要搜索《关于时间》
行动2:搜索[关于时间]观察2:未能找到[关于时间]。而是找到了[…]。
思考3:《关于时间》是2013年上映的一部电影,因此,《圣马可》应该是首款发布的。
行动3:结束搜索[圣马可]观察3:任务结束
CoT
问题:范德堡大学和埃默里大学哪一所首先建立?
思考:首先,范德堡大学成立于1873年,埃默里大学成立于1836年,从时间先后看,范德堡大学(1873年)晚于埃默里大学(1836年),也就是说,埃默里大学的建立时间在前。
答案:埃默里大学在先。

 

失败:推理错误/Failure: Reasoning error

ReAct
Question: What was the middle name of the actress who was cast alongside Harvey
Fierstein, Linda Hart, Dick Latessa, Clarke Thorell, Mary Bond Davis, Laura
Bell Bundy, Matthew Morrison, Corey Reynolds, and Marissa Jaret Winokur in
Hairspray?
Thought 1: I need to search Harvey Fierstein, Linda Hart, Dick Latessa, Clarke Thorell,
Mary Bond Davis, Laura Bell Bundy, Matthew Morrison, Corey Reynolds, and
Marissa Jaret Winokur, find the actress that was cast alongside them in
Hairspray, then find its middle name.
Action 1: Search[Harvey Fierstein]Observation 1: Harvey Forbes Fierstein ...
Thought 2: Harvey Fierstein is an actor, playwright, and screenwriter. I need to
search Linda Hart next...
Action 2: Search[Linda Hart]...
CoT
Question: Who is older Danny Green or James Worthy?
Thought: Let’s think step by step. Danny Green was born in 1987. James Worthy was
born in 1961. 1987 (Danny Green) > 1961 (James Worthy), so Danny Green is
older.
Answer: Danny Green

 

ReAct
问题:在《发胶》中,和Harvey Fierstein、Linda Hart、Dick Latessa、Clarke Thorell、Mary Bond Davis、Laura Bell Bundy、Matthew Morrison、Corey Reynolds以及Marissa Jaret Winokur一起演出的女演员中间名是什么?
想法1:我需要查找Harvey Fierstein、Linda Hart、Dick Latessa、Clarke Thorell、Mary Bond Davis、Laura Bell Bundy、Matthew Morrison、Corey Reynolds和Marissa Jaret Winokur,找出和他们在剧中一起演出的女演员,并找到她的中间名。
动作1:搜索[Harvey Fierstein]观察1:Harvey Forbes Fierstein...
想法2:Harvey Fierstein是一位演员、剧作家和编剧。接下来需要搜索Linda Hart...
动作2:搜索[Linda Hart]...

CoT
问题:Danny Green和James Worthy谁年龄更大?
思考:我们分步进行。Danny Green出生在1987年,而James Worthy出生在1961年。1987(Danny Green)> 1961(James Worthy),因此,Danny Green更年长。
回答:Danny Green

 

失败:搜索错误/Failure: Search error

ReAct
Question: What does the goddess associated with the goddess frigg consists of what
tales?
Thought 1: I need to search goddess frigg and find its associated goddess.
Action 1: Search[goddess frigg]Observation 1: Could not find goddess frigg. Similar: [’Frigg’, ’Frigg and Freyja common
origin hypothesis’, ’Freyja (section Relation to Frigg and other goddesses
and figures)’, ’Eir (redirect from Eir (goddess))’, ’Baldr’].
Thought 2: I need to search Frigg instead...

 

ReAct

问题:和女神Frigg有关的女神由什么故事构成?
想法1:我需要搜索女神Frigg并找出与她有关的女神。
动作1:搜索[女神Frigg]观察1:无法找到女神Frigg。相似的有:['Frigg','Frigg和Freyja共同起源的假说','Freyja(与Frigg和其他女神以及人物的关系)','Eir(从Eir(女神)重定向)','Baldr']。
想法2:我需要换个方式搜索Frigg...

 

失败:幻觉/Failure: Hallucination

CoT
Question: What was the first year a scientific journal published by an organization
located in the Bronx was published?
Thought: Let’s think step by step. The first year a scientific journal published by
an organization located in the Bronx was published was 1916.
Answer: 1916 (Label: 1909)

 

CoT
问题:位于布朗克斯的机构首次出版科学期刊的年份是哪一年呢?
思考:我们按步就班地思考。首次由位于布朗克斯的机构出版的科学期刊的年份是1916年。
答案:1916年(标签:1909年)

 

失败:标签歧义/Failure: Label ambiguity

ReAct
Question: What nationality is the man who developed the dictator game?
Thought 1: I need to search dictator game, find the man who developed it, then find his
nationality.
Action 1: Search[dictator game]Observation 1: The dictator game is a popular experimental instrument in social psychology
and economics...
Action 3: Search[Amos Tversky]Observation 3: Amos Nathan Tversky...
Thought 4: Amos Tversky is an Israeli cognitive and mathematical psychologist. So the
man who developed the dictator game is Israeli.
Action 4: Finish[Israeli] (label: Israel-American)
CoT
Question: Kurt Fuller from Stockton, CA appeared in which American Detective Comedy
Drama television series created by Steve Franks?
Thought: Let’s think step by step. Kurt Fuller from Stockton, CA appeared in Psych.
Psych is an American Detective Comedy Drama television series created by
Steve Franks.
Answer: Psych (label: Psych is an American detective comedy-drama)

 

ReAct
问题:发明“独裁者游戏”的那个人是哪个国家的?
思考1:我需要去搜索“独裁者游戏”,找到发明它的人,然后查出他的国籍。
行动1:搜索[独裁者游戏]观察1:独裁者游戏是一种在社会心理学和经济学中常见的实验工具……
行动3:搜索[Amos Tversky]观察3:阿莫斯·内森·特弗斯基……
思考4:阿莫斯·特弗斯基是以色列的认知与数学心理学家。因此,发明“独裁者游戏”的人是以色列人。
行动4:结束[以色列人] (标签注释:以色列-美国)
CoT
问题:史蒂夫·弗兰克创作的哪部美国侦探喜剧系列中出现了来自加州斯托克顿的库特·富勒?
思考:让我们逐步来思考。库特·富勒在《心理》中出现过。《心理》是由史蒂夫·弗兰克创作的美国侦探喜剧电视剧系列。
答案:《心理》 (标签注释:《心理》是美国的一部侦探喜剧)

 

 

ReAct: 大语言模型中推理和行动协同工作

非论文部分,方便理解,简单的梳理逻辑

© 저작권 정책
AiPPT

관련 문서

댓글 없음

없음
댓글 없음...