스마트 스펙트럼, 자율적 작업 실행 에이전트인 AutoGLM 출시: 이번에는 에이전트가 모든 종류의 장치를 능동적으로 작동하여 작업을 수행할 수 있도록 지원합니다.

1.1K 0

智谱发布自主执行任务Agent——AutoGLM：这次让Agent主动操作各类设备执行任务
인간과 기계가 상호 작용하는 방식에 패러다임의 변화가 일어나고 있습니다. 대화만 가능했던 챗봇이 손과 두뇌, 눈을 갖춘 자율 에이전트로 진화하고 있기 때문입니다.

에이전트를 최초로 도입한 대형 모델 회사 중 하나인 스마트 스펙트럼은 현재 몇 가지 새로운 개발 사항을 선보이고 있습니다:

AutoGLM은 50단계 이상의 긴 단계별 작업을 자율적으로 수행할 수 있으며, 여러 앱에서 작업을 수행할 수도 있습니다.
AutoGLM은 새로운 '완전 자동화된' 인터넷 환경을 열고, 수십 개의 웹 사이트와 더 많은 무인 웹 사이트를 지원합니다.
인간처럼 컴퓨터를 작동하는 GLM-PC 시각적 멀티모달 모델을 기반으로 범용 에이전트를 구현하기 위한 내부 테스트 시작 및 기술 탐색

에이전트 오픈데이에서 AutoGLM은 수백 명의 게스트에게 '인공지능이 보낸 위챗 레드 패킷'을 보내고 휴대폰에서 자동으로 파일을 전송하도록 컴퓨터에 원격으로 명령했습니다.

智谱发布自主执行任务Agent——AutoGLM：这次让Agent主动操作各类设备执行任务
위즈덤 스펙트럼의 CEO인 장 펭은 그 자리에서 간단한 음성 명령만 내리면 됩니다. 원래는 매우 복잡한 작업이었지만, 지금은 지 스펙트럼의 제품화된 에이전트가 이를 완벽하게 처리합니다.

AutoGLM의 새로운 업그레이드: 더욱 복잡해진 과제

새롭게 업그레이드된 AutoGLM은 복잡한 작업을 완료하는 데 도전할 수 있습니다:
더 길게: 매우 긴 지시를 이해하고 매우 긴 작업을 수행합니다. 예를 들어 훠궈 재료 구매의 예에서 AutoGLM은 54개의 단계를 중단 없이 자율적으로 수행합니다. 또한 AutoGLM은 이러한 긴 다단계의 주기적인 작업에서 사람의 수동 작업보다 더 뛰어난 성능을 발휘합니다.
크로스 앱: AutoGLM은 앱 간 작업 실행을 지원합니다. 사용자는 여러 앱 사이를 오가는 대신 자동으로 처리되는 AI에 익숙해질 것입니다. 현재의 AutoGLM 형태는 사용자와 앱 간의 앱 실행을 위한 스케줄링 레이어에 가깝기 때문에 크로스 앱 기능은 매우 중요한 단계입니다.
짧은 문구: AutoGLM은 긴 작업을 위한 사용자 지정 문구를 지원할 수 있습니다. 이제 "커피 사줘, 생 코코넛 라떼, 우다오쿠 가게, 크고, 뜨거운, 연한 설탕"과 같은 긴 명령 대신 "커피 주문해"라고 말할 수 있습니다.
캐주얼 모드: 우리는 모두 선택을 두려워하지만, 이제 AutoGLM이 적극적으로 결정을 내릴 수 있도록 도와줍니다. 캐주얼 모드에서는 AI가 모든 단계를 결정하고 블라인드 박스 형태로 깜짝 선물을 선사합니다. AI가 주문하는 커피 맛을 맛보고 싶으신가요?

이와 동시에 AutoGLM은 대규모 내부 테스트를 시작했으며 가능한 한 빨리 C-지원 사용자를 위한 제품으로 출시할 예정입니다. 또한 AutoGLM은 '10억 개의 앱 무료 자동 업그레이드' 프로그램을 시작하여 앱 파트너를 초대하여 새로운 자동 시나리오를 공동으로 탐색할 수 있는 기회를 제공한다고 발표했습니다.

핵심 시나리오와 핵심 애플리케이션을 지원하는 AutoGLM 샘플 API는 2주 이내에 Smart Spectrum maas 오픈 플랫폼(bigmodel.cn)에서 시험 사용할 수 있습니다.

웹 터미널은 "완전 자동화된" 서핑의 새로운 경험을 열어줍니다: 이제부터 Wisdom Spectrum의 AutoGLM 플러그인이 온라인에 출시되어 바이두 검색, 웨이보, 즈후, 깃허브 등 수십 개의 웹 사이트의 무인 운전을 지원합니다. 현장 데모에서 AutoGLM 플러그인은 '바이두에서 망고 TV를 검색하고, 리틀 앨리 하우스를 열고, 최신 에피소드를 재생하고, 팝업을 보내 엔딩을 장식하는' 과정을 자동으로 완료했습니다. 이 모든 과정은 사람의 개입 없이 이루어졌습니다.

智谱发布自主执行任务Agent——AutoGLM：这次让Agent主动操作各类设备执行任务

GLM-PC 테스트 초대: '무인' 컴퓨터를 위한 기술 탐구

모바일과 브라우저에 기반할 뿐만 아니라 오늘날 Wisdom Spectrum은 PC 기반 자율 에이전트도 제공합니다. GLM-PC는 GLM 팀이 '드라이버 없는' PC를 위한 기술 탐색으로, Wisdom Spectrum의 멀티모달 모델인 CogAgent를 기반으로 합니다. 현재 내부 테스트 시나리오의 첫 단계가 공개되어 있으며, 다음과 같은 내용이 포함되어 있습니다:

미팅 대타: 사용자가 미팅을 예약하고 참여하고, 미팅 요약을 보낼 수 있도록 도와줍니다.
문서 처리: 문서 다운로드, 문서 전송, 문서 이해 및 요약 등을 지원합니다.
웹 검색 및 요약: 지정된 플랫폼(예: 위챗, 지후, 샤오홍슈 등)에서 지정된 키워드를 검색하여 읽기 및 요약을 완료합니다.
원격 및 시간 지정 작동: 원격 휴대폰이 명령을 보내면 GLM-PC가 자율적으로 컴퓨터 작업을 완료하고, 부팅 상태에서 정기적으로 작업을 실행하도록 향후 시간을 설정할 수 있습니다.
보이지 않는 화면: 사용자가 작업하는 동안 GLM-PC는 보이지 않는 화면에서 자율적으로 작업을 완료할 수 있으므로 화면 사용의 자유를 누릴 수 있습니다.

GLM-PC는 눈으로 그래픽과 텍스트를 보고, 두뇌로 계획을 세운 다음 손으로 클릭, 더블 클릭, 타이핑 등의 작업을 수행하는 등 인간과 거의 동일한 방식으로 컴퓨터를 사용합니다. 그렇기 때문에 GLM-PC는 인간이 사용하도록 설계된 모든 애플리케이션을 사용하는 방법을 학습했습니다. 이 때문에 GLM-PC는 이론적으로 인간을 위해 설계된 모든 애플리케이션을 학습한 후 실행할 수 있습니다. 이는 HTML이나 API에 의존하지 않는 시스템 수준의 크로스 플랫폼 기능으로, 기능의 상한선이 더 높습니다.

그러나 PC의 복잡성과 모든 사람이 PC에서 수행하는 거의 모든 작업이 복잡한 작업이라는 사실 때문에 솔직히 오늘날의 대형 모델의 기능은 사무실의 모든 사람을 실제로 대체하기에는 아직 멀었습니다. 현재 버전에서 GLM-PC는 여전히 사용자가 매우 정확한 명령을 입력해야 합니다.

GLM-PC "체험 초대"가 오픈되었습니다. 제품이 완성된 후 가능한 한 빨리 모든 사용자가 사용할 수 있도록 계속 노력할 것이며, 더 많은 벤더와 조인트 벤처를 통해 협력할 수 있기를 희망합니다.

AutoGLM과 GLM-PC는 AI 지능형 운영 체제로 나아가기 위한 중요한 시도입니다. 이는 대규모 언어 모델, 멀티모달 모델, 논리적 추론 및 도구 사용 분야에서 와이즈플랜이 축적한 기술을 바탕으로 탄생했습니다. 와이즈플랜은 23년 4월 에이전트벤치를 시작으로 8월 코그에이전트 모델에 이르기까지 1년 반 동안 AutoGLM과 GLM-PC의 모델인 코그에이전트에 대한 연구개발을 진행했습니다.

OpenAI와 달리 스마트 스펙트럼은 빅 모델 개발의 5단계로 L1 언어적 역량, L2 논리적 역량(멀티모달 역량), L3 도구 사용 능력, L4 자가 학습 역량, L5 과학 법칙 탐구로 정의합니다.

지금까지의 개발 과정을 통해 빅 모델은 실제 물리적 세계와 인간의 상호작용을 위한 일부 기능을 갖추게 되었습니다. "에이전트는 L3의 도구 사용 능력을 크게 향상시키는 동시에 L4의 자가 학습 능력에 대한 탐구를 열어줄 것입니다." 장 펭은 이렇게 말했습니다.

장펑은 GLM 팀이 앞으로도 에이전트 모델 제품 개발에 박차를 가할 것이며, 컴퓨터와 휴대폰을 한 문장으로 조작하는 패러다임이 하루빨리 실현되기를 기대한다고 말했습니다.

채팅에서 행동으로 이어지는 빅 모델

오늘날 빅 모델 기술은 요구 사항 이해, 계획 및 의사 결정, 행동 수행 및 자기 성찰을 기반으로 기계와 사람이 상호 작용하는 방식을 변화시키고 있으며, 에이전트는 사람이 기계에 적응하는 것부터 기계가 사람에게 적응하는 것까지 직관적인 인간과 기계의 상호작용을 가져올 것입니다.

애플 인텔리전스, 앤트로픽(컴퓨터 사용), 구글(자비스), 오픈AI(운영자)와 같은 기업들도 에이전트 AI를 2025년의 주요 초점으로 삼고 있습니다. 가트너는 최근 에이전트 AI를 2025년 10대 기술 트렌드 중 하나로 선정했으며, 2024년 0건에서 2028년에는 에이전트 AI가 자율적으로 수행하는 일일 업무 결정이 최소 15%에 달할 것으로 예측했습니다.

GenAI와 달리 에이전트는 목표 중심적이며 워크플로우를 완벽하게 실행하고, 적응하고, 학습하고, 반복하고, 다른 시스템 및 인간과 협업하고, 엔드투엔드 작업을 완료할 수 있습니다. 장 펭이 보기에 에이전트는 대형 모델 일반 운영 체제인 LLM-OS의 프로토타입으로 볼 수 있습니다.

"현 단계에서 AutoGLM은 인간과 애플리케이션 사이에 실행 스케줄링 계층을 추가하는 것과 같으며, 인간과 기계의 상호 작용 형태를 크게 변화시킵니다. 더 중요한 것은 대규모 모델 인텔리전스 기능(L1에서 L4 이상)을 기반으로 하는 LLM-OS의 가능성으로, 향후 인간과 컴퓨터의 자연스러운 상호 작용을 가능하게 할 수 있다는 점입니다. HCI 패러다임을 다음 단계로 끌어올릴 것입니다."

AI 시대의 스마트 디바이스를 위한 새로운 패러다임

빅 모델 기능이 계속 발전함에 따라 AI가 스스로 두뇌와 눈, 손을 키우는 모습을 서서히 목격하고 있습니다. 지능이 계속 성장하고 있을 뿐만 아니라 지각 능력과 상호 작용 대역폭이 강화되고 확장되고 있으며, 에이전트가 제공하는 실행 속도도 빨라지고 있습니다.

스마트 스펙트럼의 COO인 장판은 스마트 기기가 대형 모델의 지원으로 새로운 기회를 얻게 될 것이라고 말했습니다. 휴대폰 + AI는 개인 지능형 비서가 되고, PC + AI는 새로운 생산성 도구가 될 것이며, 자동차 + AI는 자동차를 사람들의 지능형 제3의 생활 공간으로 만들 것입니다. 물론 빅 모델은 휴대폰, PC, 자동차뿐만 아니라 모든 종류의 스마트 기기에도 기회를 가져다 줄 것입니다. 빅 모델의 지속적인 진화는 에이전트가 인간과 차량의 상호 작용 경험을 변화시킬 수 있는 강력한 기반을 마련했습니다.

에이전트는 엔드사이드 성능과 컴퓨팅 파워의 지속적인 향상, AI 네이티브 디바이스에 적합한 모델, 엔드클라우드 동형성을 갖춘 협업 아키텍처의 등장으로 운영체제 OS와 애플리케이션의 사용자 경험을 혁신할 뿐만 아니라 휴대폰에서 컴퓨터, 자동차, 안경, 가정 및 모든 종류의 엣지 사이드 디바이스에 이르기까지 모든 종류의 스마트 디바이스로 확장되면서 다양한 AI 네이티브 디바이스가 각광을 받기 위해 경쟁하고 있습니다.

글로리의 AI 기술 책임자 왕 주오지안, ASUS AIPC의 지능형 생태학 책임자 종 화이셩, 샤오펑 자동차 콕핏의 지능형 음성/지능 사업 책임자 리안 레이, 퀄컴 AI 제품 기술 중국 책임자 완 위성, 인텔 중국 기술부 총책임자 가오 유는 스마트 스펙트럼의 고객 및 파트너로서 각각 다른 시나리오에서 지능형 단말기의 실제와 전망을 공유했습니다.

빅 모델과 에이전트의 개발은 사용자에게 AI 시대의 새로운 스마트 디바이스 패러다임을 제공할 뿐만 아니라 빅 모델 기술의 더 넓은 착륙 공간을 의미합니다. 스마트 디바이스에서 스마트 네트워크에 이르기까지, 가까운 미래에 우리는 AI 네이티브 디바이스의 상호 연결성과 무한한 가능성을 보게 될 것입니다. 이 과정에서 스마트 스펙트럼은 스마트 디바이스가 빅 모델을 수용하고 새로운 AI 네이티브 디바이스 시대를 향해 가속화하는 데 도움이 되는 일련의 제품과 기능을 제공할 것입니다.