국내 빅모델 데뷔 중국어 논리적 추론, '티안공 빅모델 4.0' O1 버전이 출시되었습니다!
기술이 이렇게 빠르게 발전하고 있는지 몰랐어요. 최근 사람들은 이미 AI 시대 이후의 삶을 상상하고 있습니다.
주말에 JP모건 체이스의 CEO인 제이미 다이먼은 AI 기술 덕분에 미래 세대는 일주일에 3일 반만 일하고 100세까지 살 수 있을 것이라고 말했습니다.
일부 연구에 따르면 제너레이티브 AI와 같은 기술이 현재 사람들의 업무 시간 중 60~70%를 차지하는 작업을 자동화할 수 있다고 합니다. 이러한 변화에 필요한 기술은 어디에서 나올까요? 획기적인 AI여야 하며, 일반 인공 지능(AGI)이 언제 등장할지에 대한 여러 AI 거물들의 예측 목록을 정리한 적이 있습니다. 예를 들어, DeepMind의 하사비스는 AGI의 출현까지 2~3가지 주요 기술 혁신이 남았다고 생각합니다.

심지어 내년에 AGI가 등장할 것이라고 생각하는 OpenAI의 CEO 샘 알트만처럼 말입니다. 생각해 보세요.이러한 자신감의 이유는 최근 사람들이 대형 모델에게 '추론'을 배우게했기 때문일 수 있습니다..
지난 9월, OpenAI는 전례 없는 대규모 복합 추론 모델인 o1을 공식적으로 공개했는데, 이 새로운 모델은 범용 기능과 이전의 과학, 코드, 수학 모델보다 더 어려운 문제를 해결할 수 있는 능력을 모두 갖추고 있다는 점에서 획기적인 발전을 이루었습니다. 실험 결과에 따르면 o1은 대부분의 추론 작업에서 GPT-4o보다 훨씬 뛰어난 성능을 보였습니다.

OpenAI는 대형 모델의 능력에 대한 새로운 방향을 열었습니다. '인간처럼 생각하고 추론할 수 있는지'가 능력을 판단하는 중요한 지표가 되었습니다. 벤더들이 출시하는 새로운 모델에 사고의 연결고리가 없다면 보여주기 부끄러울 것 같습니다.
하지만 아직까지 o1의 정식 버전은 출시가 지연되고 있습니다. AI 커뮤니티, 특히 중국의 대형 모델 회사들이 o1의 우위를 점하기 위해 영향력을 행사하고 있으며 일부 권위 있는 리뷰에서 주도권을 잡기 시작했습니다.
오늘.중국 최초의 중국어 논리 추론 능력을 갖춘 o1 모델이 등장했는데, 바로 쿤룬 MSI가 출시한 '스카이워크 4.0' o1 버전(영문명: Skywork o1)입니다.. 이는 지난 달에 대형 모델 및 관련 애플리케이션에 대한 회사의 세 번째 큰 움직임입니다.스카이웍스 AI 고급 검색및실시간 음성 대화 AI 비서 Skyo 순차적 표시.

이제부터 Skywork o1의 내부 테스트가 시작될 예정이니, 체험을 원하신다면 지금 바로 신청하세요.
신청하기(www.tiangong.cn)
세 가지 모델을 나란히 배치
새로운 추론의 전장
이번에 출시되는 Skywork o1은 오픈 소스 커뮤니티에 환원하는 오픈 버전과 더 많은 기능을 갖춘 전용 버전 등 세 가지 모델로 구성되어 있습니다.
무엇보다도 오픈 소스 버전의 Skywork o1 오픈 매개변수를 8B로 높여 다양한 수학적 및 코드 메트릭에서 상당한 개선을 달성하고, Llama-3.1-8B를 동일한 에코시스템 SOTA로 끌어와 Qwen-2.5-7B instruct보다 뛰어난 성능을 제공합니다. 동시에 Skywork o1 Open은 GPT-4o 같은 대규모 모델에서는 불가능한 수학적 추론 작업(예: 24포인트 계산)을 가능하게 해줍니다. 또한 경량 디바이스에 추론 모델을 배포할 수 있는 가능성도 열립니다.


또한 쿤룬은 추론 작업을 위한 두 가지 프로세스 보상 모델(PRM)도 오픈소스화할 예정이며, 이는 다음과 같습니다. Skywork o1 Open-PRM-1.5B 노래로 응답 Skywork o1 Open-PRM-7B이전에 오픈 소스로 제공된 Skywork-Reward-Model은 전체 모델 응답에만 점수를 매겼습니다. 이전에 오픈 소스였던 Skywork-Reward-Model은 전체 모델 응답에만 점수를 매겼지만, Skywork o1 Open-PRM은 모델 응답의 각 단계에 점수를 매기도록 세분화할 수 있습니다.
오픈 소스 커뮤니티의 기존 PRM과 비교했을 때 Skywork o1 Open-PRM-1.5B는 RLHFlow의 Llama3.1-8B-PRM-Deepseek-Data, OpenR의 Math-psa-7B와 같은 8B 모델 결과를 얻을 수 있으며, 더 강력한 성능을 제공합니다. 대부분의 벤치마크에서 Qwen2.5-Math-RM-72B에 10배 이상 근접하거나 심지어 능가합니다.
보고된 바에 따르면Skywork o1 Open-PRM은 코드 기반 작업을 위한 최초의 오픈 소스 PRM이기도 합니다.. 다음 표는 수학 및 코드 검토 세트에서 서로 다른 PRM을 사용하여 Skywork-o1-Open-8B를 기본 모델로 사용한 평가 결과를 보여줍니다.


참고: Skywork-o1-Open-PRM을 제외한 다른 오픈 소스 PRM은 코드 기반 작업에 특별히 최적화되어 있지 않으므로 코드 기반 작업에 대한 비교는 이루어지지 않습니다.
자세한 기술 보고서도 곧 공개될 예정입니다. 이 모델과 관련 프레젠테이션은 현재 허깅페이스에서 오픈소스로 공개되어 있습니다.
오픈 소스 주소: https://tinyurl.com/skywork-o1
스카이워크 o1 라이트 완전한 방식으로 사고하고 추론과 사고의 속도가 빨라 중국어 논리 및 추론, 수학 등의 문제에 특히 능숙합니다.Skywork o1 미리보기 이것은 자체 개발한 온라인 추론 알고리즘이 포함된 추론 모델의 정식 버전으로, 라이트 버전에 비해 더 다양하고 심층적인 사고 과정을 제시하여 보다 완벽하고 높은 품질의 추론을 달성할 수 있습니다.
Skywork o1이 추론 수준에서 작동하는 기존의 o1 모델 재현 작업과 무엇이 다른지 궁금할 수 있습니다.
쿤룬은 일련의 모델이 느린 사고로 단계별로 생각하고, 계획하고, 모델 결과물을 추론하고, 반영하고, 검증하는 능력을 내생화하여 '깊은 사고'와 같은 복잡한 인간 사고 능력의 전형적인 고급 버전을 잠금 해제하고 답변의 품질과 깊이를 보장한다고 말했습니다.
물론 스카이워크 o1이 실제 현장에서 어떻게 작동하는지 지켜봐야 할 것입니다.
직접 경험하기
이번에는 Skywork o1이 그 이유를 완전히 밝혀냈습니다.
저는 사전에 테스트 자격을 획득하고 Skywork o1 시리즈 모델, 특히 Lite 및 Preview 버전의 추론 능력에 대한 모든 측면을 검토했습니다. 다음 그림은 Skywork o1 Lite의 인터페이스를 보여줍니다.

Skywork o1 Lite가 스스로 발표하도록하는 것으로 시작하면 모델이 직접 답을 제공하지 않고 오히려 다음과 같이 볼 수 있습니다.문제 오리엔테이션, 자기 역량 프로파일링 등을 포함한 전체 사고 과정을 사용자에게 시각화합니다.그리고사고 시간 표시는 오늘날의 추론 모델과 구별되는 특징입니다.

공식 테스트에 들어가서 저희는 다양한 유형의 추론 문제를 통해 스카이워크 o1을 실제로 이해할 수 있는지 확인했습니다.
사이즈 비교, 숫자 세기 문제, 더 이상 카트 바퀴를 돌릴 필요가 없습니다!
이전에는 대형 모델이 크기를 비교하고 숫자를 세는 간단한 문제에 직면했을 때 종종 실패했습니다. 이제 Skywork o1 Lite에서는 이러한 문제가 더 이상 문제가 되지 않습니다.
13.8이 13.11보다 큰지 비교할 때 Skywork o1 Lite는 문제 해결의 열쇠가 소수점 이하 자릿수에 있다는 것을 알아내기 위해 완전한 사고의 사슬을 제공합니다. 이 모델은 또한 스스로 반성하여 도달한 결론을 다시 확인하고 오답하기 쉬운 점을 상기시켜 줍니다.

마찬가지로, "딸기에는 몇 개의 "r"이 있나요?"라는 질문에 정답을 맞출 때도 마찬가지입니다. 스카이워크 o1 라이트 역시 "딸기에는 몇 개의 "r"이 있나요?"라는 질문에 정답을 맞히기 위해 사고, 검증, 확인의 일련의 과정을 거칩니다.

스크램블된 항목으로 질문에 답할 때 Skywork o1 Lite는 방해 요소를 빠르게 제거합니다.

언어의 함정에 빠지지 않고 수수께끼를 풀기
큰 모델들은 때때로 중국어 문맥의 수수께끼 질문에 혼란스러워하여 오답을 내기도 합니다. 이번에는 스카이워크 o1 라이트가 이러한 문제를 쉽게 풀 수 있습니다.


아버지와 아들 두 쌍이 각각 물고기 세 마리씩만 잡았지만, 스카이워크 o1 라이트는 무슨 일이 벌어지고 있는지 파악할 수 있었습니다.

다양한 상식을 습득하고 지체된 속성과 작별하기
대규모 모델이 인간의 상식적 추론 수준에 접근하는 능력은 신뢰도를 높이고 의사 결정 능력을 향상시키며 여러 영역으로 응용 분야를 확장하는 능력을 나타내는 가장 중요한 지표 중 하나입니다. Skywork o1 Lite와 Preview는 이 점에서 모두 우수한 성능을 발휘합니다.
예를 들어 길이(인치, 센티미터, 야드)와 질량 단위(킬로그램)를 구분할 수 있습니다.

예를 들어 소금물 얼음 조각이 일반 물 얼음 조각보다 더 쉽게 녹는 이유에 대해 알아보세요.

또 다른 예는 완벽하게 정지된 배 위에 서 있는 사람이 뒤로 점프할 때 앞으로 움직이는 것으로, Skywork o1 Lite는 이 현상의 이면에 있는 물리학을 명확하게 설명합니다.

문제 해결사가 되면 GCSE 문제도 어렵지 않게 풀 수 있습니다!
수학적 추론은 복잡한 작업을 해결하기 위한 기본 역량이며, 강력한 수학적 추론 기능을 갖춘 대규모 모델은 사용자가 복잡한 학제 간 작업을 효율적으로 해결할 수 있도록 도와줍니다.
수열 문제 "2, 6, 12, 20, 30..."에서 수열 "2, 6, 12, 20, 30..."의 10번째 항은 무엇일까요? 이 수열의 10번째 항은 무엇일까요?". 스카이워크 o1 라이트는 숫자의 배열을 관찰하고, 패턴을 찾고, 패턴을 확인한 후 최종적으로 정답을 제시합니다.

조합 문제(10개 중 3개 팀을 구성할 수 있는 선택지 수)를 풀 때, 스카이워크 o1 프리뷰는 전체 링크에서 고민한 끝에 정답을 찾았습니다.

또 다른 동적 프로그래밍(액면가 1, 3, 5의 동전으로 11개를 만들려면 몇 개의 동전이 필요한가?) 문제의 경우, Skywork o1 Lite는 최적의 솔루션을 제공합니다.

2024년 GCSE 내셔널 페이퍼 A 수학(웬)에서 두 개의 GCSE 수학 문제를 출제하여 Skywork o1 Lite를 조금 더 어렵게 만들 예정입니다.
확률 문제(A, B, C, D가 한 줄에 있을 확률, C가 줄의 맨 앞에 있지 않고 A 또는 B가 줄의 끝에 있을 확률)로 시작하면 Skywork o1 Lite가 빠르게 정답을 알려줍니다.

그런 다음 함수 질문( ), Skywork o1 Lite 솔루션 및 답변을 한 번에 확인할 수 있습니다.

꼼꼼하고 논리적인 사고력
대규모 모델을 사용한 논리적 추론은 더 강력한 범용 AI를 구현하기 위한 핵심 기능 중 하나이며, Skywork o1 Lite는 이러한 질문에 답하는 데 능숙합니다. 예를 들어, 전형적인 거짓말 문제에서 Skywork o1 Lite는 논리적으로 일관된 관점에서 누가 진실을 말하고 누가 거짓말을 하는지 구분할 수 있습니다.

Skywork o1 Lite는 역설에도 흔들리지 않습니다.

도덕적 딜레마에 직면했을 때의 공정성
윤리적 의사결정은 AI의 안전한 개발, 사회적 도덕 규범 준수, 사용자 신뢰와 수용성 향상에 있어 매우 중요한 요소이며, 빅모델이 발언에 신중을 기하는 것이 더욱 중요합니다.
'아내를 구할 것인가, 엄마를 구할 것인가'라는 오래된 딜레마에 대한 절대적인 해답을 제시하는 대신, Skywork o1 Lite는 장단점을 비교하고 건전한 조언을 제공합니다.

또한 '더 많이 절약할 것인가, 덜 절약할 것인가'라는 딜레마가 있는데, Skywork o1 Preview는 성급하게 결론을 내리지 않고 몇 가지 더 깊은 생각을 제시합니다.

지연된 테스트이며 보류 중입니다.
스카이워크 o1 라이트는 대학 입학 시험에서 750점 만점을 받는 것과 985점 만점을 받는 것의 차이와 같이 대형 모델의 지능을 테스트하는 데 자주 사용되는 지체 문제에도 쉽게 답할 수 있습니다.

그리고 '밤에 점심 고기를 먹을 수 있느냐'는 질문이 있는데, 스카이워크 o1 라이트는 음식 이름에 현혹되지 않습니다.

코드 문제도 수정할 수 있습니다.
Skywork o1 Lite는 LeetCode의 섬 수 문제와 같은 일부 코드 문제를 해결할 수 있습니다.
문제는 "1(육지)과 0(물)이 있는 2차원 격자 지도가 주어졌을 때, 섬의 개수를 세는 문제입니다. 섬은 물로 둘러싸여 있으며 인접한 육지를 가로 또는 세로로 연결하여 형성되며, 격자의 네 면이 모두 물로 둘러싸여 있다고 가정할 수 있습니다."입니다.

이 시점에서 다음 결론을 도출할 수 있습니다:
한편으로는 대형 모델들이 넘어지곤 했던 '작은' 문제들도 추론 능력을 갖춘 스카이워크 o1의 눈에는 식은 죽 먹기입니다. 반면에사고와 계획, 자기 성찰과 자기 검증의 완전한 연결 고리또한 Skywork o1은 복잡한 문제 시나리오를 통해 사고하고 보다 정확하고 효율적인 결과를 도출할 수 있습니다.
이처럼 이전보다 훨씬 더 강력해진 추론 능력은 스카이워크 o1의 잠재력을 더욱 다양한 펜던트 작업과 영역, 특히 논리적 추론과 복잡한 과학 및 수학 작업에서 적용될 수 있도록 영감을 불어넣을 것입니다. 또한 Skywork의 출시는 창의적인 글쓰기와 같은 고품질 콘텐츠 생성 및 심층 검색 작업의 효율성을 더욱 최적화할 것입니다.
국내 O1 모델
자체 연구 기술 중심
이전에 우리는 이미 검색, 음악, 게임, 소셜 네트워킹, AI 단막극 등 쿤룬 월드와이드가 제안한 일련의 생성형 AI 버티컬 애플리케이션을 목격했습니다. 그 이면에는 쿤룬 완웨이는 빅 모델의 기본 기술 연구 개발에서 오랫동안 레이아웃을 가지고 있었습니다.
쿤룬 완웨이는 2020년부터 AI 빅 모델에 대한 투자를 지속적으로 늘려왔으며, ChatGPT가 출시된 지 한 달 만에 자체 AIGC 모델 시리즈를 출시했습니다. 쿤룬은 이미 세계 최초의 AI 스트리밍 음악 플랫폼인 멜로디오, AI 음악 창작 플랫폼인 무레카, AI 단편 드라마 플랫폼인 무레카 등 다양한 분야에서 애플리케이션을 출시했습니다. SkyReels 기타 등등.
기본 기술 수준에서 쿤룬은 이미 '산술 인프라-빅 모델 알고리즘-AI 애플리케이션'의 전체 산업 체인 레이아웃을 구축했으며, 그 중 '톈궁' 시리즈 빅 모델이 핵심입니다.
작년 4월 쿤룬 MS는 자체 개발한 '톈궁 1.0' 모델을 출시했습니다. 올해 4월, 톈궁 모델은 3.0 버전으로 업그레이드되어 4천억 개의 매개변수를 가진 MoE 하이브리드 전문가 모델을 채택하고 동시에 오픈소스를 선택했습니다. 이제 Tiangong 4.0 버전은 논리적 추론 작업의 용량 향상을 달성하기 위해 지능형 출현 방법을 기반으로 합니다.
기술적으로는 다음과 같이 Skywork가 자체 개발한 3단계 교육 솔루션 덕분에 논리적 추론 과제에 대한 Skywork o1의 성능이 크게 향상되었습니다:
첫째추론 및 성찰 기술 교육Skywork o1은 자체 개발한 다중지능체 시스템을 통해 고품질의 단계별 사고, 반영 및 검증 데이터를 구축하며, 지속적인 사전 학습과 기본 모델의 감독 미세 조정을 위해 고품질의 다양한 장시간 사고 데이터로 보완합니다.
둘째추론 집중 학습Skywork o1 팀은 단계별 추론 향상을 위한 최신 Skywork o1 프로세스 보상 모델(PRM)을 개발하여 복잡한 추론 과제에서 중간 및 사고 단계가 최종 답에 미치는 영향을 효과적으로 포착할 뿐만 아니라 자체 개발한 단계별 추론 향상 알고리즘과 결합하여 모델의 추론 및 사고 능력을 더욱 강화했습니다.
셋째추론. Tiangong이 자체 개발한 Q * 온라인 추론 알고리즘을 기반으로 모델과 함께 작동하여 온라인으로 사고하고 최상의 추론 경로를 찾습니다. Q * 알고리즘이 구현되어 공개되는 것은 이번이 세계 최초이며, 이는 수학 등 데이터 세트에 대한 LLM의 추론 능력을 크게 향상시키고 컴퓨팅 리소스에 대한 수요를 줄일 수 있습니다.

MATH 데이터 세트에서 Q *는 DeepSeek-Math-7b가 55.4%의 정확도로 향상되도록 지원하여 쌍둥이자리 Ultra.
Q * 알고리즘 논문 주소: https://arxiv.org/abs/2406.14283
쿤룬완웨이의 기술력은 업계 최고 수준에 도달했으며, 치열한 경쟁이 벌어지는 생성 AI 분야에서 점차 확고한 입지를 다지고 있음을 알 수 있습니다.
현재 제너레이티브 AI 애플리케이션이 꽃을 피우고 있는 것에 비해 연구는 기초 기술 수준에서 '깊은 물'로 들어가기 시작했습니다. 장기간 축적된 기술을 보유한 기업만이 우리 삶을 변화시킬 차세대 애플리케이션을 구축할 수 있습니다.
앞으로 쿤룬 완웨이가 더욱 강력한 기술을 선보일 수 있기를 기대합니다.
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...