OpenAI, o3 및 o3-mini를 공식 출시하며 ARC-AGI 벤치마크를 경신한 최초의 AI 모델이 되었습니다.

2.4K 0

OpenAI正式发布o3和o3-mini，成为首个突破 ARC-AGI 基准测试的 AI 模型

오늘 새벽 2시, 12일간의 라이브 스트리밍이 드디어 마지막 장에 이르렀습니다. OpenAI o3가 공식 출시되었습니다!

O3는 O1 모델 제품군의 후속 모델입니다. 이 유형의 모델은 모델이 질문에 답하기 전에 더 많은 시간을 생각(추론)하여 답변의 정확성을 높일 수 있는 것이 특징입니다. 그러나 OpenAI는 이름에서 o2를 생략했는데, 이는 영국에 O2라는 통신 회사가 있어 혼동을 일으킬 수 있는 저작권 문제를 피하기 위한 조치였다고 The Information에 따르면 샘 알트먼은 오늘 오후 라이브 스트림에서 이를 확인했습니다.

실제로 OpenAI는 어제부터 모델을 워밍업하고 있습니다. 그리고 이미 개발자들은 OpenAI 웹사이트에서 o3_min_safety_test에 대한 참조를 찾아볼 수 있습니다.

o3 출시일

이제 소문대로 o3와 o3-mini 시작하겠습니다! 안타깝게도 o3 시리즈 모델은 대중에게 직접 공개되지 않고 먼저 보안 테스트를 거칠 예정입니다. 샘 알트먼은 또한 오늘은 출시가 아니라 발표일 뿐이라고 지적했습니다.

샘 알트먼은 1월 말경에 o3 미니를 출시할 예정이며, 그 직후에 정식 o3 모델을 출시할 계획이라고 언급했습니다.

o3와 o3-mini의 차이점

o3-mini: o3-mini는 모델 성능을 고려하면서 추론 속도를 개선하고 추론 비용을 줄이는 데 중점을 둔 보다 비용 효율적인 o3 버전입니다. 고성능과 저렴한 비용으로 프로그래밍에 이상적입니다.

낮음, 중간, 높음 등 세 가지 추론 시간 옵션을 지원합니다.

o1에 비해 Codeforces에서 o3-mini의 성능은 놀라울 정도로 비용 효율적이기 때문에 프로그래밍에 사용하기에 탁월한 모델입니다.

수학 문제의 경우, o3-mini(낮음)는 gpt-4o에 필적하는 낮은 지연 시간을 달성합니다.

o3-mini의 모든 API 기능과 해당 기능은 아래에 나열되어 있습니다:

o3 적성 검사

o3는 얼마 전 출시 된 Google의제미니 2.0 플래시 사고비교:

o3의 능력은 오늘날 거의 모든 모델에 직격탄을 날리고 있습니다. o3의 기능을 살펴보세요.

왼쪽에 있습니다.소프트웨어 엔지니어링 시험(SWE-Bench Verified).이것은 프로그램을 작성하는 테스트와 같습니다. 예를 들어 소프트웨어를 빠르고 정확하게 작성하고 버그(작은 오류)가 없어야 합니다. o3가 일류 소프트웨어 엔지니어처럼 완벽한 코드를 작성할 수 있는지 확인하는 것입니다. o3의 점수: 71.7%로 여전히 o1보다 훨씬 강합니다. 오른쪽의 벤치마크는 좀 더 공격적인 것으로, 세계적으로 유명한 코딩 대회 플랫폼인 Codeforces입니다. o3의 점수는 2,727점으로 전체 175위에 해당하며, 이미 인간의 99.99%를 넘어섰습니다.

OpenAI正式发布o3和o3-mini，成为首个突破 ARC-AGI 基准测试的 AI 模型
o1의 코딩 능력은 폭발적이었고, o3는 AGI라는 산의 정상을 향한 또 다른 큰 발걸음을 내디뎠습니다.

OpenAI正式发布o3和o3-mini，成为首个突破 ARC-AGI 基准测试的 AI 模型 수학 경시대회인 AIEM 2024와 박사급 과학 시험인 GPQA 다이아몬드는 만점에 가까웠는데, 제 기억이 맞다면 AI가 만점에 가까운 수준에 도달한 것은 AIEM 2024가 처음이었을 것입니다. 박사 수준의 과학 시험은 발전해 왔지만 수학과 프로그래밍만큼 격렬하게 발전하지는 않았습니다.

다음 수학 벤치마크는 조금 더 흥미롭습니다. OpenAI正式发布o3和o3-mini，成为首个突破 ARC-AGI 基准测试的 AI 模型 Epoch AI가 개발한 수학 벤치마크 테스트인 론티어매쓰는 60명 이상의 저명한 수학자들이 협력하여 AI의 고급 수학적 추론 능력을 평가하기 위해 개발했습니다. 또한 데이터 오염을 방지하기 위해 모든 문제는 이전에 공개된 적이 없는 독창적이고 새로운 문제입니다.
이전에는 GPT-4 및 쌍둥이자리 1.5 Pro 이 모델은 GSM-8K 및 MATH와 같은 다른 전통적인 수학 벤치마크에서 901 TP3T 이상의 성공률과 대조적으로 21 TP3T 미만의 성공률로 평가됩니다. 그리고 이번에는.O3를 25.2%로 직접. 다른 주요 모델들은 여전히 전통적인 수학 벤치마크를 적용하고 있지만, o3는 정말 다른 세계로 나아가고 있습니다.

o3, ARC-AGI 벤치마크를 경신한 최초의 AI 모델이 되다

ARC 프라이즈 재단은 "벤치마킹을 통해 AGI로 가는 길의 북극성이 되는 것"을 목표로 하는 비영리 단체입니다. 이 단체의 첫 번째 벤치마크인 ARC-AGI는 5년 동안 제안되었지만 아직 정복되지 않았습니다.

지금까지 캄라트는 o3가 벤치마크에서 우수한 수준을 달성하여 ARC-AGI 벤치마크를 경신한 최초의 AI 모델이 되었다고 발표했습니다.

2019년에 처음 발표된 ARC-AGI는 일련의 추상화 및 추론 과제를 통해 AI 시스템의 능력을 테스트하는 것을 목표로 합니다. 기존의 기술 측정은 사전 지식과 경험에 의존하는 경향이 있기 때문에 지능을 효과적으로 나타내지 못하는 반면, 진정한 지능은 광범위한 적응성과 일반화 가능성을 반영해야 하기 때문입니다. 그래서 탄생한 것이 바로 ARC-AGI로, 각 과제는 입출력 예제로 구성된 패턴을 인식하고 새로운 문제를 해결하기 위해 AI를 필요로 합니다. 이러한 과제는 격자 형태로 제시되며, 각 사각형은 10가지 색상 중 하나이고 격자의 크기는 1x1에서 30x30까지 다양합니다. 참가자는 주어진 입력에 따라 올바른 출력을 생성하여 추론 및 추상화 능력을 테스트해야 합니다. 간단히 말해서 패턴을 찾는 것으로 이해할 수 있습니다. 아마도 그렇게 작동할 것입니다: OpenAI正式发布o3和o3-mini，成为首个突破 ARC-AGI 基准测试的 AI 模型

ARC-AGI 벤치마크에서 인공지능은 하나의 입력에 기반해 출력을 예측하기 전에 쌍을 이루는 '입력-출력' 예제를 바탕으로 패턴을 찾아야 하는데, 아래 그림은 몇 가지 예를 보여줍니다. 졸업 시즌 채용이나 공무원 시험에 응시해 본 사람이라면 이러한 그래픽 추론 문제가 낯설지 않을 것입니다.
OpenAI正式发布o3和o3-mini，成为首个突破 ARC-AGI 基准测试的 AI 模型

매우 어렵고 추상적입니다. 이전 세대의 모델에 대한 등급은 여기에서 확인할 수 있습니다:
o3 제품군은 ARC-AGI 벤치마크에서 75.7%의 최소 성능을 달성하며, 더 많은 연산 자원을 사용해 더 오랜 시간 동안 생각할 수 있는 경우 87.5%에 도달할 수 있다고 합니다.
OpenAI正式发布o3和o3-mini，成为首个突破 ARC-AGI 基准测试的 AI 模型 0%에서 5%까지 5년이 걸렸지만, 이제 5%에서 87.5%까지 반년밖에 걸리지 않았습니다. 그리고 이에 상응하는 인간 임계점 점수는 85%입니다. AGI로 가는 길에 더 이상 장애물은 없습니다.

o3 모델 작동 방식

현재로서는 o3 모델이 어떻게 작동하는지에 대해 조금만 추측할 수 있습니다. 토큰 자연어 프로그램 검색 및 실행을 위한 공간 - 테스트 중에 모델은 작업을 해결하는 데 필요한 단계를 설명하는 가능한 사고 사슬의 공간을 다음과 같은 방식으로 검색합니다. 알파제로 스타일의 몬테카를로 트리 검색과 유사할 수 있는 방식으로 검색합니다. o3의 경우 일종의 평가 모델에 의해 검색이 안내될 수 있습니다. 딥마인드의 데미스 하사비스는 2023년 6월 인터뷰에서 딥마인드가 이 개념을 오랫동안 연구해 왔다고 암시한 바 있는데, 이 작업은 오랫동안 진행되어 온 작업입니다.