경제일보 - 아시아 경제시장의 맥을 짚다
패밀리 사이트
아주일보
베트남
회원서비스
로그인
회원가입
지면보기
네이버블로그
금융
산업
생활경제
IT
건설
정치
피플
국제
사회
문화
딥인사이트
검색
2026.04.24 금요일
맑음
서울 22˚C
맑음
부산 19˚C
맑음
대구 19˚C
맑음
인천 17˚C
흐림
광주 15˚C
흐림
대전 21˚C
흐림
울산 12˚C
맑음
강릉 15˚C
맑음
제주 19˚C
검색
검색 버튼
검색
'GPT-5.5'
검색결과
기간검색
1주일
1개월
6개월
직접입력
시작 날짜
~
마지막 날짜
검색영역
제목
내용
제목+내용
키워드
기자명
전체
검색어
검색
검색
검색결과 총
4
건
오픈AI 'GPT-5.5' 전격 공개…단순 성능 넘어 '자율성' 경쟁으로
[경제일보] 생성형 인공지능(AI) 시장의 선두 주자 오픈AI가 복잡한 업무를 스스로 계획하고 실행하는 'AI 에이전트' 성능을 극대화한 최상위 모델 'GPT-5.5'를 전격 공개했다. 불과 두 달 전 GPT-5.4를 출시했던 오픈AI가 이례적으로 빠른 속도로 후속 모델을 내놓은 것은 최대 라이벌 앤트로픽의 거센 추격을 뿌리치고 차세대 AI 기술의 핵심인 에이전트 시장 패권을 선점하겠다는 강력한 의지로 풀이된다. 오픈AI는 23일(현지시간) "지금까지 선보인 모델 중 가장 뛰어나고 직관적인 GPT-5.5를 출시한다"고 밝혔다. GPT-5.5는 코딩 온라인 리서치 데이터 분석 소프트웨어 조작 등 인간의 실제 업무 전반을 자율적으로 지원하도록 설계된 것이 특징이다. 특히 AI가 스스로 코드를 계획하고 작성 테스트 수정하는 에이전트형 코딩과 컴퓨터 활용 능력에서 비약적인 발전을 이뤘다는 게 회사 측 설명이다. 그레그 브록먼 오픈AI 사장은 "이 모델은 더 적은 지시로도 더 많은 일을 해낼 수 있다"며 "불분명한 문제를 보고 다음에 무엇을 할지 스스로 파악해내는 능력이 우리가 앞으로 컴퓨터를 사용하는 방식의 기초를 다질 것"이라고 강조했다. 이번 발표의 모든 초점은 앤트로픽과의 직접적인 비교에 맞춰졌다. 오픈AI가 공개한 성능지표(벤치마크) 보고서를 보면 GPT-5.5는 지식 업무 수행 능력(GDPval)과 사이버 보안 능력(CyberGym) 등 상당수 영역에서 앤트로픽의 주력 모델 '클로드 오퍼스 4.7'을 압도했다. 하지만 IT 업계의 수요가 가장 높은 코딩 부문(SWE-Bench Pro)에서는 오퍼스 4.7에 5%포인트 이상 뒤처지는 결과가 나왔다. 이에 대해 오픈AI는 "앤트로픽의 모델은 데이터 암기 징후가 보고됐다"며 평가 결과 자체를 인정할 수 없다는 이례적인 공세에 나섰다. 평가 데이터가 오염돼 벤치마크 점수만 높게 나올 뿐 실제 성능은 아니라는 주장이다. 이는 두 회사 간의 경쟁이 단순한 성능 수치를 넘어 평가의 공정성과 신뢰도 문제로까지 번지는 '벤치마크 전쟁'으로 격화하고 있음을 보여준다. 두 거대 AI 기업의 근본적인 철학 차이 역시 수면 위로 떠올랐다. 앤트로픽은 자사의 최첨단 모델 '클로드 미토스'가 사이버 공격에 악용될 수 있다는 우려 때문에 소수의 파트너사와 기관에만 제한적으로 공개하는 극도의 신중함을 보이고 있다. 반면 오픈AI는 강력한 안전장치를 적용해 최신 모델을 일반 유료 구독자에게 과감히 출시하는 개방적 접근 방식을 택했다. 샘 올트먼 오픈AI 최고경영자(CEO)가 최근 팟캐스트에서 앤트로픽의 폐쇄적 전략을 '공포에 기반한 마케팅'이라고 직격탄을 날린 것은 이러한 철학의 균열을 상징적으로 드러낸다. 뉴욕타임스 역시 "네트워크를 방어하려는 사람과 침해하려는 사람 모두에게 유용한 기술을 어떻게 다뤄야 하는지에 대한 두 회사의 의견이 완전히 갈린다"고 분석했다. 오픈AI의 조급함에 가까운 속도전은 기업공개(IPO)를 앞두고 시장의 주도권을 절대 빼앗길 수 없다는 비즈니스적 판단이 깔려있다. GPT-5.5의 궁극적인 목표는 챗GPT와 코딩 도구 그리고 브라우저 기능을 하나로 통합한 '슈퍼 앱'의 기반이 되는 것이다. AI가 사용자의 의도를 파악해 모든 디지털 작업을 알아서 처리해주는 완전한 형태의 AI 에이전트 서비스를 구현하겠다는 야심이다. 이 비전의 성공을 위해선 시장에 '가장 강력한 모델은 오픈AI'라는 인식을 확고히 각인시켜야 한다. 한편 GPT-5.5의 등장은 생성형 AI 경쟁의 패러다임이 기존의 텍스트와 이미지 생성을 넘어 복잡한 문제를 자율적으로 해결하는 'AI 에이전트' 경쟁으로 완전히 전환됐음을 알리는 신호탄이다. 앤트로픽 미토스와의 직접적인 성능 비교를 피하면서도 자신감을 드러낸 오픈AI의 행보는 AI 에이전트 시대의 본격적인 개막을 알린다. 시장 패권을 둘러싼 두 거인의 기술 전쟁은 이제 막 시작됐을 뿐이다.
2026-04-24 15:41:02
오픈AI, GPT-5.2 전격 출시… 구글 추격에 '한 달 만의 승부수'
[이코노믹데일리] 오픈AI(CEO 샘 올트먼)가 구글의 거센 추격을 따돌리기 위해 이전 모델 출시 한 달 만에 성능을 대폭 강화한 ‘GPT-5.2’를 전격 공개하며 초거대 AI 패권 경쟁에 다시 불을 붙였다. 오픈AI는 11일(현지시간) 전문 지식 업무 수행 능력을 극대화한 GPT-5.2 시리즈를 출시한다고 밝혔다. 이번 신모델은 기존의 즉답(Instant) 및 사고(Thinking) 모드에 더해 복잡한 장기 연산에 최적화된 ‘프로(Pro)’ 모드를 추가하며 총 3가지 라인업으로 구성됐다. 오픈AI가 이례적으로 한 달 만에 새 버전을 내놓은 것은 경쟁사인 구글의 ‘제미나이3 프로’가 벤치마크 성능에서 앞서나가며 점유율을 위협했기 때문이다. 실제 샘 올트먼 CEO는 제미나이3 프로 출시 직후 사내에 최고 비상 단계인 ‘코드레드(Code Red)’를 발령하고 챗GPT 성능 개선에 총력을 기울일 것을 주문한 바 있다. GPT-5.2는 이러한 위기감 속에 탄생한 만큼 압도적인 성능 지표를 제시했다. 전문 산업 현장의 44개 직종 업무 능력을 평가하는 GDPval 테스트에서 GPT-5.2 프로 모드는 74.1%를 기록해 인간 전문가 수준에 도달했다. 이는 전작인 GPT-5(38.8%) 대비 비약적인 성장이다. 소프트웨어 엔지니어링 능력을 평가하는 SWE 벤치마크에서는 80%를 기록해 제미나이3 프로(76.2%)를 따돌렸고 코딩 특화 모델인 앤트로픽의 클로드 오퍼스4.5(80.9%)와 대등한 수준에 올랐다. 또한 ‘인간의 마지막 시험’으로 불리는 박사급 추론 능력 평가(HLE)에서도 검색 도구 활용 시 50%의 정답률을 보여 제미나이3 프로(45.8%)를 앞섰다. 고질적인 문제였던 환각(Hallucination) 현상도 개선됐다. 내부 테스트 결과 사고 모드의 오류율은 6.2%로 전작 대비 약 30% 감소해 신뢰도를 높였다. 오픈AI는 이 밖에도 연령 예측 모델을 적용해 미성년자 보호 기능을 강화하고 디즈니와의 라이선스 계약을 통해 소라(Sora) 앱에서 디즈니 IP를 활용한 영상 제작을 지원하는 등 콘텐츠 확장에도 나섰다. 한편 샘 올트먼 CEO는 회사 창립 10주년을 맞아 “향후 10년 안에 초지능(AGI) 구축이 거의 확실시된다”며 “2035년에는 상상하기 어려운 일을 해낼 것”이라는 비전을 제시했다.
2025-12-12 16:39:47
"더 똑똑한 AI는 의미 없다"…오픈AI와 구글, '성능 경쟁' 끝내고 '용도 전쟁' 돌입
[이코노믹데일리] 오픈AI의 'GPT-5.1'과 구글의 '제미나이3(Gemini 3)'가 일주일 간격으로 시장에 쏟아지며 전 세계 AI 업계가 다시금 들썩이고 있다. 두 모델 모두 전작을 뛰어넘는 성능을 보여주고 있지만 과거처럼 '누가 더 똑똑한가'를 가리는 수직적 경쟁은 끝났다는 분석이 지배적이다. 대신 구글은 압도적인 '창의성과 멀티모달'을, 오픈AI는 극한의 '속도와 효율'을 택하며 각자의 생존 영역을 구축하는 '각자도생'의 길로 들어섰다. 구글이 내세운 제미나이3 시리즈의 핵심 무기는 '복합 멀티모달' 능력이다. 텍스트를 넘어 영상, 이미지, 대용량 문서(PDF)를 한 번에 처리하는 능력에서 경쟁사를 압도한다. 구글은 공식 블로그를 통해 인간 전문가 수준을 평가하는 ‘인류의 마지막 시험(Humanity's Last Exam, HLE)’ 벤치마크 결과 최상위 모델인 ‘제미나이3 프로’가 37.5%의 정답률을 기록해 26.5%에 그친 GPT-5.1을 큰 격차로 따돌렸다고 밝혔다. 여기에 100만 토큰 이상의 대규모 문맥 유지력과 안드로이드, 유튜브 등 구글 생태계와의 연동성은 제미나이3만의 강력한 해자(Moat)다. 특히 텍스트 명령만으로 3D 시뮬레이션과 게임 구조를 짜주는 '바이브 코딩(Vibe Coding)'과 4K 해상도 이미지를 생성하는 '나노바나나 프로'는 크리에이터들에게 대체 불가능한 옵션으로 자리 잡고 있다. 미국 테크 매체 톰스가이드가 진행한 비교 실험에서 제미나이3가 창의적 글쓰기, 이미지 분석 등 7개 항목에서 승리한 것도 이러한 특성을 뒷받침한다. 반면 오픈AI의 GPT-5.1은 철저히 '비즈니스 효율'에 초점을 맞췄다. '인스턴트(Instant)'와 '씽킹(Thinking)'으로 이원화된 적응형 추론 모드는 작업 난이도에 따라 리소스를 조절하며 속도와 비용을 최적화한다. 전작(GPT-5) 대비 2~3배 빨라진 속도와 절반으로 줄어든 토큰 비용은 기업 고객들에게 거부할 수 없는 매력이다. 코딩 벤치마크인 SWE-bench Verified에서 76.3%를 기록하며 제미나이3 프로(76.2%)를 근소하게 앞선 점도 실무 개발자들의 지지를 받는 요인이다. 레딧 등 개발자 커뮤니티에서는 "실시간 대화나 API 기반 서비스에선 GPT-5.1이 더 안정적"이라는 평가가 주를 이룬다. 하지만 화려한 성능표 뒤에는 두 기업이 감추고 싶은 '불편한 진실'도 존재한다. 구글 제미나이3의 경우 혁신적인 기능만큼이나 높은 '진입 장벽'이 문제다. 심층 추론 기능인 '딥싱크(DeepThink)'는 대규모 문맥 분석에 탁월하지만 초기 버전에서 간헐적인 추론 오류가 보고되고 있으며 무엇보다 API 단가가 지나치게 높다는 지적을 받는다. 아무리 성능이 좋아도 비용 효율이 떨어지면 대다수 기업이 도입하기 어렵다. '나노바나나 프로' 같은 도구 역시 고사양을 요구해 일반 사용자의 접근성은 떨어진다. 오픈AI의 GPT-5.1 역시 비판에서 자유롭지 않다. '효율'을 강조했지만 이는 역설적으로 기술적 혁신이 정체되었다는 방증이기도 하다. 복잡한 멀티모달 처리나 초장기 문맥 유지력에서 구글에 비해 보수적인 접근을 취하면서 "더 이상 오픈AI가 AI 트렌드를 선도하지 못한다"는 회의론도 고개를 들고 있다. 벤치마크 점수 0.1% 차이로 우위를 주장하는 마케팅 전쟁에 피로감을 호소하는 목소리도 높다. 결국 시장의 선택 기준은 '성능 우열'이 아닌 '목적 적합성'으로 이동하고 있다. 테크크런치는 "더 뛰어난 모델을 찾는 시대는 끝났다. 이제는 어떤 일을 누구에게 맡길지가 핵심"이라고 진단했다. 톰스가이드 역시 “창의적·복합적 사고가 필요하면 제미나이 3, 정밀성과 계산 중심 업무라면 GPT-5.1이 더 적합하다”고 평가했다. 이제 AI 전쟁의 승패는 누가 더 높은 점수를 받느냐가 아니라 누가 더 빨리 사용자의 구체적인 업무 파이프라인에 녹아드느냐에 달려있다. 2025년의 AI 시장은 '절대 강자'가 사라진 자리에 '최적의 도구'만이 살아남는 춘추전국시대로 접어들었다.
2025-11-23 15:07:31
중국 '키미-K2' 도발에 美 빅테크 총반격…GPT-5.1·제미나이3 잇따라 출격
[이코노믹데일리] 중국의 AI 스타트업 문샷AI가 쏘아 올린 '키미-K2-씽킹'이 전 세계 AI 업계를 강타하며 제2의 '딥시크 모먼트'를 재현하고 있다. 중국의 최신 모델이 벤치마크에서 미국의 선두 주자들을 압도하자 오픈AI와 구글, xAI 등 미국 빅테크들이 일제히 차세대 모델을 쏟아내며 진화에 나서는 등 미·중 AI 기술 패권 전쟁이 최고조로 치닫고 있다. 20일 업계에 따르면 이번 격전의 방아쇠는 지난 6일 문샷AI가 공개한 오픈소스 추론 모델 '키미-K2-씽킹(Kimi-K2-Thinking)'이 당겼다. 이 모델은 특정 분야에서 인간 전문가 수준을 평가하는 HLE(Human Level Evaluation) 테스트에서 44.9점을 기록하며 오픈AI의 'GPT-5'(41.7점)와 앤트로픽의 '클로드 소넷 4.5'(32점)를 제치고 1위에 오르는 이변을 연출했다. 웹 검색 능력을 평가하는 '브라우즈콤프'에서도 60.2점을 받아 GPT-5(54.9점)를 따돌렸다. 미국 빅테크들은 즉각적인 반격에 나섰다. 오픈AI는 키미-K2 출시 일주일 만인 13일 수학과 코딩 성능을 대폭 강화한 'GPT-5.1'을 공개하며 맞불을 놨다. 이어 일론 머스크의 xAI가 17일 심층 사고 기능을 탑재한 '그록 4.1'을 내놓으며 잠시 벤치마크 상위권을 탈환했으나 곧바로 구글이 차세대 모델 '제미나이3(Gemini 3)'를 출시하며 판을 다시 뒤집었다. 제미나이3는 HLE 벤치마크에서 37.4점을 기록, GPT-5.1과 클로드 소넷 4.5를 앞서며 현존 최고 성능임을 과시했다. 이번 사태가 '딥시크 모먼트'로 불리는 이유는 단순히 성능 때문만이 아니다. 중국 AI 모델들이 보여주는 압도적인 '비용 효율성'이 미국 빅테크들에 실질적인 공포감을 주고 있기 때문이다. CNBC 등 외신에 따르면 문샷AI의 모델 훈련 비용은 약 460만 달러(약 67억원) 수준으로 추정된다. 이는 수억 달러를 쏟아부어야 하는 미국 모델들에 비해 파괴적인 가격 경쟁력을 갖춘 것이다. 실제로 또 다른 중국 AI 기업 딥시크는 18일(현지시간) 학술지 네이처에 게재한 논문을 통해 자사 모델 'R1'의 훈련 비용이 불과 29만 4000달러(약 4억원)였다고 밝혔다. 이는 오픈AI가 2023년 공개한 기초 모델 훈련 비용(1억달러 이상)의 0.3% 수준에 불과하다. 중국이 저렴한 비용으로 미국 최상위 모델에 근접하거나 능가하는 성능을 뽑아내면서 '자본력'으로 기술 격차를 유지해 온 미국의 우위가 흔들리고 있다는 분석이 나온다. 미·중 간의 기술 격차 축소는 수치로도 증명된다. 스탠퍼드대 인간중심AI연구소(HAI) 보고서에 따르면 2024년 1월 103점에 달했던 미·중 최상위 모델 간 성능 격차는 올해 2월 23점까지 좁혀졌다. MMLU(대규모 다중 작업 언어 이해) 벤치마크 격차는 2023년 20%포인트에서 2024년 말 0.3%포인트로 사실상 사라졌다. 업계 관계자는 "중국 모델들이 오픈소스와 효율성을 무기로 미국의 턱밑까지 추격했다"며 "미국 빅테크들이 성능뿐만 아니라 비용 구조 혁신 없이는 주도권을 장담하기 어려운 국면에 진입했다"고 진단했다.
2025-11-20 08:24:37
처음
이전
1
다음
끝
많이 본 뉴스
1
[제약 명가 DNA 분석③ 한미약품] 연구실의 집념에서 글로벌 혁신 무대로…한미약품 성장과 도전의 역사
2
2시간 줄 서서 굿즈 산다…2030 여성팬이 바꾼 한국 야구의 얼굴
3
"다채로운 꿈을 밝히고, 우정의 다리를 놓다" 국제 중국어의 날 행사, 서울랜드서 개최
4
[제약 명가 DNA 분석② 유한양행] 민족기업의 꿈에서 글로벌 신약 무대로…유한양행 성장과 도전의 역사
5
납기·안정성 흔드는 노사 갈등…삼성전자 파업 변수, '코리아 디스카운트' 번지나
6
[베트남경제] 베트남, "성장률 두 자릿수 달성 위해 GDP 40% 투자할 것"
7
[월드IT쇼] 삼성은 경험, LG는 공간으로 답했다…같은 AI 다른 방향
8
건설업계 '인력 구조조정' 확산…일감 감소·미분양 부담에 고용 한파 짙어져
영상
Youtube 바로가기
오피니언
[기자수첩] 전환 압박은 커지는데 지원은 부족…전기트럭 정책 엇박자