오픈AI가 새로운 멀티모달 모델(LMM) ‘GPT-4o‘를 공개했습니다. 이 모델은 음성 비서 기능을 대폭 강화하여 텍스트, 이미지, 오디오로 실시간 대화가 가능합니다. GPT-4o의 평균 응답 시간은 232밀리초로 이는 평균 320밀리초로 대답하는 인간의 응답 시간과 비슷했습니다. 한 마디로 사람과 견줄만한 속도로 세상을 보고, 듣고, 생각할 수 있는 AI라는 것입니다. 사용해 본 결과 정말 빠른 응답 속도를 보여줬습니다.
GPT-4o 모델은 ChatGPT 모바일 앱에서도 무료로 사용 가능하니 꼭 한번 체험해 보시기 바랍니다.
단, 아직까지 GPT-4 유료 구독자에 한해서 이미지 생성과 실시간 인터넷 검색 기능을 제공합니다. (추후에 업데이트 될 예정)
GPT 무료 사용자에게 공개된 유료 기능들에 대한 자세한 내용은 아래 링크 글을 통해 확인해 보시기 바랍니다.
이날 시연된 GPT-4o는 다양한 목소리 변조, 실시간 통번역, 이미지 처리 등 다양한 기능을 선보였습니다.
무엇보다 가장 흥미로운 건 AI간의 음성 대화였습니다. 이전에는 음성과 음성 연결은 불가능했습니다. 머지않아 영화 아이언맨에서 등장한 자비스가 현실 세계에서 구현될 것으로 보입니다.
다음 영상은 OpenAI에서 공개한 AI간의 대화 영상입니다.
‘GPT-4o’의 주요 기능 및 특징
GPT-4o의 ‘o’는 모든 것이라는 ‘옴니'(omni, 모든 것)를 뜻합니다. 즉, 다방면에서 혁신적인 성능을 자랑합니다.
그럼 유튜브 스트리밍에서 공개된 주요 기능들을 자세히 살펴보겠습니다.
1. 실시간 음성 비서 기능
GPT-4o는 구두로 질문을 하면 최소 232밀리초, 평균 320밀리초 안에 오디오로 응답할 수 있습니다. 사람의 반응 속도와 비슷하여 사용자가 즉각적인 피드백을 받을 수 있습니다. 기존 GPT-4의 응답 시간인 5.4초에 비해 크게 향상되었습니다.
무엇보다 실시간 통번역 기능 중에 사람이 끼어 들어도 이를 이해하는 모습을 보여주었고, AI 목소리에 감정을 실어서 답변을 해주기도 하였습니다.
2. 다국어 능력
GPT-4는 한국어를 포함한 20개 언어를 거의 실시간으로 번역할 수 있는 뛰어난 다국어 능력을 자랑합니다. 토크나이저 압축 기술 덕분에 번역 성능이 크게 향상되었습니다.
한국어 사용에 특화된 클로드3와 비교해도 전혀 손색 없는 훌륭한 한국어 사용 능력을 보여주고 있습니다.
이전에는 GPT-4와 클로드3를 비교했을 때, 한국어 표현력 면에서 클로드3가 더 뛰어나다는 평가가 많았습니다. 하지만 이제는 두 모델 모두 뛰어난 한국어 응답을 제공합니다. 더 자세한 비교 내용은 다음 글을 통해 확인해 보세요.
3. 이미지 처리 능력
이번 모델은 이미지 처리에서도 뛰어난 성능을 발휘합니다.
예를 들어, 종이에 적힌 수학 문제를 보고 그 답을 풀어내는 과정을 정확히 수행할 수 능력을 보여줬습니다.
이제는 카메라 화면으로 수식을 비추기만 해도 AI가 진짜 사람처럼 인식하고 원하는 방식의 답을 제공할 수 있게 되었습니다.
GPT-4o와 GPT-3.4 한국어 비교
예전 GPT-3.5와 GPT-4o의 한국어 표현력을 비교해보았습니다.
주제: 지구에 운석이 떨어져서 지구가 멸망한 가운데 겨우 살아남은 한 가족의 이야기 들려줘
먼저 GPT-3.5입니다.
다음은 GPT-4o입니다.
지구는 예기치 않은 운석의 충돌로 인해 멸망의 길을 걷게 되었다. 이 운석은 엄청난 크기와 속도로 지구의 표면을 강타하며 대재앙을 일으켰다. 화산이 폭발하고, 해일이 덮치며, 대기가 불타오르는 가운데, 전 세계의 생명체는 속절없이 사라져갔다. 그러나 이 끔찍한 재앙 속에서도 기적적으로 살아남은 한 가족이 있었다.
김 씨 가족은 지구의 멸망을 예견한 아버지 김철수의 지혜 덕분에 목숨을 건졌다. 김철수는 지질학자로서 지구의 변화와 운석의 위협을 연구하고 있었다. 그는 운석의 궤도를 분석하며 충돌의 가능성을 발견했고, 가족을 보호할 계획을 세웠다.
운석 충돌 전날, 김철수는 가족을 데리고 산속의 비밀 벙커로 이동했다. 벙커는 그가 수년간 비밀리에 준비해온 것이었다. 지하 깊숙한 곳에 위치한 이 벙커는 강철 벽과 두꺼운 콘크리트로 둘러싸여 있었고, 생존에 필요한 모든 것이 갖추어져 있었다.
충돌의 충격은 상상 이상이었다. 지구는 흔들리고, 벙커는 격렬하게 요동쳤다. 공포 속에서도 김철수는 가족을 안심시키며 이 끔찍한 순간이 지나가기를 기다렸다. 며칠이 지난 후, 지진이 멈추고, 주변이 조용해지자 김철수는 벙커 문을 열고 바깥 세상을 확인하기로 했다.
밖은 잿빛으로 변해 있었다. 대지는 불타고, 하늘은 검은 구름으로 뒤덮여 있었다. 산과 나무는 모두 사라지고, 생명체의 흔적은 어디에서도 찾아볼 수 없었다. 하지만 김철수는 포기하지 않았다. 그는 가족을 이끌고 새로운 삶을 시작하기로 결심했다.
벙커 안에는 충분한 식량과 물이 있었지만, 그들은 지속 가능한 삶을 위해 자원을 절약하고, 대안을 찾아야 했다. 김철수는 남아 있는 땅에서 식물을 재배하기 시작했고, 아이들은 새로운 환경에 적응해 갔다. 시간이 지나면서 가족은 새로운 지구의 환경에 적응했고, 생존을 위해 서로를 더욱 의지하게 되었다.
김철수의 지혜와 가족의 단합으로 이들은 점차 새로운 삶을 개척해 나갔다. 지구는 비록 멸망했지만, 이 가족은 희망을 잃지 않았다. 그들은 서로의 존재와 사랑을 통해 다시 일어설 수 있었다.
이렇게 김 씨 가족은 지구의 멸망 속에서도 살아남아 새로운 미래를 개척해 나갔다. 그들의 이야기는 인류의 끈기와 희망, 그리고 가족의 소중함을 일깨워주는 한 편의 감동적인 서사시였다.
확실히 이번 업데이트로 인해 한국어 표현 능력이 기대 이상으로 좋아졌습니다.
GPT-4o 가격
미라 무라티 오픈AI 최고기술책임자(CTO)는 “전세계 모든 이용자에게 무료로 제공할 것“이라고 말했습니다. 또한 GPT-4o가 GPT-4 터보보다 두 배 더 빠르고 비용은 절반 수준이라고 설명했습니다. 여기서 말하는 비용은 전력 사용량 등의 GPT-4o를 구동하기 위한 비용입니다. 사용자 이용 비용이 아닙니다.
이제 더 많은 사용자가 경제적인 부담 없이 고성능 AI 모델을 사용할 수 있을 것으로 기대됩니다.
GPT-4o 사용 방법
기존 유료 사용자라면 chatgpt.com 사이트에 접속하여 ChatGPT 4o 사용 설정을 하면 사용할 수 있습니다.
오픈AI에서 발표한 바에 따르면, 우선 챗GPT Plus 이상의 유료 구독자에게 먼저 적용하고 무료 사용자의 경우 순차적으로 적용된다고 합니다.
2024년 5월 17일(금) 일자 기준으로 화면 UI가 변경되었습니다.
모델 선택창이 기존 GPT-3.5, GPT-4 플러스 구독 창에서 간단하게 ChatGPT Plus 업그레이드와 ChatGPT 선택 창으로 변경되었습니다.
기존에 있던 ChatGPT-3.5 모델 선택 창이 바뀐 것입니다.
이제는 ChatGPT로 ChatGPT-4o을 무료로 사용하실 수 있습니다.
챗GPT 무료 사용자에 대한 오픈AI의 공식 문서 또는 자세히 정리한 다음 링크 글을 확인해 보시기 바랍니다.
ChatGPT 4 vs ChatGPT 4o 응답 속도 비교
다음은 OpenAI의 유료 요금제인 GPT 4와 GPT 4o 응답 속도 비교 영상입니다.
질문은 “우리나라 역사를 시간 순서대로 나열해서 간략하게 설명해줘” 입니다.
먼저 GPT 4 입니다.
GPT 4 응답 속도 – 약 1분
다음은 GPT 4o 응답 속도입니다.
GPT 4o 응답 속도 – 약 16초
확실히 GPT 4o가 압도적으로 빠릅니다.
ChatGPT 4 vs ChatGPT 4o 이미지 계산 능력 비교
다음 문제를 GPT-4와 GPT-4o에게 풀이 과정을 이해하기 쉽게 설명해 달라고 요청해보겠습니다.
문제
GPT-4 결과
먼저 GPT-4 입니다. 요청 후 오랜 시간이 걸려 문제를 반복하여 풀었지만 결국 풀지 못했습니다.
GPT-4o 결과
다음은 GPT-4o입니다. 10초도 안되어서 문제를 정확하게 풀었습니다.
ChatGPT 4 vs ChatGPT 4o 이미지 생성 능력 비교
다음 문구를 GPT-4와 GPT-4o에 똑같이 요청하겠습니다.
요청 프롬프트: 달에서 잠자고 있는 토끼 두 마리사진 그려줘, 하늘에는 별이 떠있고 우주선이 날라다니고 있어, 토끼 옆에는 절구통이 있어
GPT-4 결과
먼저 GPT-4 입니다.
GPT-4o 결과
다음은 GPT-4o 입니다.
프롬프트를 정확하게 반영하여 생성한 이미지는 GPT-4o에 가깝습니다.
GPT-4o는 토끼가 달에서 자고 있는 모습이 정확하게 표현한 반면에 GPT-4는 토끼가 달에서 자고 있지 않습니다.
하지만 둘 다 뛰어난 이미지 생성 능력을 보여주고 있습니다.
애플 시리와의 통합 가능성
이번 발표에서 오픈AI는 GPT-4o가 애플의 음성 비서 ‘시리’와 통합될 가능성을 언급했습니다.
애플의 시리는 이미 많은 사용자들이 이용하고 있는 음성 AI지만, 몇 가지 제한이 있어 ChatGPT 같이 파급력이 없었습니다. 하지만 GPT-4o와의 통합은 이러한 문제를 해결하고, 시리를 더 유용한 AI 음성 비서로 만들 수 있을 것이라고 생각합니다.
1. 다국어 지원
시리는 다양한 언어를 지원하지만, 실시간 번역 기능은 제한적입니다. GPT-4o의 다국어 번역 능력은 시리가 글로벌 사용자들에게 더 유용한 도구가 될 것입니다. 특히, 한국어를 포함한 20개 언어를 즉각적으로 번역할 수 있는 기능은 큰 강점입니다.
2. 이미지 처리 및 인식
시리는 텍스트와 음성에 중점을 두고 있지만, 이미지 처리 능력은 상대적으로 약합니다. GPT-4o의 뛰어난 이미지 처리 기능이 더해진다면 놀라울 정도로 큰 변화가 있을 것으로 기대됩니다. 예를 들어, 사용자가 시리에게 종이에 적힌 정보를 인식하도록 요청할 때, GPT-4o가 이를 정확하게 처리할 수 있습니다.
실질적인 통합 가능성
오픈AI는 GPT-4o의 기술을 다양한 플랫폼에 적용할 계획을 가지고 있으며, 애플과의 협력 가능성도 높습니다. 애플은 새로운 기술을 적극적으로 도입하는 기업으로, GPT-4o의 기능을 시리에 통합하는 것은 충분히 실현 가능한 시나리오입니다.
애플은 과거에도 외부 기술을 자사의 제품에 통합하여 혁신을 이루어왔습니다. 예를 들어, 머신 러닝 및 인공지능 기술을 활용하여 카메라 성능을 개선하고, 사용자 경험을 향상시켰습니다. GPT-4o의 통합도 이러한 혁신의 연장선상에 있습니다.
발표 내용 요약
- 발표자: 오픈AI CTO 미라 무라티
- 주요 기능: 실시간 음성 응답, 다국어 번역, 이미지 처리
- 성능 개선: 반응 속도, 경제적 효율성, 모델 통합
- 출시 일정: 몇 주 안에 정식 출시, 개발자 API는 이미 공개
마치며
GPT-4o는 오픈AI의 기술력을 다시 한번 입증하며, 음성 비서, 다국어 번역, 이미지 처리 등 다양한 분야에서 혁신적인 성능을 발휘할 것으로 기대됩니다.
알트먼 CEO는 이날 행사가 끝난 뒤 “우리는 곧 공유할 내용이 더 많아질 것입니다”라고 전했습니다. OpenAI는 AI 검색 제품과 동영상 생성 AI 플랫폼인 ‘Sora’의 정식 출시, 그리고 ‘GPT-5’ 공개 등을 남겨두고 있습니다.
OpenAI에서 사전 공개한 Sora의 기능은 아래 글을 통해 확인해 보시기 바랍니다.