신규 GPT-4o 사용 방법 및 업데이트 정리(원문 다운로드 제공)

OpenAI에서 다시 한 번 놀라운 소식( GPT-4o 출시) 한국 시간으로 어제 새벽 2시에 발표했습니다. 새로운 Flagship 모델인 GPT-4o 출시 발표가 그것입니다. 이번 Spring Update를 통해 GPT-4o를 발표하면서 실시간으로 데모 버전도 보여줬는데요.

가장 큰 특징으로는
‘텍스트와 오디오, 비전(영상)을 융합하여 실시간으로 소통하는 장면’이었습니다!

개인적인 경험으로는 기존 비디오 영상 모델인 Sora 이후로 다시 한 번 Wow Moment! 와, 이게 된다고? 벌써? 라는 느낌을 받았습니다. 유튜브를 시청하면서 그 내용을 간략하게 정리해봤습니다. 하단에는 유뷰트 영상 자막을 자동으로 추출하여 번역기로 돌린 사항을 공유드립니다.(참고로 기계 작업이라 다소 어색하고 부정확 합니다)

OpenAI Spring Update 공식 업데이트 바로가기


1. GPT-4o 출시를 알리다.

GPT-4o 출시

이번 영상에서는 우측 이미지의 총 5가지 목차로 주요 내용을 설명했습니다. 특히 초반에는 GPT-4o 업데이트 목절을 OpenAI의 미션과 연결해서 설명했는데요.

OpenAI는 모든 사람이 자유롭고 광범위하게 사용할 수 있는 AI 제품을 만드는 것이 그들의 미션 임을 밝히며 그 일환으로 GPT-4o를 업데이트 하는 것임을 알렸습니다. GPT-4o의 특별한 점은 무료 사용자를 포함한 모든 사람에게 GPT 4 수준을 제공하며 향후 몇 주에 걸쳐서 반복적으로 출시할 예정이라고 합니다. 또한 최근에는 가입 절차 없이도 GPT를 사용할 수 있도록 하고 데스크틉 앱도 추가한 것은 사용자가 어디서든 쉽게 사용하도록 하기 위함입니다.


2. ChatGPT의 진화 : Text, Vision and Audio

GPT-4o 특징

사용자가 UI에 전혀 집중하지 않고 GPT와의 협업에만 집중할 수 있도록 UI를 새롭게 개편하면서도 GPT-4o가 더 중요한 것은 훨씬 빨라진 속도와 Text, Vision and Audio를 통해 멀티 모달 기능으로 기계가 인간처럼 상호작용할 수 있게 되었다는 점입니다.

뒤에 나오는 데모 버전을 보면 거의 실시간으로 소통하면서 GPT에 물어보고 답변을 받습니다. 몇 초 딜레이가 있는 것도 아니고요. 조만간 아이언맨의 자비스가 나오는 것이 아닌지 놀라움을 느끼게 합니다.

GPT-4o API

몇 가지 추가 특징을 살펴보면

  • 비전을 사용하여 텍스트와 이미지가 모두 포함된 스크린샷 사진을 업로드 하고 대화
  • 실시간 정보를 검색 및 차트 또는 모든 정보를 업로드하여 고급 데이터 분석
  • 50개 언어에 대한 ChatGPT 품질과 속도 개선
  • 모든 무료 사용자에게 GPT-4o 제공
  • 유료 사용자의 경우 무료 사용자의 최대 5배 용량 제공
  • GPT-4o는 ChatGPT 뿐만 아니라 API에서도 제공

주요 내용이 결국 사람처럼 보고, 듣고, 인식하여 말하는 멀티 모달 기능을 더 빠른 속도로 다양한 언어에 제공한다는 점입니다.

이를 통해 개발자는 GPT-4o를 통해 AI 애플리케이션을 구축할 수 있게 되었고 이는 GPT4 터보에 비해 2배 빠르고 50% 저렴하며 5배 높은 속도로 구현됩니다.


3. GPT-4o의 데모 시연

(1) 실시간 대화 소통 및 감정 이해

GPT-4o Demo

다음으로는 실제 GPT-4o 데모를 시연하는 현장 화면입니다. 관심이 있으신 분들은 꼭 한 번 실제 영상을 보시길 추천드립니다.

  1. ChatGPT를 핸드폰에서 부릅니다.
  2. 시연자는 데모 시연 중이라 긴장하고 있다며 좋은 방법을 추천해달라고 합니다.
  3. ChatGPT는 심호흡을 하라고 하자, 시연자는 굉장히 빠르게 숨을 쉽니다.
  4. ChatGPT는 ‘진공청소기 호흡’이 아니라며 천천히 할 것을 추천합니다.
  5. 시연자는 천천히 심호흡을 합니다.

여기서 놀라운 몇 가지가 나옵니다. 첫 째, GPT와 내 차례가 끝날 때까지 기다렸다가 말하지 않고 바로 소통이 됩니다. 실제로 유튜브 번역이 오류와 혼동이 있는 것이 사회자와 GPT가 중간 중간 말하기 때문입니다. 둘 째, 모델이 실시간으로 반응하기 때문에 어색한 지연이 없습니다. 또한 GPT가 감정이나 상황을 알아차려서 적절한 조언을 다시 해줍니다.

마지막으로 제 개인적으로 진공청소기 호흡이라는 재미난 표현으로 편안한 대화가 되는 부분이 놀랐고 실제로 참석자들의 해당 파트에서 웃음 소리가 들렸습니다.

그 이후 데모에는 로봇에 관한 만들어진 이야기를 추천 받으며 더 복잡한 GPT와의 상호작용이 나타나는 부분도 재미난 부분이었습니다.


(2) 선형 방정식 수학

GPT-4o Math

다음 시연은 수학 문제였습니다. 수학 문제를 그냥 제공하는 것이 아니라 종이에 작성하고 이를 GPT가 실시간으로 확인하여 답변한다는 점이 정말 정말 놀랍고, 시간 타임이 소요되지 않습니다. 질문도 복잡한 것이 답을 원하는 것이 아니라 해결되는 과정을 물어보며 실제 친절한 수학 선생님처럼 느껴집니다.

이번 시연에서 수학과 코딩을 진행했는데 전 이 부분이 의도적이었다고 생각합니다. ChatGPT의 경쟁자인 Gemini나 Claude가 이 두 가지 부분에서 앞선다는 평가가 많았었기에 이 부분을 의도적으로 강조하여 이번 업데이트로 다시금 ChatGPT가 최고라는 점을 강조한 것이라 생각합니다.


(3) 코딩 작업

GPT-4o coding

코드에 대한 시연입니다. 코드만을 제공하고 이 코드가 무엇인지 물어봅니다. 물론 채팅이 아닌 대화로 물어봅니다. ChatGPT는 이 코드를 이해하여 설명하고 아래 이미지처럼 이미지를 생성하여 설명해주기까지 합니다.

분석

이 외에도 영어와 이탈리어의 통역이나 자신의 웃는 얼굴을 보여주며 자신의 감정이 어떨지 ChatGPT에 물어보는 장면도 인상적이었습니다. 기계가 웃는 얼굴과 화난 얼굴들 감정을 이해하기 시작했기 때문입니다. 사람과 실시간으로 대화하는 인공 지능 비서가 정말 얼마남지 않은 것처럼 보입니다.

아래는 유튜브 영상의 유튜브 자막과 이를 번역기를 사용한 내용입니다. 일부 번역이 어색하고 오기가 있지만 전체 구조를 이해하는 것은 어렵지 않고, 관심이 많은 분들은 실제 영상을 참고해주세요!!


4. GPT-4o 사용 방법

(1) PC에서 사용

GPT-4o 사용방법

GPT-4o를 PC에서 사용하는 것은 매우 간단합니다. 위에서 처럼 내가 선택하고자 하는 모델을 선택하는 것만으로도 가능하며 GPT-4o는 무료 버전에서도 사용 가능합니다. 단지 위에서 설명한 것처럼 사용량 등에서 일부 차이가 납니다. 참고로 사용량 제한은 무/유료 모두 있습니다.

다만 GPT-4o의 특징인 음성 인식 채팅은 아직 사용할 수 없었습니다(24.05.16 기준) 조만간 데스크탑 앱 버전이 출시되면서 함께 해당 기능도 이용할 수 있으리라 생각됩니다. 데스크탑 앱의 경우 Mac 버전이 먼저 출시될 것이라 하니 참고해주세요!

GPT-4o 상세사항 안내
(간단요약)
GPT-4o는 텍스트, 오디오 및 이미지의 모든 조합을 출력으로 생성
평균 320밀리초 만에 오디오 입력에 응답할 수 있으며 실제 사람과 비슷한 수준
영어 텍스트 . 및코드에 대한 GPT-4 터보 성능과 비슷
비영어권 언어의 텍스트에 대한 성능이 크게 향상
API에서 훨씬 빠르고 50% 더 저렴
GPT-4o는 기존 모델에 비해 시각 및 오디오 능력이 뛰어남

(2) 모바일에서 사용

ChatGPT 모바일 다운로드 안내

GPT-4o의 음성 채팅은 모바일 앱을 다운로드 받아서 누구나 사용할 수 있습니다. 모바일 앱을 다운 받으면 아래와 같은 이미지를 확인할 수 있습니다.(아이폰 기준)

모바일 ChatGPT 앱

이미지를 보면 메세지를 작성하는 부분의 우측에 해드폰 모양으로 음성 채팅 기능이 생겼습니다. 실제 이 기능 버튼을 클릭하여 GPT-4o 모델과 함께 사용할 수 있습니다. 마이크를 설정하면서 ChatGPT의 목소리를 설정할 수 있는 것도 새로웠습니다.

GPT-4o Speaking

아이폰 앱에서 GPT-4o가 말할 때 화면이고 말하는 중간에도 멈추게 하고 탭으로 시작하게 할 수 있습니다.

GPT-4o 사용

GPT-4o의 복합 기능을 모두 사용해봤습니다. 먼저 예전에 참여했던 네이버의 생성형AI 세미나 이미지를 앱에 올리고 실제 채팅이 아닌 한국어로 물었습니다.

“이거 이미지 어떤 이미지 같아? 설명해줘”

이미지만 보고도 아래 답변처럼 정확하게 설명해주고 문구만 보고도 내용을 예측하여 상세하게 답변해줬습니다. 놀라운 세상이 바로 앞에 다가오고 있습니다!
좀 더 GPT-4o를 자세히 사용하고 후기를 공유하겠습니다!


5. 마무리

OpenAI에서 새로운 업데이트를 발표할 때마다 Wow 하게 됩니다. 경쟁자들이 출시될 때마다 몇 단계는 앞서서 새로운 비전을 제시합니다. 단순한 코드, 문체, 속도 성능에만 중시하지 않고 진정 인간과 AI의 상호작용을 목표로 현실에 가져오기 위한 노력이 보이고 이 점에 있어서 멀티 모달로 Text, Vision, Audio과 결합되는 것이 멀지 않은 일임을 느끼게 됩니다.

이러한 흐름을 지속적으로 팔로업하고 공유하고자 하단의 테크뷰 홈페이지를 통해 생성형AI 카테고리에 따라 다양한 제품을 업로드하고 있습니다. 분야별 제품을 확인해보는 데에 보탬이 될 것입니다!


6. AI 챗봇 솔루션 비교, 분석 리포트

여러 AI 솔루션 중 가장 많이 사용되는 도구가 챗봇일 것 입니다. 테크뷰에서는 다양한 AI 챗봇 솔루션 중에 최적의 제품을 선택할 수 있도록 지원해드리고 있습니다. 이를 위해 ChatGPT, Claude와 같은 LLM부터 검색 기반의 Perplexity, 또는 회사 기업 정보를 학습 시킨 커스텀 챗봇까지 다양한 AI 챗봇 비교 리포트를 송부드립니다. 비교/추천 리포트가 필요하신 기업 담당자 분들은 위에 이미지를 클릭하여 설문을 작성해주시면 됩니다.

본 서비스에는 아래와 같은 사항이 포함되어 있습니다.

  • 기업과 팀의 니즈에 맞춘 AI 챗봇 추천
  • 필요한 기능 보유 여부를 확인한 비교표 정리
  • 도입 시 전담 컨설턴트와 본사 기술 지원

함께보기 좋은글

0. Sora AI 사용 방법 및 사용 후기(영상 제작)
1. 일론 머스크 xAI, Grok 2 출시 및 사용 방법, 후기
2. 업무 시간을 줄여줄 AI 툴 도구 모음
3. Llama3를 내 PC에서 무료로 사용하는 방법 (GPT4All & RAG)
4. ChatGPT vs Gemini vs Claude 비교 총정리(&대안)
5. Perplexity AI : ChatGPT, Claude, LLaMa를 한 곳에서 사용하는 방법!
6. 신규 GPT-4o 사용 방법 및 업데이트 정리(원문 다운)
7. Meta AI Llama 3 출시와 무료 사용 방법!
8. Sora : OpenAI 신규 모델, 텍스트로 비디오 영상 제작
9. 구글 제미나이 1.5 사전 등록 방법 및 Gemini API 사용
10. AI시대 경제적 해자(Moat)에 대해서

reviewinsight100

리뷰인사이트는 SaaS 플랫폼 ‘테크뷰’를 통해 B2B 소프트웨어 선택을 더 쉽게 만듭니다. “테크뷰를 만나면 선택이 쉬워진다”는 믿음으로, 신뢰할 수 있는 콘텐츠와 리뷰를 전달합니다. SaaS 산업과 함께 성장하고 싶은 여러분을 환영하며, 유익한 정보로 꾸준히 찾아뵙겠습니다.
지금 구독하고 최신 SaaS 인사이트를 가장 먼저 받아보세요!

댓글 남기기

댓글 남기기

테크뷰 블로그에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기