지난 5월 14일 구글 I/O 최대 개발자 컨퍼런스가 진행되었습니다. 구글이 생성형AI 시장에서 새로운 미래를 제시 하였는데요. 5월 13일 OpenAI에서 GPT-4o를 안내한 바로 다음날입니다. 기조 연설로 거의 2시간 동안 구글의 미래 AI 비전에 대한 다양한 설명이 상세히 안내되었습니다. 이 부분들 중 테크뷰가 느낀 핵심 사항들만 간추려 보았습니다.
제가 느낀 핵심 사항을 요약해보면
구글은(OpenAI 조차도) AI를 일상 생활로 들여 놓기를 원한다.
인간처럼 말하고 듣고 표현하며 AI 기능을 구분하여 사용하는 것이 아니라
일상이 되는 미래를 그려나가고 있다!
1. Gemini 1.5 PRO

먼저 Gemini 1.5 Pro 버전에 대해 안내하면서 1백만 토큰에 달하는 긴 텍스트를 처리할 수 있어 개발자들의 선택이 폭이 넓어졌다고 합니다. 약 1,500페이지에 달하는 엄청난 분량입니다. 또한 Advanced에서는 35개 언어를 지원하고 개발자들을 위한 2백만 토큰도 지원한다고 합니다.
즉, 2가지를 강조합니다.
Multimodality + Long Context

특히 이번에 강조한 포인트는 멀티모달로 문자, 이미지, 영상, 코드 등을 동시에 인식하고 처리할 수 있다는 점을 강조했으며 이런 요소들이 20억명 이상이 사용하는 검색, 포토, 워크스페이스, 안드로이드 등에 탑재되고 있다고 합니다. 예를 들어 모바일에서는 사람들이 앱으로 Gemini와 대화하며 더 빠른 검색 정보를 얻을 수 있습니다.
2. AI Overviews

구글의 가장 독점적 강점인 검색 시장에 AI를 적용하고 있다고 합니다. AI Overviews를 통해 미국 시장에서는 이미 적용 중이고 점차 확대 예정입니다. 예를 들어 더 복잡하고 긴 질문을 하고 답을 받을 수 있으며, 구글 포토에서는 자신의 이미지에서 찾고자 하는 내용을 직접 검색(ASK Photo)해서 알려 줍니다. 실제 예시로 자신의 자동차 번호 같은 것을 찾아 줍니다. 특정 정보 뿐만 아니라 이미지의 스토리를 이해해서 그 스토리에 기반한 설명까지 해줄 수 있는 수준입니다.
3. Workspace Labs

워크스페이스에서도 사용 가능하도록 되어 있으며 내가 받은 이메일을 요약해주거나 특정 주제로 받은 이메일의 첨부파일까지도 정리합니다. 구글 밋(Meet) 화상회의 툴과도 연동되서 요약하고 그 내용을 기반으로 이메일도 보낼 수 있게 되었습니다.

NotebookLM과도 연동이 되는데 다양한 텍스트 자료를 업로드하고 이를 음성 대화 기반으로 변형해 토론하거나 학습할 수 있는 기능들이 연동되어 있습니다.
4. AI 에이전트
쇼핑, 특정 장소 찾기 등 필요로 하는 다양한 업무, 취미 생활들을 AI가 대신 수행하는 비서와 같은 개념입니다. AI가 멀티 모달 기능을 탑재 함으로 가능한 미래입니다.
5. Google DEEP MIND
인간처럼 말하고 사용작용하는 AI를 말하고 이를 로봇에 적용하거나 새로운 지식, 물질을 찾아 신약 개발에 적용하는 등 여러가지 산업으로 확대되고 있다.

대규모 서비스를 더 빠르고 비용 효율적으로 제공하면서도 성능, 긴 텍스트 이해 능력들을 유지한 모델입니다.

놀라운 장면은 구글 글라스로 안경을 쓰고 마치 내가 눈으로 본 장면의 이미지와 화면을 전달해서 그에 기반한 대화하는 장면입니다. 위에 이미지는 실제 시연자가 구글 글라스를 끼고 대화하는 장면이며, 이제 AI가 내 안경으로 들어와 실시간으로 대화하고 소통하는 세상이 다가옵니다.
6. Imagen 3 – 이미지 모델

더 디테일하고 섬세한 모델이며 프롬프트 기반으로 이미지를 작성해줍니다.
또한 유튜브와 협력하여 Music AI Sandbox로 AI와 함께 창의적인 음악, 영상을 만드는 것을 시도하고 있습니다.
영상 생성형 모델인 Veo도 안내가 되었습니다. 텍스트, 이미지, 동영상 프롬프트로 1080p 동영상을 생성합니다. 프롬프트만으로 편집이 가능하고 VideoFX에서 Veo를 사용해볼 수 있다고 합니다. 현재(24.05.22) 시점에서는 웨이트리스트에 등록하면 추후 안내가 될 것으로 보입니다.
7. Trillium – 6세대 TPU

많은 AI 요구를 충족시키기 위해 AI 인프라 측면에서도 빠른 발전이 진행중이며, 6세대 TPU인 Trillium은 이전 성능보다 4.7배 늘어난 컴퓨팅 성능을 제공합니다. 2024년 말에 제공될 예정이며 이를 위한 CPU, GPU가 제공되고 Axion 프로세스도 제공되며 이는 Arm 기반 구글의 첫 번째 CPU 입니다.
엔비디아와도 많은 협력을 하고 있으며 Blackwell GPU도 클라우드 업체로 처음으로 제공하는데 이러한 수 많은 요소들이 AI Hypercomputer 안에서 결합되게 됩니다.
8. Google will do the Googling for you

구글 검색에 대한 설명이 이어졌습니다.
긴 설명이었지만 위에 이미지의 한 줄로 모든 내용이 요약된다고 생각됩니다. 구글이 멀티모달 기능과 실시간 검색, 랭킹 시스템 등을 활용해 당신을 위해 직접 구글링을 해준다는 의미입니다. 검색해서 나에 맞는 것을 내가 찾는 것이 아니라 구글이 구글링을 해줍니다. 질문을 하면 찾는 것이 아니라 답변을 줍니다. 구글은 앞으로 인간 대신에 검색하고 리서치하고 계획하고 브레인스토밍을 해주게 됩니다.
여기까지 총 영상의 절반인 55분까지 정리를 하였습니다. 그 이후 영상을 다음 글에서 이어서 공유드릴 예정이며, 앞에 서론에서 논의한 Workspace, Gemini, Android, Developer Updates 들이 예정되어 있습니다!
** Gemini Advanced 2개월 무료 사용
Gemini 검색 중 2개월 동안 무료로 사용해 볼 수 있는 이벤트가 Google one가 함께 하고 있다는 소식을 접하고 아래와 같이 공유드립니다.

함께보기 좋은글
1. 일론 머스크 xAI, Grok 2 출시 및 사용 방법, 후기
2. 업무 시간을 줄여줄 AI 툴 도구 모음
3. Llama3를 내 PC에서 무료로 사용하는 방법 (GPT4All & RAG)
4. ChatGPT vs Gemini vs Claude 비교 총정리(&대안)
5. Perplexity AI : ChatGPT, Claude, LLaMa를 한 곳에서 사용하는 방법!
6. 신규 GPT-4o 사용 방법 및 업데이트 정리(원문 다운)
7. Meta AI Llama 3 출시와 무료 사용 방법!
8. Sora : OpenAI 신규 모델, 텍스트로 비디오 영상 제작
9. 구글 제미나이 1.5 사전 등록 방법 및 Gemini API 사용
10. AI시대 경제적 해자(Moat)에 대해서







댓글 남기기