실밸NOW 독자여러분, 한 주 동안 안녕하셨습니까. 파이낸셜뉴스 실리콘밸리 특파원 홍창기 입니다.
전통의 인공지능(AI) 명가 구글이 동영상 생성 AI 모델 '비오(Veo)'2를 최근 출시했습니다. 구글은 비오를 지난해 5월 처음으로 선보였는데요, 약 1년 만에 업그레이드 버전을 내놓은 것입니다. 구글이 업그레이드 된 동영상 생성 AI모델을 선보이면서 오픈AI의 동영상 생성 AI 모델 소라(Sora)와 본격적으로 경쟁을 할 것으로 예상됩니다. 오늘은 구글과 오픈AI의 동영상 생성 AI 모델을 비교해보겠습니다.
그리고 여러분, 오픈AI의 이미지 생성 AI 모델 챗GPT 4o(포오) '이미지 제너레이션'(이하 이미지 젠) 이 출시된 지 약 4주가 됐습니다. 오픈AI가 '이미지 젠'을 선보인 것이 지난달 25일이니까요. 이제 한국에서 조금 이미지 젠을 이용한 지브리 스타일 이미지 유행이 지난 것 같습니다. 카카오톡 프로필 시진에서 지프리 스타일이 덜 보입니다. 역시 우리 한국인들은 유행을 빠르게 만들어내는 동시에 유행을 빨리 끝내는 것 같습니다.
그런데 재미있는 점이 있습니다. 지브리 스타일의 이미지는 오픈AI의 이미지 젠 이외의 다른 기업의 이미지 생성 AI모델에서도 비교적 잘 만들어 진다는 것입니다. xAI의 이미지 생성 AI 모델 '플럭스(Flux)1'은 지브리 스타일의 이미지를 오픈AI의 이미지 젠에 뒤지지 않는 실력으로 척척 그려냅니다. 오픈AI의 이미지 젠 이외의 다른 이미지 생성 AI 모델들도 한편 살펴보겠습니다.
1. 구글의 '비오'(Veo)2는
2. 비오 2와 소라(Sora), 무비젠 차이는?
3. 똑같은 프롬프트 입력해봤더니
4. 지브리 스타일 모두 잘 그린다?
5. 우리도 있어요!
그리고 ㅅㅂ 브리핑
▶비오(Veo)
'비오'(Veo)는 구글의 동영상 생성 인공지능(AI) 모델이다. 비오는 지난해 5월 처음 공개됐고 지난 15일(현지시간) 업그레이드 버전인 '비오2'가 출시됐다. '비오'는 오픈AI의 '소라'(Sora)와 같은 동영상 생성 AI 모델로 이용자가 원하는 장면을 입력하면 영상을 생성해준다. 구글 AI 모델 제미나이 이용자들은 16:9 비율, 720p 해상도, 8초 길이의 영상 클립을 생성할 수 있다.
샘 올트먼 오픈AI CEO가 순다르 피차이 구글 CEO와 서로의 이미지, 동영상 생성 AI 모델에 대해 애기하고 있는 네컷 만화. ⓒ챗GPT '이미지젠' 생성
🎥구글의 비오 2는
구글의 최첨단 AI 동영상 생성 모델 '비오' 2(Veo 2)는 짧은 이야기나 비주얼 콘셉트, 또는 특정 장면 등을 프롬포트로 입력하면 이를 영상으로 만들어주는데요. 당연히 더 디테일한 프롬포트를 만들수록, 더욱 만족스러운 결과물을 확인할 수 있겠죠.
구글의 프리미엄 AI 요금제인 제미나이 어드밴스드(Gemini Advanced) 구독자는 비오 2를 통해 8초 짜리 영상을 제작할 수 있어요. 제미나이 앱에서 비오 2를 활용하면 더 직관적이고 간편한 영상 제작이 가능하다고 구글은 밝혔어요.
구글은 비오 2로 만들 수 있는 동영상 길이가 경쟁사 모델보다 짧다고 인정했어요. 그렇지만 성능 평가에서 다른 주요 동영상 생성 AI 모델들보다 뛰어난 성능을 보였다고 자부했어요. 구글은 텍스트와 이미지 프롬프트를 활용해 창의적인 영상을 제작할 수 있는 생성형 AI 실험 플랫폼 위스크(Whisk)를 통해 구글 랩스(Google Labs)에서도 비오 2를 이용할 수 있다고 설명했어요.
메타플랫폼이 지난해 10월 공개한 동영상 생성 AI 모델 '무비 젠' 티저 이미지. ⓒ메타 제공
🎥소라, 비오 2, 무비 젠의 장점은?
오픈AI의 '소라'는 최대 60초 길이의 동영상을 생성할 수 있는데요. 이는 경쟁사와 비교해 가장 길어요. 또 소라는 1080p 해상도의 고화질 동영상을 생성해내죠. 또 프레임 간 일관된 캐릭터와 시각적 스타일을 유지한다는 평가를 받고 있어요. 아울러 소라는 다양한 캐릭터와 동적인 카메라 움직임, 공중 시점 등을 포함한 복잡한 영상을 생성하는 데도 뛰어나다는 것이 중론이에요.
비오의 업그레이드 버전인 비오 2의 경우 출시된 지 채 일주일이 안됐기 때문에 오픈AI의 소라보다 생성된 표본이 적고, 그러다보니 많은 평가가 나오지는 않고 있어요. 지금까지의 평가만 정리해볼게요. 비오 2는 프롬포트에 입력되는 움직임을 정확히 이해하고 이에 맞춘 현실적인 캐릭터 움직임을 구현한다는 것이 중론이에요. 또 다양한 주제에서도 아주 미세한 시각적 움직음을 표현해 현실감이 뛰어나다는 평이에요. 비오 2의 가장 큰 장점은 생성된 콘텐츠를 유튜브 등에서 쉽게 공유할 수 있다는 점이에요.
메타의 동영상 생성 AI 모델 '무비 젠'은 자연스럽고 일관된 동영상을 생성하는 데 우수한 성능을 갖추고 있다는 평가에요. 최대 16초 길이의 1080p HD 동영상을 생성하는데요. 동영상 내 물체 등을 을 변경하는 등 동영상에 대한 정밀한 편집을 지원해요. 또 배경 음악과 사운드를 포함한 몰입감을 주는 오디오도 무비 젠의 장점으로 꼽히고 있어요. 다만 무비 젠은 오픈AI의 소라나 구글의 비오2 처럼 지금 일반에 공개되지 않았어요. 메타는 연내 무비 젠을 일반 소비자들에게 공개한다는 계획이에요.
🧐비오 2와 소라에 똑같은 프롬프트를 입력해보니
비오 2와 소라에 똑같은 프롬프트를 입력해서 동영상을 생성해봤어요. 입력한 프롬프트는 바로 "애견 카페에서 여러 강아지들이 뛰어놀고 있는 모습을 동영상으로 만들어줘" 였어요. 첫번째 영상이 구글의 비오 2가 생성한 것이고요, 두 번째 영상이 오픈AI의 소라가 만들어낸 것이에요. 독자 여러분이 볼 때 두 동영상의 특징은 무엇인가요, 어떤 차이를 느낄 수 있을까요.
"애견 카페에서 여러 강아지들이 뛰어놀고 있는 모습을 동영상으로 만들어줘" 라는 프롬포트만을 입력했을때 조금더 자연스러운 동영상은 구글의 비오 2 였어요. 오픈AI 소라로 만들어진 동영상도 나쁘지는 않지만 영상 시작 초반에 강아지들이 뛰는 모습이 바닥과 자연스럽게 어우러지지 않고 인위적이라는 느낌이 살짝 들거든요.
구글의 동영상 생성 AI 모델 '비오' 제작 버전 ⓒ동영상=홍창기 특파원 유튜브
오픈AI의 동영상 생성 AI 모델 '소라' 제작 버전 ⓒ동영상=홍창기 특파원 유튜브
xAI의 이미지 생성 AI 모델 FLUX.1가 생성한 지브리 스타일의 이미지. ⓒxAI의 그록 생성
👉 모든 AI가 지브리 스타일 잘 그린다?
오픈AI의 이미지 생성 AI 모델 이미지 젠은 지브리 스타일의 이미지를 자연스럽게 생성하면서 유명해졌죠. 오픈AI와 챗GPT를 전 세계적으로 대중화시키는데 아주 큰 기여를 했어요. 그런데 문득 궁금한 것이 생겼어요. 과연 오픈AI의 이미지 젠만 지브리 스타일의 이미지를 똑같이 재연할 수 있을까 하는 것이었어요. 그래서 다른 기업의 이미지 생성 AI 모델로도 지브리 스타일의 이미지 스타일을 만들어 봤어요. 바로 구글의 '이마젠3'과 xAI의 이미지 생성 AI 모델 '플럭스'(FLUX.1)이에요.
비교해 보면 xAI의 이미지가 구글의 것을 앞서는 것 같아요. xAI의 이미지는 오픈AI의 이미지 젠에 전혀 뒤지지 않는 것 처럼 보여요. xAI의 플럭스는 지브리 스타일만의 부드럽고 따뜻한 색감, 자연스러운 배경, 감정적인 캐릭터 표현을 잘 해냈어요. 지브리 스타일이 요구하는 숲, 물, 하늘 같은 자연 요소와 따뜻한 조명 효과를 구현해 낸 것인데요.
이는 xAI의 생성형 AI 모델 그록이 텍스트 프롬프트를 해석하고 시각적으로 구현하는 데 능숙하기 때문으로 풀이돼요. 그록의 훈련 데이터는 다양한 예술 스타일을 포함하고 있을 가능성이 높아요. 지브리 스타일은 전 세계적으로 널리 알려진 애니메이션 스타일인데 그록이 이를 학습하고 재현하는 데 충분한 데이터를 활용했을 가능성이 높죠. 또 xAI가 사용자 피드백을 반영해 그록의 이미지 생성 능력을 지속적으로 개선하고 있는 점도 작용했을 것 같아요. 특히 최근에 지브리 스타일을 많은 사용자가 선호하기 때문에 이런 수요를 충족시키기 위해 그록이 해당 스타일을 잘 생성해 냈던 것 같아요.
그러나 구글의 이마젠3은 단순히 지브리 풍의 배경 화면만 이미지로 활용한 느낌이에요. 이마젠3의 갈길이 아직 멀었다는 것을 드러낸 것 같아요. 독자 여러분의 생각은 어떤가요.
샘 올트먼과 일론 머스크가 갈등을 빚고 있는 모습을 지브리 스타일로 그려봤다. ⓒ구글 이마젠3 생성
🙋♂️🙋♀️우리도 있어요!
오픈AI의 이미지 젠이 너무 독주하면서 나머지 이미지 생성 AI 모델을 가지고 있는 기업들이 묻히고 있긴 해요. 다양한 이미지 생성 AI 모델 기업들이 있어요.
대표적인 곳이 스태빌리티(Stability) AI인데요. 스테이블 디퓨전(Stable Diffusion)이 스태빌리티 AI가 갖춘 이미지 생성 AI 모델이에요. 스테이블 디퓨전은 텍스트 프롬프트를 기반으로 고품질 이미지를 생성해요. 오픈소스 형태로 제공되기 때문에 널리 활용되고 있어요. 스테이블 디퓨전은 아티스트와 개발자들 사이에서 인기가 많아요.
런어웨이(Runway)와 미드저니(Midjourney)도 있어요. 런웨어이는 이미지와 동영상 생성에 특화된 AI 툴을 제공하는 기업이고요. 런어웨이(Runway ML)이라는 플랫폼을 통해 이미지 생성 기능을 제공해요. 미드저니의 경우 예술적이고 창의적인 이미지를 생성하는 데 강점을 가지고 있어요.
그리고 우리에게 익숙한 포토샵의 기업 어도비(Adobe)도 빼놓을 수 없어요. 어도비는 파이어플라이(Firefly)라는 생성형 AI 모델을 통해 이미지 생성 및 편집 기능을 제공해요. 파이어플라이는 포토샵이라는 어도비의 소프트웨어에 통합되어 있어요. 어도비는 자사의 파이어플라이가 상업적 사용에 적합한 안전한 콘텐츠를 생성할 수 있다고 강조하고 있어요.
■ 권력 다툼에서 밀리는 머스크, 다시 경영에 집중
→일론 머스크 테슬라 최고경영자(CEO)가 인공지능(AI) 스타트업 xAI에 추가 자금 조달 방침을 시사하는 등 사업 경영에 다시 집중. →머스크는 지난주 xAI 투자자들과의 회의에서 xAI에 적절한 가치를 매기고 싶다는 뜻을 밝혀. →머스크는 지난 1월 트럼프 2기 정권의 정부효율부(DOGE)에 집중했지만 최근 권력 다툼에서 밀리는 양상.
■ 구글 명운 걸린 재판 개시
→21일(현지시간) 구글의 인터넷 검색 시장 불법 독점을 해소하기 위한 재판이 개시 →이번 재판은 지난해 8월 미국 법원이 구글의 인터넷 검색 시장 지배력을 불법 독점이라고 판결한 데 따른 재판, 워싱턴DC 연방법원에서 열린 이날 첫 재판에서 소송을 제기했던 미국 법무부는 구글의 불법 독점 해소를 위해 크롬 브라우저 매각이 필요하다고 재차 강조.
■ 저커버그, 트럼프 관세 정책 발표 전 주식 매각
→페이스북 모회사 메타플랫폼의 최고경영자(CEO) 마크 저커버그가 이달 초 도널드 트럼프 대통령의 상호관세 발표로 뉴욕증시가 혼란에 빠지기 전인 지난 1·4분기 중 대규모로 회사 주식을 매각. →저커버그는 자신과 아내 프리실라 챈이 세운 자선재단 '챈 저커버그 이니셔티브'(CZI) 등을 통해 올해 1·4분기 중 메타 주식 110만 주를 매각. 매각 시점은 올해 1∼2월에 이뤄졌으며 매각 지분의 가치는 총 7억3300만 달러(약 1조400억원) 정도.