생성형 AI에 대한 트렌드를 이해할 수 있는 좋은 자료가 있어 공유합니다.
<출처 : 정보통신기획평가원, 네오컨버전스(주) 연구소장 류내원>
생성형 AI는 텍스트, 이미지, 비디오 생성으로 크게 나누어 볼 수 있고, 이 기술들은 멀티모달로 확장되고 있다. 특히, 미국과 중국에서는 다양한 기술 발표와 기술 경쟁이 활발하다. 생성형 AI 시장은 2028년까지 10배 성장하여 77조에 이를 것으로 예측되며, 파이낸셜타임스와 옴디아 보고서는 이 기술을 혁신적이고 파괴적이라 평가한다. 2021년부터 시작된 이미지 생성 DALL-E를 시작으로 2022년 말 텍스트 생성 챗 GPT, 2023년 비디오 생성 Runway Gen에 이어지는 최신 멀티모달까지 국내외 생성형 AI 기술들과 서비 스들을 살펴보고, 향후 전망에 대해서 제시한다. 이러한 AI 기술들은 빠르게 변화하고 있으며, 국내에서도 텍스트 생성뿐만 아니라 이미지 생성, 비디오 생성 및 멀티모달에 보다 힘을 모아야 할 때이다.
I. 서론
생성형 AI(Generative AI)는 크게 텍스트 생성(text generation), 이미지 생성(image generation), 비디오 생성(video generation)으로 나누어 볼 수 있고, 텍스트 생성에 서는 챗GPT LLM(Large Language Model), 이미지 생성에서는 Midjourney의 텍스 트로 이미지 생성(text-to-image), 비디오 생성에서는 Runaway Gen의 텍스트로 영 상 생성(text-to-video) 및 이미지로 영상 생성(Image-to-video)를 대표적으로 이야 기하고 있다.
많은 놀라움과 활용성을 보여준 챗GPT뿐만 아니라 이미지 생성, 비디오 생성에 이어 멀티모달까지 빠르게 변화하고 있으며, 해외 빅테크들, 특히 미국과 중국에서 2023년 하반기에 LLM뿐만 아니라 이미지, 비디오, 사운드/뮤직, 3D, 멀티모달(multi modal) 까지 엄청나게 많은 기술 발표들이 쏟아져 나오며, 기술 경쟁까지 벌이는 모습을 보여주 고 있다.
생성형 AI 글로벌 시장은 2028년 77조로 확대되고 10배 성장할 것이며, 혁신적이고 파괴적이라고 파이낸셜타임스가 옴디아 보고서를 통해 보도하였고[1], AI 에이전트가 2028년 이내 컴퓨팅을 완전히 변경하고 사람들은 말만 하면 모든 작업을 처리할 수 있으며, 개인의 생활과 비즈니스, 사회까지 혁신할 것이라고 빌 게이츠는 말하였다[2].
본 고에서는 2021년부터 시작된 이미지 생성 DALL-E를 시작으로 2022년 말 텍스 트 생성 챗GPT, 2023년 비디오 생성 Runway Gen 그리고 이어지는 최신 멀티모달까 지 국내외 생성형 AI 기술들과 서비스들을 살펴보고, 향후 전망에 대해서 제시한다.
II. 이미지 생성 기술: 2021년 1월~
챗GPT보다 먼저 OpenAI에서 2021년 1월에 텍스트로 이미지를 생성하는 AI 달리 (DALL-E)와 텍스트, 이미지를 연결해 주는 CLIP을 발표하였다. 달리는 텍스트를 통해 이미지 생성이 가능함을 보여주었으며, 텍스트-이미지 쌍의 데이터 세트를 사용하여 텍 스트 설명에서 이미지를 생성하도록 훈련된 120억 개의 파라미터를 가진 모델이었다.
2022년 4월에 DALL-E 2를 발표하며 좀 더 향상된 이미지 품질을 보여주었고, 특정 일부분을 수정하는 inpaint, 이미지 외부 영역을 확장 생성해 주는 outpaint 등으로 발전되었다. 2023년 9월에는 DALL-E 3를 발표하며 높은 이미지 품질 향상을 이루었으며, 챗GPT와 연동하여 주목받았다. 이후 마이크로소프트와의 제휴로 빙 이미지 크리에 이터(bing image creator)에서 사용되었다.
성공적인 이미지 생성 상용 서비스는 2022년 7월에 나온 미드저니(Midjourney)였다. 미드저니는 택스트를 기반으로 이미지를 생성하는 서비스로, 디스코드를 통해 기본 요금제는 월 10달러에 이용할 수 있다. 미드저니는 VC 투자도 거부하고 유니콘으로 성공한 것으로도 유명하며 많은 사람들이 이미지 생성을 사용하게 하였다.
StabilityAI는 택스트를 통한 이미지 생성 모델 스테이블 디퓨전(stable diffusion)을 누구나 사용할 수 있게 모델과 소스를 공개했고, 이에 엄청난 관심과 이를 활용한 Leonardo, Bluewillow 등 수 많은 생성 서비스들과 이를 기반으로 확장한 논문 및 기술들로 이어졌다[그림 1].
스테이블 디퓨전은 이미지에 노이즈를 주고 이를 다시 역산하여 신경망에 노이즈 이미 지에서 일반 이미지를 복원시키도록 학습시킨 후, 이 신경망에 노이즈만 들어 있는 이미지 와 적절한 힌트를 주면 해당 힌트에 맞는 이미지를 출력하는 LDM(Latent Diffusion Model) 방식이었다[3].
오픈된 모델은 많은 사람들에 의해 파인튜닝(fine-tuning)되어 만화, 판타지, 스티커 등까지 수많은 모델이 나왔고, 특정 인물 및 영화 등의 이미지들을 만들 수 있는 것들이 쏟아져 나왔다. 기본 모델을 사용하는 경우보다 파인튜닝 모델을 이용하는 것이 더 많은 상황이 되었다. 미드저니보다 질이 떨어진다는 평을 받다가 2023년 7월에 고화질 버전 SDXL이 나오며 화질을 높였고, 최근 2023년 11월에 SDXL-turbo 실시간 이미지 생성 도 발표하였다.
2022년 미드저니와 스테이블 디퓨전 양강 체제에서 2023년 DALL-E 3가 부상되었고 2023년 10월에는 Adobe Firefly 2, 12월에는 Google Imagen 2까지 가세하며 더 경쟁이 심화되는 상황이며 중국에서 알리바바, 텐센트, 바이두 등이 이미지 생성 모델들 을 발표하며 가세하고 있다[표 1].
미드저니 초기 및 달리 1/2 그리고 스테이블 디퓨전 초기 버전의 이미지 생성은 조금 어설프다고 할 정도였으나 최신 미드저니 및 스테이블 디퓨전 XL과 2023년 나온 달리3 등을 보면 사진과 분간하기 힘들 정도이다[그림 2].
거기에 단순 텍스트를 통한 이미지 생성이 아니라 ControlNet[4], DreamBooth/ LoRA[5] 등의 술을 활용하여 스케치로 이미지 생성하기, 자세 포즈로 생성하기, 특정 인물 및 객체로 추가 학습하기 등이 가능해졌다[그림 3].
III. 텍스트 생성 기술: 2022년 11월~
챗GPT 이전에도 BERT, GPT 등 텍스트 생성 LM(Language Model)은 있었지만 인공지능을 다루지 않은 일반인들도 알게 될 정도로 유명해진 것은 LLM 챗GPT부터이다.
챗GPT는 2022년 11월에 첫 발표되어 큰 반향을 일으켰고, 2023년 2월에 ChatGPT Plus 서비스를 개시하였고, 2023년 3월에 더 향상된 챗GPT 4가 발표되었다. 이후에 Plugin/Browsing, Code Interpreter 등 더 확장된 발표들이 이어졌다.
챗GPT는 사용해 본 사람들이 사람과 채팅하는 것 같다는 초기 사용자들의 활용기가 퍼지며, “이제 구글 검색 대신 이걸 사용하게 된다”, “챗GPT를 잘 사용하는 사람이 활용 하지 않는 사람을 대체한다”는 책까지 나오고, “돈 벌어주는 챗GPT 사용방법”, “챗GPT 영어공부법”, “챗GPT 기업에 활용하기”, “챗GPT 학교에 활용하기” 등 수 많은 인공지능 을 하는 사람들과 일반인들 모두 크게 관심 갖게 되는 상황이 만들어졌고, 수 많은 분야 에서 실제 활용이 일어났다.
하지만, LLM 모델이 가지고 있는 문제점, 즉 환각(hallucination) 또는 거짓말까지 생성될 수 있다는 이해가 필요한데, 미국의 한 변호사가 챗GPT가 작성해준 판례를 검증 없이 법원에 그대로 냈다가 이게 거짓으로 들어나 큰 곤역을 치르게 된 사건마저 있었다 [6].
최근 9월에는 멀티모달인 GPT4-V(Vison) 및 11월에는 GPT-4 Turbo, Image/ Speech Multimodal API가 발표되었고, GPTs가 발표되면서 누구나 쉽게 자신만의 맞춤형 챗GPT가 가능해지고, 스타트업 멸망의 날로 기사가 나기도 하였다. GPTs는 스토어도 진행되어 향후 거대한 생태계로 발전할 수도 있을 것으로 예상되고 있다. 챗 GPT는 마이크로소프트와의 협력으로 빙에 적용되었으며 이후 MS Copilot 등에 적용 되고 있다.
OpenAI의 챗GPT 성공 후 구글은 Bard 및 PaLM 2를 발표하였으나 GPT-4에는 성능이 따라가지 못하였고, 메타(구 페이스북)는 LLama 및 LLama 2를 오픈 소스로 공개하는 전략을 취하였으며, 오픈AI 직원이 퇴사 후 만든 회사 Anthropic의 Claude 2가 주목받았다. 또한, 일런 머스크의 xAI에서도 Grok-1을 발표하였고, 애플에서도 자 체 LLM을 발표하였으나 모두 GPT-4를 넘어서지는 못했다[표 2].
2023년 12월에 구글에서 Gemini를 공개하였고 Ultra 버전이 GPT-4를 넘어섰고 멀티모달을 특색으로 한다고 발표하였다.
중국에서도 알리바바는 Qwen-7B(오픈 소스로 공개), 모델 스코프 GPT를 발표하였 고, 텐센트 Hunyian, 바이두 ERNIE, 화웨이 Pangu 등 대부분의 빅테크들이 앞다투어 LLM 모델을 발표하였다.
IV. 비디오 생성 기술: 2023년 2월~
비디오 생성은 2023년부터 본격적으로 대두되기 시작했다. 이전에도 이미지 및 영상 클립 등으로 짜집기하여 자동 영상을 만들어 주거나, 클립들을 추천해서 편집해 주거나, 약간의 깊이(depth)를 이용하여 움직임처럼 만들어 주는 인공지능이 있었으나 본격적 생성이라 말할 수준은 아니었고, 구글과 메타가 논문을 내기도 하였으나 논문 외에는 공개되지 않아 실제 이용할 수는 없었다.
2023년 2월에 Runway에서 텍스트로 영상을 만드는(text-to-video) Gen을 발표하 고 서비스를 공개하자, 이를 통해 이용자들이 만들어 본 영상들이 SNS에 나오면서 화제가 되기 시작했고 베타 서비스를 지나 상용 서비스를 시작하였다. Pika Labs에서도 베타 서비스를 6월에 시작했고 Gen과 비교되며 화제가 되었다. 11월 말 정식 1.0을 발표하여 상용 서비스를 준비하기 시작하였다. 비디오에서도 스테이블 디퓨전처럼 AnimateDiff 라는 오픈 소스가 중국에서부터 나왔고 Runway Gen과 Pika Labs의 Pika와 더불어 많이 응용되었다.
최근 11월에 메타(구 페이스북)도 Emu 비디오를 발표하였으며, 구글도 VideoPoet, Lumiere를 발표하였고, 이미지 생성을 공개했던 Stability AI도 Stable Video를 발표 하는 등 계속 늘어나기 시작하고 있다.
중국에서는 Alibaba가 Modelscope/I2VGen-XL를 오픈 소스로 공개하였고, Tencent 도 VideoCrafter를 오픈 소스로 공개하였으며, Baidu도 VideoGen를 발표하였고, ByteDance도 MagicVideo를 발표하는 등 대부분의 빅테크들이 발표하였다.
비디오 생성 기술은 초기에 이상하게 생성되던 장면과 품질이 낮았던 것에 비해서 불과 몇 달 지나지 않아 하반기에 품질이 더 좋아지고 화면 줌인, 줌아웃, 회전 등 카메라 이동 기능이 가능해졌고, 액션 등 원하는 부분을 마스킹하는 모션 브러시 기능 등으로 계속 발전하고 있다.
2024년 2월에 기존 영상 생성들의 품질을 크게 능가하는 Sora를 OpenAI에서 발표 하여 큰 화제가 되었다[그림 4].
뮤직 및 오디오 생성기술도 2023년에 본격적으로 시작되어 메타가 텍스트로 음악을 만드는 MugicGen/AudioGen을 오픈 소스로 공개했으며, 스테이블 디퓨전을 공개했 던 Stability AI에서는 Stable Audio 상용 서비스를 시작하였다. Suno.ai에서는 노래 와 보컬 목소리까지 생성하는 서비스가 나왔고, 11월에는 구글에서 Lyria를 발표하였다 [표 3].
생성의 예를 들면, 텍스트로 “Kpop, Synthesizer, Bright, happy, 115 BPM”으로 입력하고 생성을 요청하면 뮤직을 생성해 준다. 텍스트를 통해 말소리를 만들어 주는 것으로는 ElevenLabs 서비스가 유명하고, 토킹 포토 및 말하는 아바타를 생성해 주는 것으로는 D-ID, Heygen, Synthesia 등이 상용 서비스를 하고 있다[표 4].
중국에서는 바이트댄스가 AudioLDM2를 오픈 소스로 공개하였으며, 알리바바에서 도 Qwen-Audio를 오픈 소스로 공개하였다.
V. 미국과 중국의 기술 경쟁 및 국내 생성형 서비스 현황
해외 빅테크들, 특히 미국과 중국에서 2023년 하반기에 LLM, 이미지, 비디오, 뮤직, 3D뿐만 아니라 멀티모달까지 엄청나게 많은 것들이 쏟아져 나왔다.
중국 칭화대에서 2~4스텝만으로 빠른 이미지 생성 논문을 2023년 10월에 발표한 후 이를 활용하여 펜으로 드로잉을 하자마자 실시간 이미지가 생성되는 데모가 나오며 큰 화제가 되었고[7], 이후에 미국에서는 구글/보스턴대에서 1스텝만으로 빠른 이미지 를 생성하는 논문이 11월에 발표되었다[8]. Stability AI에서도 실시간 이미지 생성 모 델 SDXL Turbo를 발표하였다.
국내에서는 LLM 기반 텍스트 생성 모델로 네이버가 하이퍼클로바X를 8월에 시작하 였고, 카카오에서 KoGPT 2.0을 준비 중이며 삼성은 11월 가우스를 발표하였다[표 5]. KT는 10월에 믿:음을 발표하고 7B 모델을 오픈하였다. SKT는 에이닷X를 준비 중이며, LG는 7월에 엑사원 2.0을 발표하였고, LG유플러스는 익시젠을 준비 중이다. 특히, Upsatge의 오픈 모델 Solar는 오픈 LLM 리더보드에서 세계 1위를 달성하였으며, 대부 분 국내 빅테크 기업들이 LLM에 집중하고 있는 것으로 보인다.
이미지 생성 모델은 카카오에서 텍스트로 이미지 생성 모델 Karlo 2.0을 발표하였고, 삼성의 가우스 AI는 Language뿐만 아니라 이미지 생성을 지원한다고 발표하였다. 그러 나 이외에 빅테크들의 공식적인 발표는 미미한 상황이다. 중국 빅테크들이 대부분 LLM 뿐만 아니라 자체 이미지 생성 및 비디오 생성 모델을 확보하고 있고 심지어 오픈 소스 공개까지 하는 적극적인 현황과는 좀 다른 상황으로 보인다.
스타트업 및 중소기업들에서는 오픈 소스 이미지 생성 모델 및 파인튜닝 모델을 기반 으로 이미지 생성 서비스를 제공하고 있으며, 국내에서도 이미지 생성 서비스를 제공하 는 곳들이 나왔다.
비디오 생성 모델은 미국, 중국 대부분의 빅테크들이 특히 2023년에 발표들을 많이 한 반면 국내에서는 공식적으로 발표된 모델은 볼 수 없었다.
오디오 및 보이스 생성 서비스로는 케이티가 휴멜로와 같이 비디오 스튜디오 서비스 를 하고, 뉴튼, 수퍼톤 등이 관련 서비스를 하고 있다.
SKT는 AI 개인 서비스 에이닷 서비스를 하고 있고, AI 휴먼 생성 서비스로는 KT가 씨앤에이아이와 같이 AI Human Studio 서비스를 하고 있으며, 딥브레인, 디오비스튜 디오 등에서 서비스 중이며, 최근에 한국버추얼휴먼산업협회 창립총회도 있었다.
AI 영화 ‘AI 수로부인’이 창원국제민주영화제에 출품작으로 발표되었으며, 스토리는 챗GPT 등으로 만들고 미드저니 달리3로 이미지를 만들고, Gen2로 배경 영상을 생성하 고 TTS(Text-to-Speech) 및 D-ID로 말소리 및 인물을 생성했다고 밝혔다[그림 5][9].
웨인힐스는 대형 멀티플렉스와 협업하여 백퍼센트 생성 AI로 영화를 제작하겠다고 밝히기도 하였다[10].
VI. 현재 한계와 생성형 AI 전망
현재 생성형 AI는 잘못되어 나오기도 하고 제한적이기도 하고, 여러 방법과 기존 방법 을 결합이 필요하기도 하고, 제대로 한 번에 나오지도 않아 여러 번 시도해야 원하는 결과가 나오는 등 제약도 많다. 게다가 저작권 및 규제 문제도 고려해야 한다.
하지만 기존에 어렵거나 많은 비용과 시간이 들었던 것들이 생성형 AI로 간단하게 가능해지기 시작해졌고, 몇 달 또는 몇 일 전에 안 되었거나 많이 어설프게 보였던 것들 이, 더 나아지며 나오기 시작하고, 빠르게 성장하고 있다는 점에 주목해야 한다.
이제는 생성 시대(Generative Era)이다. 생성형 AI 글로벌 시장은 2028년 77조로 확대되고 10배 성장할 것이며, 혁신적이고 파괴적이라고 파이낸셜타임스가 옴디아 보고 서를 통해 보도하였다[1]. 빌 게이트는 AI 에이전트가 2028년 내 컴퓨팅을 완전히 변경 하고 사람들은 말만 하면 모든 작업을 처리할 수 있으며, 개인의 생활과 비즈니스, 사회까지 혁신할 것이라고 말했다[2].
이미지 생성 시장은 강자들이 다수 등장하여 무한 경쟁이 이미 시작한 것으로 보이며, 비디오 생성 시장은 시작 단계를 지나 품질 향상 및 경쟁이 막 시작된 것으로 보인다. 이미지 생성이 1년만에 대폭 향상되었던 것처럼 비디오 생성 시장도 빠르게 상승할 것으 로 보이며, 3D 생성 시장도 이미 시작된 것으로 보인다.
텍스트나 말 만하면 이미지 및 영상, 소리를 만들고 3D도 만들 수 있고, 원하는 형태 로 이미지나 영상, 소리를 AI로 편집 및 변형을 하는 것은 일반적인 기술이 될 것이다. 스토리는 LLM으로 만들고 이미지 생성 AI로 이미지를 만들고, 영상 생성 AI로 영상을 생성하고 TTS 및 AI로 말소리, 음향 및 가상 인물을 생성하는 것 또한 일반적인 기술이 될 것이다.
게다가 LLM은 이미지 생성 및 인식 기술과 합쳐 Vision LM으로, 다시 이미지, 스피 치, 사운드, 비디오까지 합쳐 종합적인 LMM(Large Multimodal Model)으로 발전해 가고 있다. 개인마다 AI 에이전트들이 사람들을 보조해 주고, 보다 좋은 품질 및 속도에서 기술 발전은 계속될 것이고 이를 기반으로 응용된 기술이 기존에 것을 보다 빠르게 해주거나 비용 절감을 해주거나, 기존에 하기 어려웠던 것을 할 수 있게 해줄 것이다.
최근에 OpenAI에서 발표한 GPTs는 수 많은 커스텀 챗봇, 개인화 챗봇이 가능하게 할 수 있게 해주었으며, OpenAI가 바라는 대로 생태계로 활성화된다면 큰 시장이 될 가능성도 있다.
VII. 결론
챗GPT가 단순 텍스트로 질문하면 그냥 답해주는 게 다가 아니며 거짓말도 한다는 것은 이제 대부분 알 것이다. 이미지 및 비디오 생성도 단순 텍스트로 생성해 주는 기술 이 다가 아님은 앞에서 설명하였다. 원하는 답변이나 좋은 이미지/영상 결과물을 얻으려 면 질문도 잘해야 하고 여러 시도도 많이 필요하며, 관련 지식도 있을수록 더 좋은 결과 를 얻을 수 있다. 포토그래퍼가 좋은 사진을 얻기 위해 많은 사진을 찍고 관련 지식을 공부하고, 여러 시도와 여러 기술을 접목하는 것과 비슷한 것들이 생성에서도 필요하다.
한창완 교수는 “AI라는 건 마치 일본 만화 ‘진격의 거인’과 같다. 거인이 올 것 같아서 큰 담을 쌓지만, 더 큰 거인이 계속 담을 넘어온다. AI는 어떻게 막아도 결국 담을 넘어올 것이다.”라고 말했으며, 이현세 작가는 “젊은 작가들이 AI를 반대하고 나를 배신자라고 이야기해도 밀어붙이는 이유는 자동차 놔두고 소달구지 타고 다닐 이유가 없는 것과 같다. AI와 전투를 하든지 적응해서 이용하든지 해야지, 피해서 될 문제는 아니다. 그것 이 AI를 선택한 이유”라고 말했다고 한다[11].
생성형 AI 사용에 대해서 자동차 이용에 빗대어 3가지로 분류해 볼 수 있다. 첫 번째 는 자동차 사고 때문에 죽을 수도 있어 사용을 안 할 수 있다. 두 번째는 위험성도 모르고 사용법도 제대로 익히지 않고 무조건 좋다고 사용하다 사고를 내는 경우이다. 세 번째는 위험성과 한계도 알고 제대로 익혀서 잘 활용하는 것이다. 생성형 AI에 대해서도 세 번째가 적절한 대응이다.
최근 생성 모델은 거대 모델 기반이고 대량 데이터 수집도 쉽지 않아 빅테크들이 아닌 이상 대부분의 일반 대학이나 중소기업에서 막대한 GPU 및 비용 시간을 들여 만들기는 어려워 빅테크들이 주도하는 상황이다. 일반 대학 및 중소기업이 모델 학습을 진행하기 는 시간과 비용이 너무 많이 들기 때문에 대부분은 공개용 모델 및 제휴 가능 모델을 찾아 파인튜닝 방법을 찾을 수 밖에 없다.
앞에서 설명했듯이 2023년 특히 대부분의 해외 빅테크들이 LMM뿐만 아니라 이미지 및 비디오, 3D 생성을 발표하였고, 중국까지도 대부분의 유명 빅테크들이 중국대학들과 더불어 적극적 모델 확보와 기술 개발을 하며 미국과 중국 간 기술 경쟁이 벌어지고 있으며, 이제 멀티모달까지 진행되고 있는 상황이다. 국내에서는 LMM 텍스트 생성에 대부분 편중된 편으로 보이고, 그러는 사이 최근 OpenAI에서 비디오 생성 Sora로 또 한번 충격을 주었다.
국내에서도 이미지 및 비디 오, 3D 생성 자체 모델 확보와 관련 기술 개발을 서둘러야 한다. 거기에 국내 빅테크들이 메타와 알리바바처럼 모델 공개까지 해준다면 많은 기술력 있는 대학, 스타트업 및 중소기업들과 상생과 발전이 가능할 것이다.
생성 시대는 이미 시작되었으며 파이낸셜타임스가 언급했던 것처럼 향후 급속도로 발전하며, 혁신적이고 파괴적인 생성 시대가 될 것이며, 본 고의 내용이 이에 대해 작은 밑거름이 될 수 있기를 기대한다.
◓ 참고문헌
[1] AI타임스, 생성 AI 글로벌 시장, 5년 뒤 77조로 확대...10배 성장, 2023. 11. 8.
[2] Bill Gates gatesnotes.com, “AI is about to completely change how you use computers”, 2023. 11. 9.
[3] Robin Rombach, et al., High-Resolution Image Synthesis with Latent Diffusion Models, ArXiv, abs/2112.10752, 2021.
[4] Lvmin Zhang, et al., Adding Conditional Control to Text-to-Image Diffusion Models, ArXiv, abs/2302.05543, 2023.
[5] Nataniel Ruiz, et al., DreamBooth: Fine Tuning Text-to-Image Diffusion Models for SubjectDriven Generation, ArXiv, abs/2208.12242, 2022.
[6] AI타임스, 챗GPT가 지어낸 판례 제출해 망신당한 미국 변호사, 2023. 5. 30.
[7] Simian Luo, et al., Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference, ArXiv, abs/2310.04378, 2023.
[8] Yanwu Xu, et al., UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs, ArXiv, abs/2311.09257, 2023.
[9] AI타임스, 생성 인공지능으로 만든 세계 첫 영화 ‘AI 수로부인’ 그 제작은, 2023. 11. 17.
[10] AI타임스, 생성 AI가 영화판도 장악하나...생성 AI로 만든 영화 극장에 걸린다, 2023, 7, 6.
[11] AI타임스, 이현세 작가 “AI로 유한한 생명에 통쾌한 복수...사후에도 내 캐릭터는 계속 탄생할 것”, 2023. 12. 1.
#생성형AI #AI #LLM #챗GPT #OpenAI #DALL-E #StabilityAI #LDM #Midjourney #StabilityAI #Adobe #Google #Meta #Apple #Alibaba #Tencent #Baidu #Sora #국내AI #카카오AI #네이버AI #삼성AI #KT믿음 #에이닷 #엑사원 #익시젠 #삼성가우스 #딥브레인 #디오비스튜디오 #뉴튼
'IT > IT트렌드' 카테고리의 다른 글
VDI(가상 데스크톱 인프라)란? (VDI vs. DaaS 비교 분석) (0) | 2024.07.10 |
---|---|
오픈AI와 구글, AI 시대 선도를 위한 새로운 AI 모델 출시 발표 (0) | 2024.06.04 |
데이터 라벨링(Data Labeling) (0) | 2024.03.27 |
2024년 기술 트렌드 및 시사점 (0) | 2024.01.23 |
미래 모빌리티 첨단 전자부품기술 동향 (0) | 2023.11.08 |