Đầu năm nay, Google đã giới thiệu mô hình tạo video Veo và mô hình tạo ảnh mới nhất Imagen 3. Kể từ đó, việc chứng kiến mọi người hiện thực hóa ý tưởng của mình với sự hỗ trợ của các mô hình này thật sự thú vị: Các nhà sáng tạo nội dung YouTube đang khám phá tiềm năng sáng tạo của phông nền video cho YouTube Shorts, các khách hàng doanh nghiệp đang cải tiến quy trình làm việc sáng tạo trên Vertex AI và các nhà sáng tạo đang sử dụng VideoFX và ImageFX để kể câu chuyện của họ. Cùng với các cộng tác viên từ các nhà làm phim đến doanh nghiệp, Google đang tiếp tục phát triển và hoàn thiện các công nghệ này.
Hôm nay, Google giới thiệu mô hình video mới Veo 2 và phiên bản Imagen 3 mới nhất, cả hai đều đạt kết quả vượt trội. Các mô hình này hiện có sẵn trong VideoFX, ImageFX và công cụ thử nghiệm mới nhất của Labs, Whisk.
Veo 2: Tạo video đỉnh cao
Veo 2 tạo ra những video chất lượng cực cao với đa dạng chủ đề và phong cách. Trong các so sánh trực tiếp được đánh giá bởi con người, Veo 2 đã đạt được kết quả hàng đầu so với các mô hình hàng đầu khác.
Mô hình này mang đến sự hiểu biết nâng cao về vật lý thế giới thực và các sắc thái của chuyển động và biểu cảm của con người, giúp cải thiện độ chi tiết và chân thực tổng thể. Veo 2 hiểu ngôn ngữ điện ảnh độc đáo: hãy yêu cầu nó tạo theo một thể loại, chỉ định ống kính, đề xuất hiệu ứng điện ảnh và Veo 2 sẽ đáp ứng — ở độ phân giải lên đến 4K và độ dài lên đến vài phút. Yêu cầu một cảnh quay góc thấp lướt qua giữa khung hình, hoặc một cảnh quay cận cảnh khuôn mặt của một nhà khoa học đang nhìn qua kính hiển vi, và Veo 2 sẽ tạo ra nó. Đề xuất “ống kính 18mm” trong lời nhắc và Veo 2 sẽ biết cách tạo ra góc rộng mà ống kính này nổi tiếng, hoặc làm mờ hậu cảnh và tập trung vào chủ thể bằng cách thêm “độ sâu trường ảnh nông” vào lời nhắc.
Mặc dù các mô hình video thường “ảo giác” ra các chi tiết không mong muốn — chẳng hạn như thêm ngón tay hoặc các vật thể bất ngờ — nhưng Veo 2 ít gặp phải hiện tượng này hơn, giúp đầu ra chân thực hơn.
Cam kết của Google về tính an toàn và phát triển có trách nhiệm đã dẫn đường cho Veo 2. Google đã thận trọng trong việc mở rộng phạm vi tiếp cận của Veo để có thể giúp xác định, hiểu và cải thiện chất lượng và tính an toàn của mô hình trong khi dần dần triển khai nó thông qua VideoFX, YouTube và Vertex AI.
Giống như các mô hình tạo ảnh và video khác của Google, đầu ra của Veo 2 bao gồm hình mờ SynthID vô hình giúp xác định chúng là do AI tạo ra, giúp giảm nguy cơ thông tin sai lệch và gán sai nguồn gốc.
Hôm nay, Google mang các khả năng mới của Veo 2 đến công cụ tạo video Google Labs, VideoFX, và mở rộng số lượng người dùng có thể truy cập. Truy cập Google Labs để đăng ký danh sách chờ. Google cũng có kế hoạch mở rộng Veo 2 sang YouTube Shorts và các sản phẩm khác vào năm tới.
Imagen 3: Tạo hình ảnh đỉnh cao
Google cũng đã cải tiến mô hình tạo ảnh Imagen 3, giờ đây tạo ra những hình ảnh sáng hơn và bố cục tốt hơn. Giờ đây, nó có thể thể hiện nhiều phong cách nghệ thuật đa dạng hơn với độ chính xác cao hơn — từ chủ nghĩa hiện thực ảnh đến trường phái ấn tượng, từ trừu tượng đến anime. Bản nâng cấp này cũng tuân theo lời nhắc trung thực hơn và hiển thị chi tiết và kết cấu phong phú hơn. Trong các so sánh song song về đầu ra của người đánh giá với các mô hình tạo ảnh hàng đầu, Imagen 3 đã đạt được kết quả hàng đầu.
Bắt đầu từ hôm nay, mô hình Imagen 3 mới nhất sẽ được triển khai toàn cầu trong ImageFX, công cụ tạo ảnh của Google Labs, đến hơn 100 quốc gia. Truy cập ImageFX để bắt đầu.
Whisk: Công cụ mới thú vị cho phép bạn sử dụng hình ảnh làm lời nhắc để hình dung ý tưởng
Whisk, thử nghiệm mới nhất từ Google Labs, cho phép bạn nhập hoặc tạo hình ảnh truyền tải chủ thể, cảnh và phong cách mà bạn đang nghĩ đến. Sau đó, bạn có thể kết hợp và phối lại chúng để tạo ra thứ gì đó độc đáo của riêng bạn, từ thú nhồi bông kỹ thuật số đến ghim hoặc nhãn dán tráng men.
Về cơ bản, Whisk kết hợp mô hình Imagen 3 mới nhất với khả năng hiểu và mô tả hình ảnh của Gemini. Mô hình Gemini tự động viết chú thích chi tiết cho hình ảnh của bạn và sau đó đưa các mô tả đó vào Imagen 3. Quá trình này cho phép bạn dễ dàng phối lại chủ thể, cảnh và phong cách theo những cách mới mẻ và thú vị.