AI chuyển văn bản thành hình ảnh - tương lai không giới hạn của trí tuệ nhân tạo

Sáng tạo hình ảnh từ văn bản được xem là bước đột phá mới của công nghệ trí tuệ nhân tạo (AI) và được dự báo sẽ nhanh chóng trở thành xu hướng mới.

AI giờ đã có thể tạo ra hình ảnh nguyên bản dựa trên văn bản đơn giản. Ảnh: Imagen

Những tháng gần đây, Imagen - một loại hình AI mới của Google Brain nhận được nhiều sự quan tâm của công chúng khi cho phép sáng tạo hình ảnh từ văn bản. Theo đó, người dùng có thể nhập một đoạn văn bản bất kỳ như "một chú chó corgi dễ thương sống trong một ngôi nhà làm từ sushi" và AI sẽ tạo ra hình ảnh tương ứng.

Theo Forbes, Google không phải là người tiên phong trong công nghệ này. Tháng 1/2021, OpenAI đã ra mắt DALL-E và DALL-E 2 công bố hơn 1 năm sau đã gây tiếng vang lớn, đưa công nghệ sáng tạo hình ảnh từ văn bản trở thành một xu hướng mới. Trước sự phấn khích xung quanh "hiện tượng mới" DALL-E 2, nhiều đối thủ cạnh tranh đã lần lượt xuất hiện. Những Craiyon, Midjourney và Imagen của Google... đã nhanh chóng nhảy vào cuộc đua công nghệ đầy hứa hẹn này.

Một cái tên đáng chú ý khác là Stability.ai. Khác với tất cả đối thủ, Stability.ai công khai tất cả chi tiết về loại hình AI của mình và cho phép bất cứ ai cũng có thể truy cập và sử dụng trực tuyến. Đồng nghĩa, không hề có bộ lọc hoặc rào cản nào với nội dung mà nó có thể tạo ra, từ bạo lực, khiêu dâm cho đến phân biệt chủng tộc hay nội dung độc hại...

Một mặt, chiến lược nói trên của Stability.ai gây ra không ít tranh cãi. Mặt khác, đặc tính cởi mở của nó giúp xây dựng một cộng đồng mạnh mẽ gồm cả nhà phát triển và người dùng ứng dụng, từ đó tạo nên nhiều lợi thế cạnh tranh lớn. Với tất cả những bước tiến gần đây, dường như không có giới hạn nào trong sự phát triển của AI. Dưới đây là 4 dự đoán về tương lai của công nghệ sáng tạo hình ảnh từ văn bản với AI.

Link bài viết

1. Vốn đầu tư mạo hiểm ồ ạt đổ vào trong 12 tháng tới

Theo Forbes, giới đầu tư mạo hiểm đang kháo nhau rằng công nghệ sáng tạo hình ảnh từ văn bản chính là tương lai của AI và hàng loạt khoản đầu tư mạo hiểm được kỳ vọng sẽ ồ ạt đổ vào lĩnh vực này trong thời gian tới.

Với mức định giá lên đến 1 tỷ USD, Stability.ai đang huy động 100 triệu USD từ các nhà đầu tư blue-chip như Lightspeed và Coatue.

Bên cạnh đó, Midjourney cũng nhận được sự quan tâm của nhiều nhà đầu tư nội địa và hứa hẹn sẽ huy động được một lượng vốn lớn để cạnh tranh và mở rộng quy mô trong thời gian tới.

Ngoài ra, nhiều startup trong lĩnh vực này được dự báo sẽ xuất hiện trong những tháng tới, với tầm nhìn và cách tiếp cận khác nhau nhằm thương mại hóa công nghệ mới này.

2. Vẫn còn nhiều cơ hội và mô hình kinh doanh mới

Việc ứng dụng AI để tạo ra hình ảnh từ văn bản đến nay là sự mới lạ và gây tò mò tuyệt đối cho người dùng cá nhân. Nói như những người đã từng sử dụng, thì đó là trải nghiệm thú vị và hấp dẫn, đặc biệt ở lần đầu tiên. Tuy nhiên, về lâu dài, nó sẽ không chỉ dừng ở việc sử dụng thông thường của cá nhân, mà còn có khả năng hỗ trợ đắc lực cho cả doanh nghiệp lớn.

Lĩnh vực có thể ngay lập tức ứng dụng công nghệ sáng tạo hình ảnh là quảng cáo. Công nghệ này còn có thể ảnh hưởng đến thiết kế kiến trúc bằng cách 'đề xuất' các cấu trúc và bố cục mới, độc đáo, bất ngờ và truyền cảm hứng cho các kiến trúc sư là con người.

Hơn nữa, AI sáng tạo hình ảnh từ văn bản còn có thể được áp dụng cho mỹ thuật, với quy mô toàn cầu của thị trường mỹ thuật là 65 tỷ USD. Ngay cả khi loại bỏ thị trường cao cấp này, vẫn còn rất nhiều cách để loại hình công nghệ này phát huy điểm sáng của nó, như tạo bìa sách, bìa tạp chí, bưu thiếp, áp phích, album nhạc, hình nền, truyền thông số...

Có rất nhiều cách để loại hình công nghệ này phát huy điểm sáng của nó, như bìa sách, bìa tạp chí, bưu thiếp, áp phích, album nhạc, hình nền, truyền thông số...

Có rất nhiều cách để AI sáng tạo ra hình ảnh từ văn bản phát huy điểm sáng của nó, như bìa sách, bìa tạp chí, bưu thiếp, áp phích, album nhạc, hình nền, truyền thông số... Ảnh: Imagen

3. Hàng loạt vấn đề về bản quyền và pháp lý

Bất kỳ loại hình công nghệ mới nào mang đến sự thay đổi đột phá đều sẽ tạo ra thách thức với các chuẩn mực xã hội và khung chính sách hiện có. Và, AI sáng tạo hình ảnh từ văn bản cũng không là ngoại lệ.

Đơn cử, ai sẽ sở hữu và ai có quyền thương mại hóa hình ảnh tạo ra từ văn bản? Người làm ra văn bản và đưa nó cho AI có thể sở hữu hình ảnh và làm bất cứ điều gì họ thích với nó (kể cả trong bối cảnh thương mại) không? Hay tổ chức xây dựng AI sẽ giữ quyền với tất cả sản phẩm mà nó làm ra? Điều gì sẽ xảy ra nếu công nghệ này dùng mã nguồn mở?

Các câu hỏi trên không phải chỉ là nói suông, vì chúng sẽ mang đến hậu quả kinh doanh thực tế và ngay lập tức. Việc các vấn đề này có được giải quyết hay không và bằng cách nào sẽ có tác động đáng kể đến chiến lược và cơ hội dành cho các công ty trong lĩnh vực này.

Trên thực tế, Google và OpenAI tạo ra AI này bằng cách "đào tạo" chúng dựa trên trên vô số hình ảnh công khai mà 2 công ty này không sở hữu, gồm tác phẩm của nghệ sĩ, nhà thiết kế và các tổ chức khác nhau. Khi xuất hiện tranh chấp có giá trị cao liên quan đến các hình ảnh vừa nêu, chắc chắn sẽ có kiện tụng. Vậy, tòa án sẽ nhìn nhận sự việc thế nào, khi đây là lĩnh vực chưa từng được khám phá và cũng không hề có tiền lệ pháp lý trực tiếp nào tồn tại.

Link bài viết

Tuy nhiên, những vấn đề này không nên được coi là mặt trái của công nghệ mới, mà là những điểm chưa được giải quyết, khi ngành công nghiệp non trẻ này đang phát triển với tốc độ tối đa. Đừng nhầm lẫn: Sự mơ hồ về pháp lý sẽ không ngăn cản các doanh nhân phát triển nhằm đưa công nghệ mới này đến với đại chúng.

4. Công nghệ AI sẽ nhanh chóng trở nên ấn tượng

Dù công nghệ sáng tạo hình ảnh từ văn bản rất ấn tượng, song cần nhớ rằng chúng ta vẫn đang ở những giai đoạn sớm nhất của AI và đây mới chỉ là bước khởi đầu. Bước tiếp theo sẽ là chế tác video có độ dài cụ thể từ văn bản. Đây là một thách thức kỹ thuật phức tạp hơn đáng kể so với việc sáng tạo hình ảnh từ văn bản, khi đòi hỏi một nguồn tài nguyên máy tính và dữ liệu "đào tạo" khổng lồ hơn nhiều.

Dù vậy, cơ hội là vô cùng lớn. Từ Youtube, TikTok đến Netflix, video đã trở thành phương tiện thống trị cuộc sống số ngày nay. Do đó, khả năng sáng tạo nội dung video dễ dàng và tiết kiệm chi phí sẽ thay đổi ngành giải trí, truyền thông xã hội, marketing và hơn thế nữa. Thêm vào đó, trong tương lai, AI thậm chí có thể được ứng dụng để tạo ra nội dung kỹ thuật số 3-D, hỗ trợ đắc lực cho ngành game và phim hoạt hình.

Dù các kịch bản nói trên vẫn nằm ngoài khả năng của hiện tại, song nền tảng công nghệ cốt lõi để biến chúng thành hiện thực về cơ bản đã có sẵn. Tương lai tuyệt vời phía trước sẽ đến sớm hơn chúng ta nghĩ