Startup không muốn làm "Don Quijote đánh nhau với cối xay gió"
Ứng dụng AI từ các tập đoàn công nghệ lớn, một startup mới có thể tạo ra sản phẩm AI với chi phí vừa phải và rút ngắn được thời gian phát triển sản phẩm.
“AI tạo sinh (Generative AI) phụ thuộc rất lớn ở khối lượng dữ liệu đã được huấn luyện. Việc tự nghiên cứu công nghệ mới và xây dựng dữ liệu riêng là việc không khả thi đối với startup. Thay vào đó, ứng dụng AI từ các tập đoàn công nghệ lớn, một startup mới có thể tạo ra sản phẩm AI với chi phi vừa phải và rút ngắn được thời gian phát triển sản phẩm”, theo lời ông Đặng Hữu Sơn - đồng sáng lập và CEO của LovinBot.
Rất nhiều ý kiến cho rằng Việt Nam đã chậm chân trong cuộc đua AI so với làng công nghệ thế giới. Vì chậm chân nên hiện nay các startup công nghệ Việt phải dựa vào công nghệ lõi của một vài công ty công nghệ lớn. Điển hình là cơn sốt ChatGPT vừa rồi cho thấy nhiều startup Việt Nam phải dựa vào OpenAI để tạo dựng dữ liệu riêng từ nền tảng công nghệ ban đầu của ChatGPT.
Ông Đặng Hữu Sơn cho biết, thiếu dữ liệu dùng trong AI là vấn đề lớn khiến các startup công nghệ chưa thể khai phá được ngóc ngách của công nghệ này để đưa vào thị trường trong nước. Ông nhận ra điều này từ khi còn làm việc tại FPT Telecom khi có cơ hội sử dụng và góp ý những ứng dụng của AI trong các sản phẩm ứng dụng AI, Big Data và CDP (Customer Data Platform)...
“Quá trình tiếp xúc với các ứng dụng của AI giúp tôi nhận thức được sự ghê gớm của AI từ trước khi thị trường lên cơn sốt. Ứng dụng của công nghệ này có thể cơ cấu lại quy trình trong nhiều ngành nghề, giúp doanh nghiệp ra quyết định chính xác dựa trên dữ liệu trong thời gian thực. Tuy nhiên, AI vẫn khá xa lạ và khó triển khai với đa số doanh nghiệp vừa và nhỏ như startup. Chỉ có các tập đoàn mới có có đủ dữ liệu và tính đồng nhất cao, cũng như khả năng bỏ ra chi phí lớn đầu tư”, CEO của LovinBot cho hay.
Đặng Hữu Sơn từng tự nghiên cứu mô hình riêng ứng dụng AI nhưng không thành công. Ông nhận ra rằng, việc huấn luyện dữ liệu riêng cho mỗi công ty dường như không dành cho mọi người vì rất phức tạp và đòi hỏi chuyên môn cao.
Năm 2018, khi Google ra mắt mã nguồn mở Transformer, Đặng Hữu Sơn cùng một số bạn làm công nghệ bắt tay vào dự án về trợ lý ảo cho doanh nghiệp.
Tuy nhiên, các doanh nghiệp lại chưa có đủ niềm tin để cùng xây dựng dữ liệu áp dụng vào công nghệ trí tuệ nhân tạo nên đã từ chối hợp tác với LovinBot. Dự án phải chuyển hướng tìm tòi thử nghiệm sản phẩm khác. Đặng Hữu Sơn cũng nhận định rõ tầm quan trọng của việc xây dựng dữ liệu nên ý tưởng ứng dụng Generative AI đã hình thành, đó là tạo ra trợ lý viết nội dung cho các ngành nghề sáng tạo.
Muốn tích hợp ChatGPT đâu phải dễ
Trong nước đã có nhiều công ty chuyên về phát triển nền tảng AI từ khi mô hình Transformer phát hành mã nguồn mở như FPT.AI, Viettel AI hay Vin AI. Tuy nhiên, sẽ cần tới hàng chục tỷ USD để xây dựng hạ tầng và nhiều chuyên gia để xây dựng các mô hình AI riêng. Generative AI còn phụ thuộc rất lớn ở khối lượng dữ liệu huấn luyện, lên tới nghìn tỷ tham số như GPT-4 để đạt được kết quả hiện tại.
Biết vị thế của một startup, Đặng Hữu Sơn và LovinBot không thể bỏ ra nguồn lực lớn như vậy, ông đã linh hoạt ứng dụng công nghệ mới nhất của thế giới như GPT-4, PaLM 2, Langchains để xây dựng các giải pháp riêng cho thị trường Việt Nam. Theo ông, đây là cách đi nhanh nhất và khả thi nhất đối với startup để đưa sản phẩm ra thị trường nhanh chóng. Cũng bằng cách này, một startup Việt cũng không phải đóng vai "Don Quijote đánh nhau với cối xay gió" là các đại gia AI trên thế giới.
Đổi sang chiến lược mới, Đặng Hữu Sơn cùng LovinBot gửi hồ sơ xin cấp quyền sử dụng đến Open AI ra mắt phiên bản GPT-3 (tiền thân của ChatGPT).
Ở thời điểm lúc bấy giờ, vào năm 2020, Open AI mới ra mắt phiên bản GPT-3 (tiền thân của ChatGPT), đại gia công nghệ này từ chối LovinBot vì quyền truy cập GPT-3 chỉ mới áp dụng với số lượng rất hạn chế. Sau hơn hai năm không từ bỏ, đầu năm 2023, LovinBot là một trong những đơn vị đầu tiên tại VN được cấp quyền truy cập API của Open AI.
Phòng chống lệ thuộc đại gia công nghệ
Hiện nay, công nghệ nền tảng của LovinBot dựa trên GPT-3.5 Turbo và GPT-4 của Open AI, đồng thời vào tháng 4/2023, LovinBot đã được cấp quyền truy cập PaLM 2 của Google AI. Hướng đi của startup này là ứng dụng AI từ các tập đoàn công nghệ lớn, sau đó tối ưu tiếng Việt để đưa hai ra sản phẩm, trợ lý viết nội dung bằng GPT-4 dành cho người Việt và huấn luyện và tạo Chatbot AI dựa trên dữ liệu của doanh nghiệp.
LovinBot đã ra mắt phiên bản viết nội dung cho khách hàng cá nhân vào tháng 3/2023. Sau khi hoàn thiện phiên bản huấn luyện chatbot AI sẽ đẩy mạnh tập khách hàng B2B, đặc biệt trong lĩnh vực chăm sóc khách hàng, tài chính, bất động sản, bán lẻ…
Theo Đặng Hữu Sơn, do tích hợp GPT-4 được tối ưu tiếng Việt nên LovinBot "dịch thuật tiếng Việt có chút nhỉnh hơn ChatGPT". Hơn nữa, trước đây, LovinBot đã tự huấn luyện dữ liệu thông qua fine-tune mô hình GPT-3, nghĩa là hoạt động tinh chỉnh mô hình AI dựa trên mô hình đã được huấn luyện (pre-train), rồi đào tạo thêm các bộ dữ liệu đầu vào.
Việc sử dụng hàng triệu tham số theo cách huấn luyện thông thường là không khả thi với startup này, thì với fine-tune, LovinBot chỉ cần huấn luyện trên vài nghìn mẫu câu quảng cáo Facebook, Google, các bản thảo nội dung như tiêu đề, mô tả sản phẩm và blog… Các dữ liệu này lại tiếp tục được điều chỉnh tiếp. Tuy vậy, đối với tất cả mô hình trí tuệ nhân tạo hiện nay, dịch thuật vẫn luôn là lĩnh vực khó và cần thời gian để làm giàu vốn từ cho AI nhưng với cách này, LovinBot đã giảm thiểu được chi phí thu thập dữ liệu so với cách xây dựng từ đầu.
Dữ liệu sau khi được huấn luyện dữ liệu lại được tích hợp LLM (mô hình ngôn ngữ lớn) để truy xuất dữ liệu mới có thể trả lời chính xác câu hỏi của khách hàng. Nếu không tìm thấy câu trả lời phù hợp trong ngữ cảnh, AI của LovinBot sẽ phản hồi không biết hoặc chuyển liên hệ cho con người hỗ trợ chứ không tự bịa nội dung như ChatGPT. Startup cho ra giải pháp này vì có quá nhiều mắng vốn của người dùng rằng AI trả lời sai, bịa đặt các thông tin về doanh nghiệp.
Đặng Hữu Sơn và LovinBot đã nhìn ra khả năng lệ thuộc vào các đại gia công nghệ vì sử dụng công nghệ lõi của họ, dù hiện nay với sự cạnh tranh mạnh mẽ trên thị trường nên giá sản phẩm AI của họ vẫn còn rẻ. LovinBot đã tích hợp công nghệ của nhiều công ty để không bị phụ thuộc. Trong thời gian tới, LovinBot sẽ nghiên cứu để tích hợp thêm các công nghệ AI của Việt Nam từ các đơn vị như FPT.AI trong lĩnh vực xử lý văn bản thành giọng nói và nhận diện ký tự quang học (OCR).