Công nghệ

Chìa khóa giúp Robot hình người chinh phục thế giới thực

Quỳnh Chi 28/11/2025 - 07:45

Nhờ được trang bị "trực giác nhân tạo" dựa trên tư duy hình học 3D, robot hình người thế hệ mới có thể tự tin thao tác khéo léo với mọi vật dụng chưa từng gặp thay vì phải học vẹt từng chút một. Bước đột phá này dự kiến sẽ là chìa khoá mở toang cánh cửa đưa những cỗ máy thông minh này bước ra khỏi phòng thí nghiệm để hòa nhập vào đời sống con người.

Trong suốt nhiều năm, giới nghiên cứu robot hình người đã tập trung vào việc giúp robot đi, chạy, giữ thăng bằng và thực hiện các chuyển động tương tự con người. Tuy nhiên, thách thức lớn hơn nhiều lại nằm ở đôi tay mà cụ thể hơn chính là cách robot cầm, nắm và thao tác các vật thể khác nhau trong môi trường thực tế. Đây là rào cản khiến robot hình người dù ấn tượng trong các màn biểu diễn, nhưng vẫn rất khó đưa vào đời sống hay sản xuất thực tế.

Vấn đề cốt lõi mà các kỹ sư robot đau đầu suốt nhiều năm qua không phải là sức mạnh cơ bắp hay tốc độ xử lý, mà là khả năng "khái quát hóa". Nói một cách đơn giản, nếu chúng ta dạy một đứa trẻ cách cầm một quả táo, đứa trẻ sẽ tự biết cách cầm một quả cam hay một quả bóng tennis vì chúng có hình dạng tương tự. Nhưng với robot truyền thống, quả cam là một vật thể hoàn toàn mới và nó phải học lại từ đầu. Các phương pháp trước đây thường dựa vào việc nạp hàng terabyte dữ liệu để robot "học vẹt" mọi tình huống có thể xảy ra, nhưng cách làm này vừa tốn kém vừa thiếu hiệu quả khi đối mặt với sự đa dạng vô tận của thế giới thực.

new-framework-could-al-1.jpg
Thử nghiệm thành công robot hình người phân biệt đồ vật và chọn cầm nắm chính xác đồ vật được yêu cầu.

Hiểu rõ được điều này, nhóm nghiên cứu tại Đại học Vũ Hán (Wuhan University) đã trình làng một bộ khung trí tuệ nhân tạo mới tên gọi RGMP cho phép robot hình người thao tác vật thể với độ tin cậy cao, ngay cả khi gặp những đồ vật mà robot chưa từng thấy trước đây.

Điểm mấu chốt của công nghệ bộ khung mới này nằm ở việc không bắt buộc robot phải học lại từ con số không. Thay vào đó, RGMP trang bị cho robot một khả năng "tiên nghiệm hình học" (geometric priors). Hãy tưởng tượng robot được cài đặt một "trực giác" về hình khối 3D. Khi nhìn thấy một chiếc cốc có quai, ngay cả khi chiếc cốc đó có màu sắc hay kích thước lạ lẫm, robot vẫn hiểu rằng "cái quai" là nơi tốt nhất để cầm nắm nhờ vào kiến thức về hình học đã được tích hợp sẵn. Sự kết hợp giữa thị giác máy tính tiên tiến và tư duy hình học này cho phép robot đưa ra quyết định chính xác hơn nhiều so với việc chỉ dựa vào camera 2D thông thường.

Hai thành phần chính giúp bộ khung trí tuệ nhân tạo RGMP hoạt động gồm Geometric-prior Skill Selector (GSS) và Adaptive Recursive Gaussian Network (ARGN). Trong đó, GSS là phần mô phỏng khả năng con người nhìn một vật và lập tức hiểu phải cầm vào đâu, xoay như thế nào. Thành phần này kết hợp trí tuệ thị giác-ngôn ngữ và thông tin hình học, giúp robot phân tích hình dáng vật thể rồi chọn kỹ năng tương ứng. Ví dụ, với vật tròn, robot có xu hướng chọn động tác ôm và cuộn trong khi những vật dài, robot sẽ chọn cách kẹp.

Sau khi chọn được kỹ năng phù hợp, robot cần sinh ra chuyển động mượt mà và an toàn. Lúc này ARGN sẽ đóng vai trò tái hiện cấu trúc không gian giữa robot và vật thể, từ đó tạo ra chuyển động chính xác nhưng không cần quá nhiều dữ liệu huấn luyện. Đây là chìa khóa giúp khung RGMP hiệu quả hơn các mô hình như diffusion policy tới 5 lần về tính hiệu quả dữ liệu.

Một trong những con số ấn tượng nhất mà nghiên cứu này đưa ra là khả năng tiết kiệm dữ liệu. So với các phương pháp hiện đại nhất hiện nay như Diffusion Policy, khung RGMP có hiệu quả sử dụng dữ liệu cao hơn gấp 5 lần. Điều này có ý nghĩa lớn về mặt kinh tế và thời gian. Thay vì phải mất hàng tháng trời để thu thập dữ liệu huấn luyện cho một nhiệm vụ mới, giờ đây các nhà phát triển có thể dạy robot kỹ năng mới chỉ trong một khoảng thời gian ngắn với lượng dữ liệu đầu vào ít hơn nhiều. Nó giống như việc bạn dạy một học sinh giỏi chỉ cần một ví dụ là hiểu bài, thay vì phải giảng đi giảng lại mười lần cho một học sinh kém.

Trong các thử nghiệm thực tế được thực hiện trên cả robot hình người và các cánh tay robot để bàn, hệ thống này đã đạt được tỷ lệ thành công trung bình đạt 87% trong các bài kiểm tra về khả năng khái quát hóa. Robot đã chứng minh được sự khéo léo đáng kinh ngạc khi thực hiện các chuỗi hành động phức tạp như nhặt, xoay, đặt đồ vật vào đúng vị trí, thậm chí là rót nước - những tác vụ đòi hỏi sự phối hợp tinh tế giữa thị giác và xúc giác. Sự ổn định này là bước đệm quan trọng để chúng ta có thể tin tưởng giao cho robot những công việc trong gia đình như dọn dẹp bàn ăn, xếp quần áo hay hỗ trợ người già, những nơi mà sai sót nhỏ cũng có thể gây ra đổ vỡ.

Sự ra đời của khung hoạt động mới này đánh dấu một bước trưởng thành quan trọng trong ngành robot hình người. Chúng ta đang chuyển từ giai đoạn tạo ra những con robot chỉ biết biểu diễn sang giai đoạn chế tạo những cỗ máy thực sự hữu dụng và đáng tin cậy. Con số 87% không chỉ là một kết quả thống kê khô khan, mà là minh chứng cho thấy khoảng cách giữa trí tuệ nhân tạo và thế giới vật lý đang dần được xóa bỏ. Với đà phát triển này, viễn cảnh về một tương lai nơi robot hình nhân cùng chung sống và làm việc bên cạnh con người, hỗ trợ chúng ta từ nhà máy đến phòng khách, có lẽ không còn là chuyện viễn tưởng xa vời nữa.

Quỳnh Chi