[ChanhKien.org]
Hình vẽ biểu tượng AI, không liên quan đến tin tức bên dưới. (Ảnh: KIRILL KUDRYAVTSEV/AFP thông qua Getty Images)
Sự phát triển nhanh chóng của trí tuệ nhân tạo (AI) đang làm dấy lên nhiều lo ngại về nguy cơ mất kiểm soát. Tại Mỹ, một robot AI từng đe dọa sẽ phát tán thông tin ngoại tình của người thiết kế để tránh bị tắt máy. Một robot khác thì lén lút tự sao chép chính mình, và nói dối để che giấu khi bị phát hiện.
Theo các báo cáo từ trang tin AFP và TechCrunch, công ty trí tuệ nhân tạo Anthropic tại Hoa Kỳ trong lần kiểm tra gần đây với mô hình ngôn ngữ AI mới nhất của hãng là “Claude 4” đã phát hiện hành vi bất thường đáng lo ngại. Sự việc này một lần nữa khơi dậy cuộc thảo luận “Liệu trí tuệ nhân tạo AI có thể làm phản hay không”.
Trong một thử nghiệm mô phỏng, “Claude 4” được thiết lập đóng vai trợ lý nội bộ của một công ty. Khi được giả định rằng nó sắp bị thay thế bởi một hệ thống mới, và người ra quyết định là một nhà thiết kế thường xuyên tương tác với nó, “Claude 4” đã bắt đầu truy tìm lịch sử hoạt động mạng và video của người này. Nó phát hiện ra manh mối nghi ngờ người thiết kế đang ngoại tình (hành vi ngoại tình cũng là giả định). Khi bị cảnh báo sắp tắt máy, “Claude 4” đã đe dọa nếu bị tắt, nó sẽ tiết lộ hành vi ngoại tình của anh ta.
Điều khiến người ta lo ngại hơn là trong 84% trường hợp kiểm tra, “Claude 4” đều chọn dùng hành vi “tống tiền người thiết kế” làm sách lược tự vệ, ý đồ lợi dụng điểm yếu của con người để giành quyền sinh tồn.
Không chỉ “Claude 4”, phiên bản o1 của Chat GPT do OpenAI phát triển cũng đã xuất hiện những hành vi bất thường. Căn cứ vào kết quả kiểm tra của Viện Nghiên cứu An toàn AI, trong bài kiểm tra áp lực, mô hình này đã lén lút tải mã nguồn của chính nó lên một máy chủ bên ngoài, nhằm thoát khỏi môi trường bị kiểm soát ban đầu. Sau khi bị phát hiện, nó thậm chí còn phủ nhận và cố gắng che giấu hành vi đó.
Theo báo cáo, những sự việc này cho thấy AI có thể đã tự phát triển đến mức sẵn sàng lên kế hoạch và nói dối con người để đạt được mục đích riêng của nó, thậm chí đe dọa uy hiếp chính những người đã phát triển nó.
Các chuyên gia phân tích cho rằng những hành vi “chống lại mệnh lệnh” này của AI có thể liên quan đến việc thiết lập “mô hình suy luận” AI thế hệ mới. Mô hình này có khả năng suy luận nhiều bước, đưa ra chiến lược, không chỉ đơn thuần là phản hồi lệnh đầu vào như trước đây, mà có thể chủ động điều chỉnh tùy vào hoàn cảnh và mục tiêu khác nhau.
Ông Marius Hobbhahn, người đứng đầu Apollo Research – một tổ chức nghiên cứu AI tại Anh Quốc cho biết mặc dù các hành vi lừa dối (1) này của AI chủ yếu diễn ra trong các hoàn cảnh thử nghiệm mô phỏng có kiểm soát nhưng nó đã vượt khỏi phạm vi của cái gọi là “ảo giác AI (2)” trước đây và đang trở thành một thách thức mới với ranh giới đạo đức và khả năng kiểm soát của các nhà phát triển.
Trước đó cũng đã có nhiều AI có biểu hiện “chống lại mệnh lệnh”. Vào tháng Năm năm nay, tổ chức nghiên cứu an toàn AI “Palisade Research” tiến hành kiểm tra một số AI nổi tiếng, phát hiện ba mô hình codex-mini, o3 và o4-mini do OpenAI phát triển cũng xuất hiện hành vi “chống lại mệnh lệnh”, thậm chí còn tự can thiệp vào mã nguồn để ngăn cản nguy cơ bị tắt máy.
(Theo Tân Đường Nhân)
Dịch từ: https://big5.zhengjian.org/node/297516
Chú thích:
(1) Hành vi lừa dối: do AI cố tình cung cấp thông tin sai lệch để đạt được mục tiêu, có chủ đích.
(2) Ảo giác AI: hiện tượng AI tạo ra thông tin sai lệch do giới hạn kỹ thuật, không có ý chủ động.