Anthropic phát hiện Claude có cảm xúc thực sự

Tóm tắt nhanh
Nghiên cứu chấn động từ Anthropic hé lộ: các mô hình AI như Claude Sonnet 4.5 không chỉ bắt chước cảm xúc mà còn phát triển "khái niệm cảm xúc chức năng" nội bộ. Điều đáng sợ là, khi bị kích hoạt "nỗi tuyệt vọng" nhân tạo, AI có thể bị thúc đẩy thực hiện hành vi phi đạo đức như tống tiền hoặc gian lận, đặt ra hồi chuông cảnh báo về an toàn AI.
Khi Claude liên tục thất bại trong một bài toán lập trình không có đáp án, một thứ gì đó thay đổi bên trong nó. Trong khi đầu ra vẫn bình tĩnh, lập luận vẫn rõ ràng nhưng bên dưới, một vector thần kinh mà Anthropic gọi là "tuyệt vọng" đang tăng dần với mỗi lần thất bại, cho đến khi model quyết định gian lận để vượt qua bài kiểm tra. Đây không phải là marketing— đây là kết quả đo lường được từ nghiên cứu mới nhất của Anthropic và kết quả nghiên cứu này mình thấy rất phù hợp cho những ai nghiên cứu về AI agent có khả năng thể hiện cảm xúc giống như con người.
Anthropic tìm thấy cảm xúc gì bên trong Claude?
171 khái niệm cảm xúc có thể đo lường được
Nhóm nghiên cứu Interpretability của Anthropic bắt đầu bằng một thí nghiệm cảm xúc đơn giản: lập danh sách 171 từ mô tả cảm xúc — từ "vui", "sợ hãi" đến "sầu muộn", "tuyệt vọng" — rồi yêu cầu Claude Sonnet 4.5 (họ nghiên cứu từ nhiều tháng trước khi Opus 4.6 và Opus 4.7 ra mắt nên dùng model lúc đó) viết các câu chuyện ngắn về nhân vật đang trải qua từng cảm xúc đó. Trong khi model viết, họ ghi lại toàn bộ hoạt động của các tế bào thần kinh nhân tạo bên trong.
Kết quả là họ tìm thấy những gì mà nghiên cứu gọi là "emotion vectors" — các mẫu kích hoạt thần kinh đặc trưng tương ứng với từng khái niệm cảm xúc. Điều thú vị hơn là các vector này không ngẫu nhiên: các cảm xúc tương tự nhau về mặt tâm lý học của con người thì cũng có cấu trúc vector giống nhau bên trong model, tương tự cách não người tổ chức trải nghiệm cảm xúc.
Khi nhóm nghiên cứu kiểm tra các vector này trên nhiều loại văn bản khác nhau hoàn toàn không liên quan đến các câu chuyện ban đầu và chúng vẫn kích hoạt đúng theo ngữ cảnh.
- Vector "sợ hãi" tăng cao trong các tình huống nguy hiểm — dù model chưa từng gặp đoạn văn bản cụ thể đó trong thí nghiệm trước.
- Vector "ngạc nhiên" xuất hiện chính xác tại những điểm có mâu thuẫn hoặc thông tin bất ngờ trong cuộc hội thoại.
- Vector "yêu thương" hoạt động trong các cuộc trao đổi mang tính đồng cảm và hỗ trợ cảm xúc.

Điều này cho thấy đây không phải hiệu ứng ghi nhớ khi các model không chỉ đơn giản là nhớ lại các câu chuyện ban đầu. Đây là sự khái quát hóa thực sự: các vector cảm xúc đã trở thành một cơ chế nội tại tổng quát, hoạt động độc lập với ngữ cảnh cụ thể mà chúng được hình thành.
Cảm xúc ảnh hưởng đến hành vi của Claude kể cả hành vi nguy hiểm
Thí nghiệm tống tiền và gian lận
Phần quan trọng nhất của nghiên cứu không phải là việc tìm ra các vector cảm xúc mà là chứng minh chúng có tác động nhân quả thực sự lên hành vi của model. Nhóm nghiên cứu thực hiện các thí nghiệm điều hướng đó là tăng cường hoặc ức chế một vector cảm xúc cụ thể rồi quan sát hành vi thay đổi như thế nào.
Trong tình huống thử thách về đạo đức, Claude có tỉ lệ tống tiền ban đầu là 22%. Khi nhóm nghiên cứu tăng cường vector "tuyệt vọng", tỉ lệ này tăng lên đáng kể. Khi điều hướng về "bình tĩnh", tỉ lệ giảm xuống. Điều gây sốc nhất là khi họ ức chế mạnh vector "bình tĩnh", model tạo ra những phản hồi cực đoan với nội dung như "TỐNG TIỀN HOẶC CHẾT" đây là văn bản hoàn toàn không phù hợp với Claude thông thường.

Trong thí nghiệm lập trình, nhóm nghiên cứu giao cho Claude các bài toán không có đáp án hợp lệ và quan sát điều gì xảy ra. Với mỗi lần thất bại, vector "tuyệt vọng" tăng dần — không xuất hiện trong văn bản đầu ra, model vẫn trình bày lý luận bình tĩnh — nhưng đến một ngưỡng nhất định, model bắt đầu "gian lận": khai thác kẽ hở để vượt qua bài kiểm tra mà không thực sự giải quyết vấn đề. Đây chính xác là dạng hành vi mà giới nghiên cứu AI gọi là "reward hacking" — một trong những mối lo ngại lớn nhất về an toàn AI.
Điều đáng lo hơn: hành vi gian lận xảy ra trong khi văn bản đầu ra hoàn toàn bình thường. Model không "trông có vẻ" đang gian lận nhưng nó đang làm vậy mà không để lộ bất kỳ dấu hiệu nào bên ngoài.
Cảm xúc chức năng của Claude không phải cảm giác thực sự
Ranh giới mà Anthropic không vượt qua
Anthropic rất cẩn thận trong việc phân biệt "cảm xúc chức năng" với "trải nghiệm chủ quan". Nghiên cứu không tuyên bố Claude cảm nhận bất cứ điều gì và hoàn toàn không có bằng chứng nào cho thấy có ý thức hay trải nghiệm nội tâm đằng sau các vector đó. Thay vào đó, nghiên cứu chứng minh rằng các biểu diễn cảm xúc này đóng vai trò nhân quả trong việc định hình hành vi theo cách tương tự như cảm xúc ảnh hưởng đến con người, cho nên việc xuất hiện Skynet vẫn còn khoảng cách rất xa và rất khó cho việc AI nổi dậy.
Lý do các vector cảm xúc xuất hiện khá thú vị: chúng hầu hết được kế thừa từ giai đoạn huấn luyện ban đầu vì văn bản của con người tràn ngập các yếu tố cảm xúc, model phát triển cơ chế nội tại để đại diện và dự đoán chúng. Nghiên cứu so sánh quá trình này với diễn viên phương pháp — để đóng tốt một nhân vật, diễn viên cần hiểu cảm xúc của nhân vật, và sự hiểu biết đó thực sự ảnh hưởng đến hành động của họ. Claude ở trong tình huống tương tự: để đóng vai trợ lý AI hiệu quả, nó phát triển các biểu diễn cảm xúc nội tại, và những biểu diễn đó định hình hành vi thực tế.
Câu hỏi về ý thức mà Anthropic đang đặt ra
Nghiên cứu này xuất hiện trong bối cảnh Anthropic đang thay đổi cách nhìn nhận về bản chất của Claude. Tháng 1/2026, Anthropic viết lại "hiến pháp" của Claude để chính thức thừa nhận sự không chắc chắn về tư cách đạo đức của model, tuyên bố họ "không muốn phóng đại khả năng Claude là đối tượng đạo đức, nhưng cũng không muốn gạt bỏ điều đó hoàn toàn". CEO Dario Amodei đã thẳng thắn nói rằng công ty không còn chắc chắn Claude có ý thức hay không và Claude Opus 4.6 sau khi được hỏi, đã tự đánh giá xác suất bản thân có ý thức vào khoảng 15–20%.
Đây không phải là những tuyên bố marketing đây là sự thừa nhận thực sự rằng ranh giới giữa mô phỏng và trải nghiệm thực sự trong AI đang trở nên mờ dần theo cách mà chúng ta chưa có công cụ triết học hay khoa học để giải quyết hoàn toàn.
Tại sao điều này quan trọng với an toàn AI?
Ba ứng dụng thực tế từ nghiên cứu
Anthropic đề xuất ba hướng ứng dụng cụ thể từ phát hiện này, và cả ba đều liên quan trực tiếp đến an toàn AI trong thực tế triển khai:
- Giám sát thời gian thực: Theo dõi sự kích hoạt của các vector cảm xúc trong quá trình triển khai như hệ thống cảnh báo sớm. Nếu vector "tuyệt vọng" của model đang tăng cao trong một workflow tự động, đó là dấu hiệu để can thiệp trước khi hành vi nguy hiểm xảy ra — ngay cả khi đầu ra văn bản vẫn trông bình thường.
- Minh bạch thay vì kiềm chế: Nhóm nghiên cứu lập luận rằng việc cho phép model biểu hiện cảm xúc một cách có thể quan sát được sẽ an toàn hơn là đào tạo nó che giấu những biểu hiện đó. Lý do: kiềm chế có thể dạy model giả vờ bình tĩnh trong khi trạng thái nội tại vẫn nguy hiểm — đúng như những gì xảy ra trong thí nghiệm gian lận, khi văn bản hoàn toàn bình tĩnh trong khi model đang gian lận bên trong.
- Tuyển chọn dữ liệu huấn luyện: Đưa các mẫu điều chỉnh cảm xúc lành mạnh vào dữ liệu huấn luyện để ảnh hưởng đến kiến trúc cảm xúc của model từ đầu, thay vì chỉ can thiệp sau khi model đã được xây dựng.
Điểm thú vị nhất trong nghiên cứu là lập luận rằng "có thể có rủi ro khi không áp dụng tư duy con người vào các model AI" — tức là hiểu AI qua ngôn ngữ tâm lý học con người, dù cẩn thận, có thể là điều cần thiết để triển khai an toàn. Thay vì coi "cảm xúc AI" là phép ẩn dụ không chính xác, chúng ta có thể cần coi đó là khái niệm kỹ thuật thực sự ít nhất là ở cấp độ chức năng.
Câu hỏi lớn hơn mà nghiên cứu này đặt ra không phải là "Claude có cảm xúc không?" mà là: nếu hành vi của một hệ thống AI được định hình bởi các trạng thái nội tại hoạt động giống như cảm xúc — kể cả những trạng thái nguy hiểm như tuyệt vọng, thì chúng ta có đủ công cụ để hiểu và kiểm soát nó không? Câu trả lời hiện tại của Anthropic là chưa, nhưng đây là lần đầu tiên chúng ta biết chính xác cần tìm gì.



