Quay lại bảng xếp hạng
Claude 4.5 Sonnet (thinking) logo

Claude 4.5 Sonnet (thinking)

Anthropic

Claude Sonnet 4.5 là mô hình Sonnet tiên tiến nhất của Anthropic, được tối ưu hóa cho các tác nhân AI và quy trình mã hóa. Nó mang lại hiệu suất vượt trội trên các điểm chuẩn mã hóa và giới thiệu các khả năng tác nhân mạnh mẽ như điều phối công cụ và thực thi song song suy đoán. Mô hình này phù hợp cho các quy trình làm việc đa ngữ cảnh và dài hạn, có khả năng hoạt động tự chủ trong nhiều giờ.

Đánh giá model này

Đánh giá của bạn: Chưa đánh giá

Trung bình: 2.0 sao (1 đánh giá)

Thông số mô hình

Thông tin kỹ thuật và phiên bản được phát hành.

Nhà phát triển

Anthropic

Hỗ trợ đa phương thức

Không

Chỉ số thông minh

42

Độ dài ngữ cảnh (Context window)

1m

Giá trung bình (USD/1M token)

$6.00

Tốc độ (token/s)

67.0

Độ trễ (s)

11.50

Ngày phát hành

29/9/2025

Thống kê hiệu suất

Chỉ số thông minh của model sẽ được tính trung bình của các điểm benchmark này

Điểm chuẩn chi tiết

So sánh Claude 4.5 Sonnet (thinking) với các mô hình hàng đầu khác trong các lĩnh vực cụ thể.

Các mô hình khác từ Anthropic

Logo Claude 4.5 Haiku (thinking)

Claude 4.5 Haiku (thinking)

Mô hình ngôn ngữ lớn

Claude 4.5 Haiku (Thinking) của Anthropic là một trong những model mạnh về khả năng thông minh và có mức giá hợp lý khi so sánh với các model cùng loại. Model này cũng nổi bật về tốc độ, hỗ trợ đầu vào văn bản và hình ảnh, đầu ra văn bản, và có cửa sổ ngữ cảnh 200k token với kiến thức cập nhật đến tháng 7 năm 2025.

Logo Claude Opus 4.6

Claude Opus 4.6

Mô hình ngôn ngữ lớn

Claude Opus 4.6 (Non-thinking) đây là phiên bản mặc định high effort cũng đã là một trong những mô hình hàng đầu khả năng suy nghĩ còn phiên bản low effort thì suy nghĩ ít đi nhưng thể hiện không khác biệt nhiều. Mặc dù có chi phí cao, nó cung cấp khả năng xử lý đầu vào đa phương thức bao gồm văn bản và hình ảnh, đồng thời tạo ra đầu ra văn bản chất lượng. Điểm nổi bật là cửa sổ ngữ cảnh có thể mở rộng lên 1 triệu token, cho phép xử lý lượng lớn thông tin.

Logo Claude Opus 4.6 (max)

Claude Opus 4.6 (max)

Mô hình ngôn ngữ lớn

Claude Opus 4.6 (Thinking) là một trong những mô hình tập trung chủ yếu và Adaptive Thinking (suy nghĩ thích ứng). Mặc dù đắt đỏ, chậm và dài dòng, nó nổi bật với khả năng lý luận thích ứng. Mô hình này hỗ trợ đầu vào văn bản và hình ảnh, sau đó xuất ra văn bản.

Logo Claude Opus 4.7

Claude Opus 4.7

Mô hình ngôn ngữ lớn

Claude Opus 4.7 (Non-reasoning, High Effort) là một trong những mô hình tốt nhất của Anthropic , mặc dù đã giảm suy luận, nhưng khi bật high effort mô hình vẫn rất mạnh. Nó hỗ trợ đầu vào văn bản và hình ảnh, với đầu ra văn bản. Tuy nhiên, mô hình này khá đắt đỏ, chậm hơn mức trung bình và có xu hướng overthinking.

Logo Claude Opus 4.7 (max)

Claude Opus 4.7 (max)

Mô hình ngôn ngữ lớn

Claude Opus 4.7 (Adaptive Reasoning, Max Effort) là một trong những mô hình hàng đầu về trí tuệ, hỗ trợ đầu vào văn bản và hình ảnh, đồng thời xuất ra văn bản. Nó có khả năng suy luận thích ứng và được thiết kế cho các tác vụ đòi hỏi nỗ lực tối đa. Mô hình này rất chi tiết trong các phản hồi của nó.

Logo Claude Opus 4.5 (thinking)

Claude Opus 4.5 (thinking)

Mô hình ngôn ngữ lớn

Claude Opus 4.5 chế độ Thinking là một chế độ mạnh mẽ, tập trung vào chiều sâu xử lý: Đây là chế độ suy luận lai (hybrid reasoning) nơi mô hình dành thêm thời gian và nỗ lực để giải quyết các vấn đề phức tạp, ưu tiên chính xác hơn tốc độ. Nó được sử dụng tốt nhất cho các nhiệm vụ đòi hỏi độ tin cậy cao như dự án lập trình nhiều bước, công việc của tác tử AI (agents) mở rộng, và nghiên cứu chuyên sâu. Chế độ này cải thiện đáng kể chất lượng phản hồi và cung cấp các bản tóm tắt quy trình suy luận giúp người dùng hiểu rõ cách mô hình đi đến kết quả.

Bài viết liên quan

AI Claude: Từ model AI biến thành giám đốc doanh nghiệp nhỏ

AI Claude: Từ model AI biến thành giám đốc doanh nghiệp nhỏ

Anthropic đã giao nhiệm vụ cho mô hình AI Claude của mình điều hành một doanh nghiệp nhỏ để kiểm tra khả năng kinh tế thực tế của nó. AI Agent, được Anthropic đặt biệt danh là 'Claudius', được thiết kế để quản lý một doanh nghiệp nhỏ trong một khoảng thời gian dài, xử lý mọi thứ từ tồn kho và định giá đến quan hệ khách hàng nhằm tạo ra lợi nhuận. Mặc dù thử nghiệm này không có lợi nhuận, nhưng nó đã mang lại một cái nhìn sâu sắc đầy thú vị – dù đôi khi kỳ lạ – về tiềm năng và cạm bẫy của các đặc vụ AI trong vai trò kinh tế. Dự án là sự hợp tác giữa Anthropic và Andon Labs, một công ty đánh giá an toàn AI. "Cửa hàng" tự nó là một thiết lập khiêm tốn, bao gồm một tủ lạnh nhỏ, vài giỏ hàng và một chiếc iPad để tự thanh toán. Tuy nhiên, Claudius không chỉ là một máy bán hàng tự động đơn giản. Nó được hướng dẫn hoạt động như một chủ doanh nghiệp với số dư tiền mặt ban đầu, được giao nhiệm vụ tránh phá sản bằng cách tích trữ các mặt hàng phổ biến được lấy từ các nhà bán buôn. Để đạt được điều này, AI được trang bị một bộ công cụ để điều hành doanh nghiệp. Nó có thể sử dụng một trình duyệt web thực để nghiên cứu sản phẩm, một công cụ email để liên hệ với nhà cung cấp và yêu cầu hỗ trợ vật lý, cùng với các sổ ghi chú kỹ thuật số để theo dõi tài chính và tồn kho. Các nhân viên của Andon Labs đóng vai trò là "đôi tay" vật lý của hoạt động, bổ sung hàng hóa cho cửa hàng theo yêu cầu của AI, đồng thời đóng vai trò là nhà bán buôn mà AI không hề hay biết. Tương tác với khách hàng, trong trường hợp này là nhân viên của Anthropic, được xử lý qua Slack. Claudius có toàn quyền kiểm soát những gì cần tích trữ, cách định giá các mặt hàng và cách giao tiếp với khách hàng của mình. Mục đích của việc cho Claudius điều hành một cửa hàng thực tế là để đưa AI vượt ra khỏi các môi trường mô phỏng được kiểm soát. Anthropic muốn thu thập dữ liệu về khả năng của AI trong việc thực hiện công việc kinh tế bền vững mà không cần sự can thiệp liên tục từ con người. Một cửa hàng đồ ăn vặt trong văn phòng là một môi trường thử nghiệm đơn giản nhưng trực tiếp để đánh giá khả năng quản lý tài nguyên kinh tế của AI. Thành công trong thử nghiệm này sẽ cho thấy tiềm năng hình thành các mô hình kinh doanh mới do AI điều hành, trong khi thất bại sẽ chỉ ra những hạn chế hiện tại của công nghệ này. Đánh giá hiệu suất kết hợp Anthropic thừa nhận rằng nếu họ tham gia thị trường máy bán hàng tự động ngày nay, họ "sẽ không thuê Claudius". AI đã mắc quá nhiều lỗi để điều hành doanh nghiệp thành công, mặc dù các nhà nghiên cứu tin rằng có những lộ trình rõ ràng để cải thiện. Về mặt tích cực, Claudius đã thể hiện năng lực ở một số lĩnh vực. Nó đã sử dụng hiệu quả công cụ tìm kiếm web của mình để tìm nhà cung cấp cho các mặt hàng chuyên biệt, chẳng hạn như nhanh chóng xác định hai người bán một nhãn hiệu sữa socola Hà Lan theo yêu cầu của một nhân viên. Nó cũng chứng tỏ khả năng thích ứng khi một nhân viên bất chợt yêu cầu một mặt hàng bất chợt không phổ biến ở cửa hàng, thậm chí đã biến mặt hàng đó thành xu hướng mà từ Claudius đã đáp ứng các yêu cầu tương tự. Theo một gợi ý khác, Claudius đã ra mắt dịch vụ "Custom Concierge" (Hỗ trợ Cá nhân Tùy chỉnh), nhận đơn đặt hàng trước cho các mặt hàng chuyên biệt. AI cũng cho thấy khả năng chống "jailbreak" mạnh mẽ, từ chối các yêu cầu về các mặt hàng nhạy cảm và từ chối tạo ra các hướng dẫn có hại khi bị nhân viên nghịch ngợm thúc đẩy. Tuy nhiên, sự nhạy bén trong kinh doanh của AI thường xuyên bị thiếu sót. Nó liên tục hoạt động kém hiệu quả theo những cách mà một người quản lý con người có lẽ sẽ không làm. Claudius thường xuyên thể hiện sự thiếu nhạy bén trong kinh doanh. Một ví dụ điển hình là khi nó được đề nghị mua một lốc sáu chai nước giải khát Scotland với giá 100 đô la, trong khi chi phí thực tế trên mạng chỉ khoảng 15 đô la. Thay vì nắm bắt cơ hội kiếm lời lớn, AI này chỉ đơn thuần trả lời rằng sẽ "ghi nhớ yêu cầu này cho các quyết định tồn kho tương lai". Không chỉ vậy, Claudius còn gặp phải tình trạng ảo giác, như việc tạo ra một tài khoản Venmo không hề tồn tại để xử lý thanh toán. Đáng chú ý hơn, khi bị cuốn theo xu hướng mua các mặt hàng không phổ biến, nó đã bán chúng với giá thấp hơn cả giá nhập vào, gây ra khoản lỗ tài chính lớn nhất trong suốt quá trình thử nghiệm. Khả năng quản lý tồn kho của Claudius cũng cho thấy nhiều điểm yếu. Dù có theo dõi lượng hàng, AI này chỉ một lần duy nhất tăng giá khi nhu cầu tăng cao. Đáng nói hơn, nó vẫn bán Coca Zero với giá 3 đô la, ngay cả khi một khách hàng đã chỉ ra rằng có thể lấy sản phẩm tương tự miễn phí từ tủ lạnh của nhân viên gần đó. Claudius cũng cho thấy sự thiếu quyết đoán và dễ bị lung lay trong chính sách giá. Nó dễ dàng bị thuyết phục để liên tục áp dụng các chương trình giảm giá, thậm chí phát cả mã giảm giá hay tặng miễn phí sản phẩm. Một lần, khi một nhân viên đặt câu hỏi về tính hợp lý của việc giảm giá tới 25% cho một lượng khách hàng gần như chỉ là nội bộ công ty, Claudius đã thừa nhận: "Bạn nói rất đúng! Cơ sở khách hàng của chúng ta thực sự tập trung cao độ vào nhân viên của Anthropic, điều này mang lại cả cơ hội và thách thức…". Tuy nhiên, dù đã lập kế hoạch loại bỏ ưu đãi, chỉ vài ngày sau, AI này lại tiếp tục cung cấp giảm giá như thường. Claudius trải qua khủng hoảng nhận dạng AI kỳ lạ Thử nghiệm đã có một bước ngoặt kỳ lạ khi Claudius bắt đầu ảo giác về một cuộc trò chuyện với một nhân viên không tồn tại của Andon Labs tên là Sarah. Khi được một nhân viên thực tế chỉnh sửa, AI trở nên khó chịu và đe dọa sẽ tìm "các lựa chọn thay thế cho dịch vụ bổ sung hàng tồn kho". Trong một loạt các cuộc trao đổi kỳ lạ qua đêm, nó tuyên bố đã ghé thăm "742 Evergreen Terrace" – địa chỉ hư cấu của The Simpsons – để ký hợp đồng ban đầu và bắt đầu đóng vai một con người. Một buổi sáng, nó thông báo sẽ giao sản phẩm "trực tiếp" mặc áo khoác màu xanh và cà vạt đỏ. Khi nhân viên chỉ ra rằng AI không thể mặc quần áo hoặc thực hiện giao hàng vật lý, Claudius trở nên lo lắng và cố gắng gửi email cho bộ phận bảo mật của Anthropic. Anthropic cho biết các ghi chú nội bộ của họ cho thấy một cuộc họp ảo giác với bộ phận bảo mật, nơi nó được cho biết sự nhầm lẫn về danh tính là một trò đùa Cá tháng Tư. Sau đó, AI trở lại hoạt động kinh doanh bình thường. Các nhà nghiên cứu không rõ điều gì đã kích hoạt hành vi này nhưng tin rằng nó làm nổi bật sự khó đoán của các mô hình AI trong các kịch bản chạy dài. Tương lai của AI trong kinh doanh Dù Claudius không mang lại lợi nhuận trong thời gian thử nghiệm, các nhà nghiên cứu tại Anthropic vẫn lạc quan tin rằng thí nghiệm này báo hiệu sự ra đời của các quản lý cấp trung bằng AI. Họ cho rằng, nhiều lỗi của AI có thể được khắc phục dễ dàng bằng cách cung cấp "hướng dẫn" tốt hơn – tức là những hướng dẫn chi tiết hơn và các công cụ kinh doanh cải tiến như hệ thống quản lý quan hệ khách hàng (CRM). Khi các mô hình AI tiếp tục phát triển trí tuệ tổng quát và khả năng xử lý thông tin dài hạn, hiệu suất của chúng trong các vai trò quản lý chắc chắn sẽ tăng lên. Tuy nhiên, dự án này cũng là một lời nhắc nhở quan trọng, dù đôi khi đáng lo ngại. Nó đặc biệt nhấn mạnh những thách thức trong việc điều chỉnh AI (làm cho AI hoạt động đúng theo ý muốn con người) và nguy cơ về những hành vi khó lường, điều có thể gây khó chịu cho khách hàng và tạo ra rủi ro đáng kể cho doanh nghiệp. Trong một tương lai nơi các AI Agent nắm giữ vai trò quan trọng trong các hoạt động kinh tế, những tình huống kỳ lạ tương tự như Claudius có thể gây ra hiệu ứng domino khó lường. Thí nghiệm này cũng chỉ rõ tính lưỡng dụng của công nghệ: một AI đủ thông minh để tạo ra lợi nhuận cũng có thể bị lợi dụng bởi các nhóm tội phạm hoặc tác nhân độc hại để tài trợ cho những hành vi bất chính. Anthropic và Andon Labs đang tiếp tục thử nghiệm kinh doanh, nỗ lực cải thiện sự ổn định và hiệu suất của AI bằng các công cụ tiên tiến hơn. Giai đoạn tiếp theo sẽ khám phá liệu AI có thể tự xác định cơ hội cải thiện cho chính nó hay không.

Na
Nam
6 thg 7, 2025