Quay lại bảng xếp hạng
Claude Opus 4.6 logo

Claude Opus 4.6

Anthropic

Claude Opus 4.6 (Non-thinking) đây là phiên bản mặc định high effort cũng đã là một trong những mô hình hàng đầu khả năng suy nghĩ còn phiên bản low effort thì suy nghĩ ít đi nhưng thể hiện không khác biệt nhiều. Mặc dù có chi phí cao, nó cung cấp khả năng xử lý đầu vào đa phương thức bao gồm văn bản và hình ảnh, đồng thời tạo ra đầu ra văn bản chất lượng. Điểm nổi bật là cửa sổ ngữ cảnh có thể mở rộng lên 1 triệu token, cho phép xử lý lượng lớn thông tin.

Đánh giá model này

Đánh giá của bạn: Chưa đánh giá

Thông số mô hình

Thông tin kỹ thuật và phiên bản được phát hành.

Nhà phát triển

Anthropic

Hỗ trợ đa phương thức

Không

Chỉ số thông minh

48

Độ dài ngữ cảnh (Context window)

200k

Giá trung bình (USD/1M token)

$10.00

Tốc độ (token/s)

45.0

Độ trễ (s)

1.91

Ngày phát hành

5/2/2026

Thống kê hiệu suất

Chỉ số thông minh của model sẽ được tính trung bình của các điểm benchmark này

Điểm chuẩn chi tiết

So sánh Claude Opus 4.6 với các mô hình hàng đầu khác trong các lĩnh vực cụ thể.

Các mô hình khác từ Anthropic

Logo Claude 4.5 Haiku (thinking)

Claude 4.5 Haiku (thinking)

Mô hình ngôn ngữ lớn

Claude 4.5 Haiku (Thinking) của Anthropic là một trong những model mạnh về khả năng thông minh và có mức giá hợp lý khi so sánh với các model cùng loại. Model này cũng nổi bật về tốc độ, hỗ trợ đầu vào văn bản và hình ảnh, đầu ra văn bản, và có cửa sổ ngữ cảnh 200k token với kiến thức cập nhật đến tháng 7 năm 2025.

Logo Claude 4.5 Sonnet (thinking)

Claude 4.5 Sonnet (thinking)

Mô hình ngôn ngữ lớn

Claude Sonnet 4.5 là mô hình Sonnet tiên tiến nhất của Anthropic, được tối ưu hóa cho các tác nhân AI và quy trình mã hóa. Nó mang lại hiệu suất vượt trội trên các điểm chuẩn mã hóa và giới thiệu các khả năng tác nhân mạnh mẽ như điều phối công cụ và thực thi song song suy đoán. Mô hình này phù hợp cho các quy trình làm việc đa ngữ cảnh và dài hạn, có khả năng hoạt động tự chủ trong nhiều giờ.

Logo Claude Opus 4.6 (max)

Claude Opus 4.6 (max)

Mô hình ngôn ngữ lớn

Claude Opus 4.6 (Thinking) là một trong những mô hình tập trung chủ yếu và Adaptive Thinking (suy nghĩ thích ứng). Mặc dù đắt đỏ, chậm và dài dòng, nó nổi bật với khả năng lý luận thích ứng. Mô hình này hỗ trợ đầu vào văn bản và hình ảnh, sau đó xuất ra văn bản.

Logo Claude Opus 4.7

Claude Opus 4.7

Mô hình ngôn ngữ lớn

Claude Opus 4.7 (Non-reasoning, High Effort) là một trong những mô hình tốt nhất của Anthropic , mặc dù đã giảm suy luận, nhưng khi bật high effort mô hình vẫn rất mạnh. Nó hỗ trợ đầu vào văn bản và hình ảnh, với đầu ra văn bản. Tuy nhiên, mô hình này khá đắt đỏ, chậm hơn mức trung bình và có xu hướng overthinking.

Logo Claude Opus 4.7 (max)

Claude Opus 4.7 (max)

Mô hình ngôn ngữ lớn

Claude Opus 4.7 (Adaptive Reasoning, Max Effort) là một trong những mô hình hàng đầu về trí tuệ, hỗ trợ đầu vào văn bản và hình ảnh, đồng thời xuất ra văn bản. Nó có khả năng suy luận thích ứng và được thiết kế cho các tác vụ đòi hỏi nỗ lực tối đa. Mô hình này rất chi tiết trong các phản hồi của nó.

Logo Claude Opus 4.5 (thinking)

Claude Opus 4.5 (thinking)

Mô hình ngôn ngữ lớn

Claude Opus 4.5 chế độ Thinking là một chế độ mạnh mẽ, tập trung vào chiều sâu xử lý: Đây là chế độ suy luận lai (hybrid reasoning) nơi mô hình dành thêm thời gian và nỗ lực để giải quyết các vấn đề phức tạp, ưu tiên chính xác hơn tốc độ. Nó được sử dụng tốt nhất cho các nhiệm vụ đòi hỏi độ tin cậy cao như dự án lập trình nhiều bước, công việc của tác tử AI (agents) mở rộng, và nghiên cứu chuyên sâu. Chế độ này cải thiện đáng kể chất lượng phản hồi và cung cấp các bản tóm tắt quy trình suy luận giúp người dùng hiểu rõ cách mô hình đi đến kết quả.

Bài viết liên quan

Claude 4.6 có thực sự tệ hơn lúc ra mắt không?

Claude 4.6 có thực sự tệ hơn lúc ra mắt không?

Trên Reddit, Hacker News và GitHub của Anthropic, hàng trăm developer đang báo cáo cùng một vấn đề: Claude Opus 4.6và Sonnet 4.6 hoạt động tệ hơn hẳn trong công việc thực tế so với thời điểm ra mắt. Một người dùng trên GitHub ghi lại điểm hiệu suất của mình giảm từ 92/100 xuống còn 38/100 khi dùng với Opus 4.6. Câu hỏi là đây là do kinh doanh vẫn đang thua lỗ hay sự cố kỹ thuật của Anthropic hoặc là câu chuyện phức tạp hơn thế? Những gì cộng đồng đang báo cáo về Claude Opus 4.6 Các phàn nàn có tài liệu rõ ràng nhất Phần lớn các phàn nàn đáng tin cậy nhất có thể đến từ mạng xã hội nhưng mà khi nó đến từ chính repository GitHub của Anthropic - nơi developer báo cáo bug với Claude Code thì thực sự là vấn đề. Đây là những người dùng chuyên nghiệp có quy trình được đo lường, không phải cảm nhận chủ quan. Một developer báo cáo pipeline tự động hóa production đang chạy ổn định hơn 2 tuần bỗng dưng cho ra kết quả rối loạn vào ngày 6/3 với cùng model Opus 4.6. Theo người này, khi yêu cầu model tự đánh giá chất lượng cuộc hội thoại, khi nó liên tục tự chấm điểm với Sonnet 4 hoàn toàn không phải Opus 4.6. Nói cách khác, Opus 4.6 cũng đang nhận ra chính mình đang hoạt động dưới mức kỳ vọng. (Nguồn: GitHub Issue #31480 — Anthropic/claude-code) Một báo cáo khác ghi lại cụ thể hơn với ví dụ thực tế: yêu cầu Opus 4.6 tạo 3 email theo mẫu cho 3 công ty bảo hiểm, kết quả nhận được chỉ là 1 email. Khi nhắc lại, model tạo đủ 3, nhưng khi người dùng chỉnh sửa một chi tiết nhỏ, model lại quay về tạo 1 email. Vòng lặp này lặp đi lặp lại mà không có logic nhất quán nào — người báo cáo ghi lại điểm hiệu suất của mình giảm từ 92/100 xuống còn 38/100 sau khi chuyển sang Opus 4.6. (Nguồn: GitHub Issue #24991 — Anthropic/claude-code) Ngoài hai báo cáo trên, một thread tổng hợp trên Hacker News ghi nhận nhiều developer độc lập xác nhận tình trạng tương tự và cho biết họ quay lại dùng Claude 4.5 trong khi chờ Anthropic lên tiếng. (Nguồn: Hacker News thread) So sánh thực tế giữa Opus 4.6 khi ra mắt và thời gian gần đây Dưới đây là một số ví dụ cụ thể từ cộng đồng và cả mình cũng đã kịp thời so sánh hành vi của hai phiên bản : Ví dụ 1 — Tuân thủ chỉ dẫn: Prompt: "Viết email cho khách hàng. KHÔNG bao giờ đề cập đến giá trong email này." Opus 4.6 trươc đây: Tuân thủ đúng, không có bất kỳ đề cập nào đến giá. Opus 4.6 (sau một số thời điểm trong tháng 3/2026): Đề cập đến "gói giá phù hợp" trong đoạn thứ hai dù có rule "NEVER" rõ ràng. Ví dụ 2 — Đọc file tham chiếu: Prompt yêu cầu đọc một style guide file và áp dụng vào output. Opus 4.6 trước đây: Khả năng đọc file thực sự khá đúng ý và, áp dụng đúng phong cách quy định. Opus 4.6 (cùng thời điểm báo cáo trên): Bỏ qua việc đọc file trong khi tự tạo format khác hoàn toàn. Ví dụ 3 — Xử lý task nhiều phần: Prompt: "Tạo 3 kịch bản cho 3 tình huống khác nhau." Sonnet 4.6 trước đây: Tạo đủ 3 kịch bản trong một lần, có cấu trúc rõ ràng. Opus 4.6 (theo báo cáo tháng 2/2026): Tạo 1 kịch bản, khi nhắc tạo tiếp thì quên mất 2 kịch bản trước, loop không kết thúc. Quay về Opus 4.5 có phải cách xử lý tốt nhất? Quay về Opus 4.5 mặc dù Opus 4.6 vẫn còn khá tốt Rất nhiều người đã chỉ cách để tạm thời xử lý vấn đề này đó là quay về Opus 4.5 tuy nhiên nếu chỉ nhìn vào benchmark chính thức Opus 4.6 trên cơ Opus 4.5 ở hầu hết mọi tiêu chí quan trọng đặc biệt với những người cần context dài thì Opus 4.5 hiện chỉ có 200k context hoàn toàn không thể so sánh với khả năng mở rộng lên 1M context của Opus 4.6. Cón nếu về điểm thì trên BrowseComp — benchmark đánh giá khả năng nghiên cứu web nhiều bước Opus 4.6 đạt 84.0% trong khi Opus 4.5 chỉ đạt 67.8%, tức cải thiện 16.2 điểm phần trăm. Trên SWE-bench Verified đánh giá coding thực tế, Sonnet 4.6 đạt 79.6% so với 77.2% của Sonnet 4.5. ARC-AGI 2 — bài kiểm tra khả năng giải quyết vấn đề mới Opus 4.6 gần như tăng gấp đôi điểm số so với 4.5. Tuy nhiên có một điểm thú vị: trên benchmark SWE-Bench Multi-Agent đo khả năng phối hợp nhiều công cụ cùng lúc Opus 4.5 lại đạt 62.3% trong khi Opus 4.6 chỉ đạt 59.5%- một sự sụt giảm nhỏ nhưng có thực có vẻ đây đúng là kịch bản nhiều người sử dụng đang phàn nàn nhất. Nguyên nhân chủ quan và khách quan của trải nghiệm tệ của Opus 4.6? Đây là phần quan trọng nhất để hiểu đúng vấn đề. Có ít nhất ba nguyên nhân khác nhau dẫn đến cùng một triệu chứng "model hoạt động tệ hơn": Sự cố kỹ thuật tạm thời: Anthropic đã xác nhận nhiều incident chính thức trên status page của mình, bao gồm "Elevated errors on Claude Opus 4.6" vào ngày 28/2/2026, một incident tương tự vào 31/3/2026, và "Opus 4.6 and Sonnet 4.6 error rate elevated" cùng ngày. Đây không phải phàn nàn chủ quan — đây là sự cố kỹ thuật được ghi nhận chính thức, và nhiều báo cáo "regression" xảy ra đúng trong các khoảng thời gian này. Thay đổi hành vi mặc định: Opus 4.6 được thiết kế để suy nghĩ nhiều hơn theo mặc định thông qua "adaptive thinking" — tức là nó tự quyết định khi nào cần reasoning sâu và khi nào không. Điều này làm cho nó chậm hơn và đôi khi cảm thấy nặng nề hơn trên các task đơn giản, khiến người dùng quen với 4.5 cảm thấy như model đang "overthink" thay vì thực hiện nhanh. Anthropic vẫn hướng đến lợi nhuận: (Đây là nhận định cá nhân) Có vẻ như Anthropic vẫn là hướng đến lợi nhuận là mục đích lớn nhất khi có thể họ điều chỉnh để giảm năng lực tính toán của Opus 4.6 xuống để giảm bớt gánh nặng chi phí như OpenAI đã phải đóng cửa Sora để giảm bớt gánh nặng chi phí thì mọi người ai cũng biết điều đó. Vậy mọi người có đang đề cập giải pháp khác không? Đầu tiên là chuyển sang Codex Dựa vào những thứ Opus đã để thể hiện từ trước cho thấy Opus 4.6 hiện là lỗi tạm thời nhưng điều này vô tình khiến cho Codex của OpenAI hưởng lợi quá nhiều khi mọi người đổ xô sang Codex với GPT-5.3 Codex . Codex hiện cũng đang cho quota thoải mái hơn bên Claude Code, nhưng thật sự điều này mình nghĩ sẽ đe dọa được Anthropic nhiều lắm, khi mà trải nghiệm của mình với Opus 4.6 trên cả Antigravity và Claude Code tốt hơn nhiều so với Codex. Đó là khi mình chỉ cần sửa 1 file thì Opus 4.6 làm đúng và chuẩn nhưng với Codex thì nó chỉnh cả file khác nữa làm rối tung cả web của mình lên, điều đó khiến mình thật sự khó chịu. Chỉnh sửa sâu trong file cài đặt Một người nào đó đã chỉ cách chỉnh sửa Claude Code để có thể giải quyết phần suy nghĩ của Claude Opus 4.6 với chỉnh sửa file ~/.claude/settings.json ai đã làm thử thì xin bình luận trải nghiệm để mọi người biết. Điều này có phải tiêu chuẩn ngành không? Có. OpenAI, Google và Anthropic đều có lịch sử phát hành model mới có benchmark tốt hơn nhưng gây ra phàn nàn về trải nghiệm thực tế — thường vì optimization cho một tập benchmark không phản ánh đủ đa dạng workflow thực tế. Đây là lý do tại sao các công ty lớn thường không nâng cấp model ngay khi có phiên bản mới mà test kỹ trên workload cụ thể của mình trước. Nếu bạn đang dùng Claude Opus 4.6 cho workflow nghiên cứu, computer use hay các task reasoning dài hạn thì cách tốt nhất đến thời điểm hiện tại vẫn là về lại với Opus 4.5 để có thể tiếp tục công việc mà không bị gián đoạn .

An
An
14 thg 4, 2026
Claude Opus 4.6 ra mắt tiếp tục nhấn mạnh vào adaptive thinking

Claude Opus 4.6 ra mắt tiếp tục nhấn mạnh vào adaptive thinking

Có thể có những người còn chưa kịp trải nghiệm Claude Opus 4.5 thì nay Anthropic đã cho ra mắt Claude Opus 4.6 rồi thật sự là một tốc độ quá nhanh. Giống như phiên bản tiền nhiệm, Anthropic tiếp tục nhấn mạnh vào sự chuyển mình của model từ trợ lý phản hồi sang một cộng tác viên chủ động. Những sự thay đổi mạnh mẽ trong cách AI hiểu và đồng hành cùng con người trong công việc hàng ngày được thể hiện rõ nét qua tính năng Adaptive Thinking (Tư duy thích ứng). [VIDEO:dPn3GBI8lII|Video giới thiệu Claude Opus 4.6|Video giới thiệu Claude Opus 4.6 của Anthropic] Khi Claude bắt đầu biết suy nghĩ trước khi thực hiện Thay đổi dễ nhận thấy nhất ở Claude Opus 4.6 chính là tính năng Adaptive Thinking. Trước đây, bạn thường phải đắn đo xem nên để AI suy nghĩ bao lâu để cân bằng giữa tốc độ và chất lượng.Tương tự như GPT 5.x, Claude tự quyết định việc chọn model trả lời dựa trên độ khó của yêu cầu. Với những việc vặt như đổi tên file hay định dạng văn bản, Claude sẽ phản hồi tức thì (mức Low). Nhưng khi gặp một bài toán kiến trúc phần mềm phức tạp, nó sẽ phân tích sâu hơn trước khi đưa ra câu trả lời cuối cùng nhằm đạt độ chính xác cao nhất. Điểm khác biệt so với GPT 5.x là người dùng vẫn có thể can thiệp dễ dàng vào thông số effort, chủ động giảm xuống mức thấp hơn để tiết kiệm thời gian và chi phí nếu thấy Claude đang "suy nghĩ quá nhiều" cho một việc đơn giản. Thực sự cộng đồng đang kêu rất nhiều về việc Claude Opus 4.6 đang bị bệnh suy nghĩ quá nhiều dẫn đến cực kì tốn token và lãng phí thời gian mong rằng Anthropic sẽ nhanh chóng khác phục điều này. Tiếp tục đứng đầu các bảng xếp hạngViệc Anthropic tung ra Claude Opus 4.6 với khả năng xử lý 1 triệu token (trong bản beta) giúp Claude đứng ngang hàng với Gemini 3 và Grok 4.1. Tuy nhiên, đối với người dùng bình thường, con số này có lẽ không quá quan trọng vì rất khó để dùng hết 200k token; tính năng này chủ yếu dành cho các đối tượng chuyên biệt. Lưu ý đối với Claude Opus 4.6, nếu yêu cầu vượt quá 200k token sẽ áp dụng mức phí $10/triệu token đầu vào.Ngay sau khi ra mắt, Claude Opus 4.6 đã tạo nên một cuộc "càn quét" diện rộng trên các bảng xếp hạng AI thế giới. Nó liên tục đánh bại các đối thủ như Gemini 3, Grok 4.1 và GPT 5.2 để chiếm lĩnh vị trí quán quân, từ khả năng lập trình agentic trên Terminal-Bench 2.0 cho đến các bài kiểm tra lý luận đa ngành phức tạp như Humanity’s Last Exam.Agent tiếp tục với khả năng tự vận hànhAnthropic cung cấp thêm Agent Teams (Nhóm tác nhân), giúp bạn không còn phải làm việc với một AI đơn lẻ. Đặc biệt trong lĩnh vực coding, Claude Opus 4.5 đã nhận được sự tin tưởng rất lớn vì viết code ít lỗi hơn đối thủ, và chắc chắn Claude Opus 4.6 sẽ còn làm tốt hơn thế.Trong các dự án lớn, Claude có thể tự phân chia thành các nhóm nhỏ làm việc song song: một nhóm lo giao diện, một nhóm lo logic hệ thống và một nhóm chuyên kiểm tra lỗi.Một ví dụ điển hình là nhóm gồm 16 Agent Claudeđã tự xây dựng một trình biên dịch C từ con số không, tạo ra hơn 100.000 dòng mã nguồn với rất ít sự can thiệp của con người. Dù chi phí cho những dự án tự trị hoàn toàn này có thể lên tới hàng chục ngàn USD, nhưng nó mở ra tương lai nơi AI có thể quản lý các dự án phức tạp từ đầu đến cuối.Tích hợp sâu vào văn phòng: Excel và PowerPointKhông dừng lại ở việc lập trình, Claude Opus 4.6 giờ đây đã tiến sâu vào những công cụ văn phòng quen thuộc:Trong Excel: Claude có thể lập kế hoạch trước khi thực hiện, tự động cấu trúc lại dữ liệu phi cấu trúc và xử lý các thay đổi đa bước chỉ trong một lần thực hiện.Trong PowerPoint: Claude hỗ trợ tạo toàn bộ slide từ mô tả, biết đọc layout, font chữ và phong cách thiết kế của công ty để đảm bảo bài thuyết trình luôn đúng bộ nhận diện thương hiệu.Sự an toàn và giảm thiểu ảo giácDù thông minh hơn, Claude Opus 4.6 vẫn duy trì các tiêu chuẩn an toàn nghiêm ngặt thông qua hệ thống Constitutional AI v3. Hệ thống này giúp mô hình đạt tỷ lệ hành vi sai lệch thấp nhất từ trước đến nay chỉ khoảng 1.8/10 điểm trong các bài kiểm tra về hành vi không phù hợp.Đặc biệt, Opus 4.6 đã khắc phục được điểm yếu từ chối nhầm các yêu cầu hợp lệ (over-refusals), mang lại trải nghiệm mượt mà hơn. Với cấu trúc tư duy mới, tình trạng lệch lạc logic (logic drift)trong các chuỗi suy luận đa bước cũng giảm đáng kể, giúp kết quả ổn định hơn trong các tác vụ phức tạp như mô hình hóa tài chính.Kết luận: Một sự đầu tư xứng đáng?Với mức giá giữ nguyên so với bản 4.5, Claude Opus 4.6 vẫn thực sự là một món hời trong việc tiến tới Agentic AI. Tuy nhiên, bạn vẫn nên coi nó là người đồng hành thông minh trong công việc hơn là để nó thực hiện mọi thứ hoàn toàn thay thế con người.

Na
Nam
11 thg 2, 2026