Cách kết nối Antigravity và Stitch thông qua MCP

Xuất bản vào 24 tháng 04, 2026

Tóm tắt nhanh

Kết nối Google Stitch với Antigravity IDE qua MCP giải quyết bài toán kinh điển nhất của quy trình thiết kế đến lập trình: khoảng cách giữa bản thiết kế và code thực tế. Thay vì copy màu hex và spacing thủ công, agent trong Antigravity đọc trực tiếp "DNA thiết kế" từ Stitch theo thời gian thực qua MCP, sau đó tạo component React với Tailwind hoàn hảo đến từng pixel thông qua vòng lặp Stitch Loop: thiết kế, code, xác minh trực quan rồi tự sửa theo token gốc. Ở đây đưa ra toàn bộ quy trình từ tạo API key, cấu hình MCP, chạy vòng lặp, đến đóng gói DESIGN.md thành skill Antigravity tái sử dụng cho các dự án sau.

Khi bạn đã biết Google Stitch và Antigravity IDE rồi thì rất muốn kết hợp hai công cụ này với nhau để thay vì thiết kế giao diện xong rồi ngồi dịch thủ công từng màu sắc, font chữ và khoảng cách sang code, Google vừa công bố quy trình kết nối Google Stitch với Antigravity IDE qua MCP để agent tự đọc "DNA thiết kế" và viết code React hoàn hảo đến từng pixel. Bài này hướng dẫn toàn bộ quy trình, từ tạo thiết kế đến đóng gói thành skill tái sử dụng cho các dự án sau.

Tại sao cần kết nối Stitch với Antigravity qua MCP?

Vấn đề kinh điển của quy trình thiết kế đến lập trình là khoảng cách giữa hai bên: designer tạo ra giao diện đẹp trong Figma hay Stitch, lập trình viên nhận file rồi phải tự diễn giải màu sắc, khoảng cách, font và hành vi. Kết quả thường là code trông "gần giống" thay vì "đúng pixel".

MCP (Model Context Protocol) giải quyết khoảng cách này bằng cách cho phép Antigravity đọc trực tiếp siêu dữ liệu thiết kế từ Stitch theo thời gian thực, thay vì bạn phải xuất file hay copy mã màu thủ công. Agent không "đoán" thiết kế mà đọc đúng token gốc, tức là màu chính xác theo mã hex, spacing theo giá trị pixel, font theo tên thực và component theo cấu trúc thực của dự án.

Bước 1: Tạo thiết kế trong Google Stitch

Trước khi kết nối, cần có một dự án thiết kế trong Stitch làm nguồn thông tin gốc hoặc nếu có file Figma đã thiết kế sẵn rồi thì tải lên làm thiết kế cho dự án. Mình đã có bài trước đây nói rõ về Stitch rồi mọi người có thể tham khảo ở đây hoặc nếu đã có web, app đã chạy rồi thì có thể sử dụng tính năng redesign của Stitch.

Sau khi Stitch tạo ra giao diện thì nhớ chia từng phần ví dụ như trang chủ, tin tức, sản phẩm trước khi chuyển sang Antigravity. Đặt tên dự án rõ ràng vì tên này sẽ được dùng để gọi qua MCP. Ví dụ: LaunchPad.

Bước 2: Tạo API key và cấu hình MCP trong Antigravity

Tạo API key từ Stitch

Trong Stitch, nhấp vào ảnh hồ sơ góc trên bên phải, chọn Stitch settings, vào phần API key rồi nhấn Create key. Sao chép key ngay vì nó chỉ hiển thị một lần và lưu vào nơi an toàn.

Kết nối MCP trong Antigravity

Mở Antigravity IDE, vào Agent Manager (CMD+E trên Mac hoặc CTRL+E trên Windows), tạo workspace mới đặt tên ví dụ LaunchPad-Project và trỏ về thư mục local của dự án. Sau đó chúng ta có hai cách để thực hiện

Cách đầu tiên là prompt thẳng cho AI agent tự thực hiện các bước kết nối Antigravity tới Stitch thông qua MCP ví dụ “"Tôi đã có API key từ Stitch là đây [API key của Stitch] thực hiện các bước kết nối tới Stitch qua MCP và cuối cùng kiểm tra lại các kết nối.". Từ đó AI agent sẽ tự thực hiện các bước còn việc của chúng ta là ngồi chờ và accept các bước nếu AI agent cần cấp quyền.

Cách thứ hai thì chúng ta sẽ thực hiện thủ công các bước nhưng đừng lo lắng vì các bước thực hiện khá đơn giản và nhanh, mình đã thử và làm hoàn toàn nhanh hơn so với agent trong Antigravity vì thực sự cứ chạy một bước lại phải Retry trong Antigravity rất khó chịu. Các bước như sau:

Trong Agent Manager, chọn MCP Servers
Tìm kiếm "Stitch" và nhấn Install
Dán API key vào trường cấu hình khi được hỏi

Copy API key Google Stitch vào Antigravity

Có thể kiểm tra kết nối bằng cách gõ vào cuộc trò chuyện: Kiểm tra các dự án Stitch đã kết nối thành công

Nếu agent trả về tên dự án LaunchPad thì kết nối đã thành công.

Bước 3: Vòng lặp Stitch Loop từ thiết kế đến code

Đây là phần cốt lõi của quy trình và cũng là điểm khác biệt lớn nhất so với cách làm truyền thống. Google gọi đây là "Stitch Loop" vì nó tạo ra vòng lặp liên tục giữa thiết kế và code thay vì một chiều từ designer sang developer.

Giai đoạn tìm nạp ngữ cảnh thiết kế

Trong cuộc trò chuyện Antigravity, gõ lệnh để agent tìm nạp toàn bộ DNA thiết kế:

Agent sẽ gọi Stitch qua MCP, lấy toàn bộ token thiết kế bao gồm bảng màu hex, thang font, giá trị spacing, tên component và cấu trúc layout rồi lưu vào file DESIGN.md trong thư mục dự án của bạn. File này trở thành nguồn thông tin duy nhất mà mọi component sẽ tham chiếu.

File DESIGN.md lấy trong Antigravity (nguồn Google)

Giai đoạn tạo code

Sau khi có DESIGN.md, giao cho agent xây dựng từng phần theo đúng token thiết kế:

Agent tạo cấu trúc dự án React với Tailwind, viết từng component dựa trên token trong DESIGN.md, không dùng giá trị cứng. Điều này đảm bảo code và thiết kế luôn đồng bộ.

Giai đoạn xác minh "Vibe Check"

Antigravity có trình duyệt tích hợp cho phép agent mở localhost và so sánh trực quan với bản thiết kế Stitch gốc. Gõ:

Agent liệt kê chính xác những điểm sai lệch và tự sửa theo token gốc. Đây là vòng lặp Stitch Loop: thiết kế trong Stitch, code trong Antigravity, xác minh qua trình duyệt, sửa theo token, lặp lại cho đến khi pixel-perfect.

Bước 4: Đóng gói DESIGN.md thành skill tái sử dụng

Đây là phần mọi người không hay để ý nhưng quan trọng nếu bạn làm nhiều dự án. File DESIGN.md được tạo ra từ quy trình trên chứa toàn bộ hệ thống thiết kế của một dự án cụ thể, nhưng bạn có thể đóng gói nó thành một skill Antigravity để tái sử dụng sang các dự án khác mà không cần lặp lại bước thiết lập từ đầu.

Cấu trúc file DESIGN.md chuẩn để đóng gói

Một DESIGN.md tốt nên có các phần sau để agent có thể đọc nhất quán:

Color tokens: Tên biến và giá trị hex cho từng màu trong hệ thống, ví dụ --color-primary: #1a1a2e, --color-accent: #7c3aed
Typography: Tên font, thang kích thước, line height và font weight cho heading, body và caption
Spacing scale: Bảng khoảng cách theo đơn vị px hoặc rem cho padding, margin và gap
Component inventory: Danh sách component, trạng thái (hover, active, disabled) và biến thể
Layout rules: Grid columns, breakpoints và max-width

Chuyển DESIGN.md thành skill Antigravity

Tạo thư mục .antigravity/skills/stitch-design/ trong workspace và đặt DESIGN.md vào đó cùng với file SKILL.md mô tả cách dùng skill này:

Khi bật skill này trong một workspace mới, agent tự động đọc DESIGN.md trước khi viết bất kỳ component nào, đảm bảo mọi code đều tuân theo hệ thống thiết kế đã định nghĩa dù bạn không cần nhắc lại mỗi lần.

Tái sử dụng cho dự án khác

Khi bắt đầu dự án mới với hệ thống thiết kế tương tự, bạn chỉ cần cập nhật giá trị token trong DESIGN.md mà không cần viết lại toàn bộ hướng dẫn. Agent đọc file mới, áp dụng token mới, giữ nguyên quy trình. Đây là cách biến một lần thiết lập thành quy trình chuẩn dùng được mãi.

Quy trình Stitch và Antigravity qua MCP không chỉ tiết kiệm thời gian ở bước chuyển đổi thiết kế sang code mà còn giải quyết vấn đề thường gặp hơn là duy trì sự nhất quán khi thiết kế thay đổi. Khi bạn cập nhật màu sắc hay khoảng cách trong Stitch, bạn chỉ cần chạy lại lệnh fetch token, cập nhật DESIGN.md và agent tự biết phải sửa gì trong codebase thay vì bạn phải tự tìm và thay thủ công từng giá trị.

Thảo luận (0)

Đăng nhập để tham gia thảo luận.

Chưa có bình luận nào. Hãy là người đầu tiên!

Các bài viết liên quan

Claude Opus 5 ra mắt với sức mạnh áp sát Fable 5

Anthropic vừa ra mắt Claude Opus 5 với mức giá giữ nguyên như Opus 4.8 nhưng chất lượng trả lời được nâng lên gần bằng Fable 5, model đắt gấp đôi. Nói cách khác, với mức giá bằng một nửa Fable 5 mà hiệu năng lại áp sát, phần lớn người dùng nhiều khả năng sẽ chọn Opus 5 làm model mặc định, chỉ giữ Fable 5 cho số ít tác vụ thật sự cần đến giới hạn cao nhất. Claude Opus 5 mang đến những nâng cấp nào? Theo thông báo ra mắt của Anthropic, Claude Opus 5 là model Opus mạnh nhất tính đến nay và là đại diện đầu tiên của dòng Opus thuộc thế hệ Claude 5. Anthropic mô tả đây là model chủ động, biết suy nghĩ sâu và tiến gần trí tuệ cấp cao nhất của Claude Fable 5 trong nhiều lĩnh vực, nhưng chỉ tốn một nửa chi phí token. Model có mã API claude-opus-5, context mặc định và tối đa 1 triệu token, tương tự Opus 4.8 và Fable 5, cùng giới hạn đầu ra 128.000 token và chế độ thinking được bật mặc định. Nó đã trở thành model mặc định trên Claude Max và là model mạnh nhất khả dụng trên Claude Pro, đồng thời có mặt trên Claude API, Amazon Bedrock, Google Cloud, Microsoft Foundry và cả GitHub Copilot. Vì sao nhiều người sẽ chọn Opus 5 thay vì Fable 5? Câu trả lời không chỉ nằm ở con số giá. Có bốn lý do khiến Opus 5 nhiều khả năng trở thành lựa chọn mặc định cho công việc hằng ngày, trong khi Fable 5 lùi về vai trò công cụ chuyên dụng cho số ít trường hợp đặc biệt. Thắng nhiều hơn thua trên các bài kiểm tra thực tế Trên Frontier-Bench v0.1, bài kiểm tra coding tự động của chính Anthropic, Opus 5 đạt 43,3% trong khi Fable 5 chỉ đạt 33,7%, một khoảng cách gần 10 điểm nghiêng hẳn về Opus 5. Trên CursorBench 3.2 ở mức effort tối đa, Opus 5 đạt khoảng 70,1%, thua Fable 5 chưa tới nửa điểm phần trăm nhưng chi phí chỉ bằng một nửa. Tính chung trên các bài kiểm tra mà cả hai model đều có số liệu, Opus 5 thắng nhiều hơn thua và phần thắng thường lớn hơn phần thua. Cách kiểm chứng nhanh nhất: chạy cùng một tác vụ trên cả hai model ở effort tương đương, rồi so sánh chất lượng đầu ra thay vì chỉ nhìn benchmark được công bố. Không bị ép giữ dữ liệu 30 ngày Fable 5 và Mythos 5 thuộc nhóm Covered Models, bắt buộc lưu giữ prompt và kết quả trong 30 ngày để phục vụ công tác an toàn, đồng thời không hỗ trợ zero data retention (ZDR) trên bất kỳ nền tảng nào, kể cả khi tổ chức đã có thỏa thuận ZDR từ trước. Ngược lại, Opus 5 vẫn vận hành được dưới ZDR như Opus 4.8. Với các đội ngũ xử lý dữ liệu pháp lý, y tế hoặc tài chính, riêng điểm này đã đủ để loại Fable 5 khỏi danh sách lựa chọn mà không cần so hiệu năng. Ít bị gián đoạn bởi bộ lọc an toàn Anthropic cho biết bộ phân loại an ninh mạng của Opus 5 can thiệp ít hơn khoảng 85% so với Fable 5. Với các coding agent chạy nhiều giờ hoặc qua đêm, việc bị chặn giữa chừng vì request chạm ngưỡng an toàn là rủi ro thực sự làm gián đoạn quy trình, và Opus 5 giảm đáng kể tần suất đó. Effort điều chỉnh được, ngân sách dễ đoán hơn Opus 5 hỗ trợ adaptive thinking với effort từ thấp đến tối đa. Mức thấp hoặc trung bình phù hợp cho phản hồi nhanh và khối lượng lớn, còn mức cao hoặc tối đa dành cho coding phức tạp, nghiên cứu sâu và quy trình nhiều bước. Vì phải trả tiền theo effort đã chọn thay vì bị khóa vào một mức giá cố định như Fable 5, đội ngũ có thể tối ưu ngân sách theo từng loại tác vụ thay vì trả giá cao nhất cho mọi request. Cảm nhận ban đầu sau khi dùng thử Opus 5 Sau khi dùng thử Opus 5 cho công việc viết lách và xử lý code hằng ngày, cảm nhận rõ nhất là model này thông minh hơn hẳn Opus 4.8, đặc biệt ở khả năng hiểu ý đồ ngay từ lần yêu cầu đầu tiên mà không cần giải thích lại nhiều lần. Với các tác vụ như tóm tắt tài liệu dài, viết code có logic rẽ nhánh phức tạp hoặc lên kế hoạch nhiều bước, Opus 5 xử lý mượt và ít khi đi lạc đề như bản cũ thường gặp. So với Fable 5 thì vẫn có khoảng cách, dù không lớn như tưởng tượng. Ở những tác vụ đòi hỏi suy luận sâu hoặc phải tự chủ qua nhiều bước liên tiếp mà không có ai can thiệp, Fable 5 vẫn xử lý chắc tay và ít sai sót hơn một chút. Nhưng với phần lớn công việc hằng ngày, mức chênh lệch đó khó nhận ra nếu không đặt hai model cạnh nhau để so sánh trực tiếp. Nếu bạn đang dùng Opus 4.8, đây là thời điểm hợp lý để nâng cấp. Còn nếu đang cân nhắc giữa Opus 5 và Fable 5 cho công việc thông thường, Opus 5 gần như đủ dùng mà không cần trả thêm tiền. Khi nào Fable 5 vẫn là lựa chọn đúng? Fable 5 vẫn giữ được lợi thế ở đúng những chỗ khó nhất. Trên SWE-bench Pro, bộ kiểm tra dùng vấn đề GitHub có thật và được xem là thước đo khắt khe nhất cho công việc coding thực tế, Fable 5 đạt khoảng 80% trong khi Opus 5 đạt khoảng 79%, một khoảng cách nhỏ nhưng vẫn nghiêng về Fable 5. Fable 5 cũng là model duy nhất Anthropic định vị ở cấp Mythos, tức năng lực tổng thể cao hơn Opus theo thiết kế, và điều này thể hiện rõ ở các lĩnh vực chuyên sâu như phân tích y tế chuyên môn hoặc nghiên cứu tự chủ kéo dài nhiều ngày mà không có người giám sát. Nói cách khác, phần thắng của Opus 5 tập trung ở công việc coding và xử lý tri thức hằng ngày, còn lợi thế của Fable 5 nằm ở những bài toán khó nhất và các lĩnh vực đòi hỏi độ tin cậy tuyệt đối. Với đa số người dùng và đội ngũ nhỏ, những bài toán đó chiếm tỷ trọng rất nhỏ trong công việc thường ngày, nên khoản chênh lệch giá gấp đôi khó biện minh được, trừ khi công việc của bạn rơi đúng vào nhóm này. So sánh nhanh Opus 5 và Fable 5 Tiêu chíClaude Opus 5Claude Fable 5 Giá đầu vào5 USD/triệu token10 USD/triệu token Giá đầu ra25 USD/triệu token50 USD/triệu token Context1 triệu token1 triệu token Đầu ra tối đa128.000 token128.000 token Frontier-Bench v0.1 (coding agent)43,3%33,7% SWE-bench Pro (coding thực tế)~79%~80% Lưu giữ dữ liệuHỗ trợ zero data retentionBắt buộc lưu giữ 30 ngày, không có ZDR Tần suất chặn bởi bộ lọc an toànThấp hơn khoảng 85%Cao hơn Phù hợp nhấtCông việc hằng ngày, coding agent, dữ liệu nhạy cảmNghiên cứu khó, dự án tự chủ dài ngày, phân tích y tế chuyên sâu Vậy Opus 5 có thật sự đọ được với GPT-5.6? Trên giấy tờ, câu trả lời là có, nhưng không phải toàn diện. Opus 5 dẫn trước GPT-5.6 Sol ở khả năng suy luận với tình huống mới, thao tác máy tính và phần lớn bài kiểm tra coding công khai, trong khi GPT-5.6 Sol vẫn nhỉnh hơn ở một số bài kiểm tra thao tác dòng lệnh và tìm kiếm thông tin. Không bên nào thắng tuyệt đối, nhưng lần đầu tiên một model tầm giá trung của Anthropic đứng ngang hàng, thậm chí nhỉnh hơn ở nhiều mặt so với model đầu bảng của OpenAI. Câu hỏi đáng quan tâm hơn không phải model nào mạnh hơn mà là model nào thực sự phù hợp với bạn. Nếu công việc hằng ngày xoay quanh code, tài liệu dài và tác vụ nhiều bước, Opus 5 đang là lựa chọn hợp lý cả về giá lẫn chất lượng. Còn nếu bạn đã quen với hệ sinh thái OpenAI hoặc cần đúng thế mạnh của GPT-5.6, chi phí chuyển đổi có thể không đáng để thay đổi. Cách trả lời chắc chắn nhất vẫn là tự chạy thử cùng một việc trên cả hai, vì bảng benchmark không phải lúc nào cũng phản ánh đúng trải nghiệm thật.

Nam•

25 thg 7, 2026

Đọc thêm

Gemini 3.6 Flash ra mắt nhưng thực chiến gây thất vọng

Google công bố Gemini 3.6 Flash ngày 21/7/2026 với hàng loạt điểm benchmark tăng vọt so với 3.5 Flash: DeepSWE từ 37% lên 49%, MLE Bench từ 49,7% lên 63,9% và OSWorld Verified đạt 83%. Nhưng trải nghiệm sử dụng thực tế của 4AIVN lại kể một câu chuyện khác hẳn: model xử lý việc nhỏ khá ổn, còn khi được giao một kế hoạch nhiều bước thì lại quên mục tiêu, bỏ sót bước và đi lệch hướng giữa chừng. Benchmark tăng mạnh nhưng không phản ánh đúng việc dùng thật Theo thông báo chính thức của Google, Gemini 3.6 Flash dùng ít hơn 17% token đầu ra so với 3.5 Flash trên Artificial Analysis Index; một số bài test như DeepSWE ghi nhận mức giảm token tới 65%. Cửa sổ đầu vào của model đạt 1.048.576 token và giới hạn đầu ra là 65.536 token, những con số nghe rất ấn tượng trên giấy. Vấn đề nằm ở chỗ tất cả những con số này đều đến từ các bài test được thiết kế sẵn, có mục tiêu cố định ngay từ đầu và chạy trong một phiên ngắn. Đó không phải cách một plan thực tế vận hành, vì công việc thật luôn cần điều chỉnh liên tục theo phản hồi, chứ không phải hoàn thành xong một lượt là kết thúc. Bám plan dài là điểm yếu chí mạng Trong trải nghiệm sử dụng thực tế, Gemini 3.6 Flash thể hiện quá kém ngay khi bước ra khỏi phạm vi một task đơn lẻ. Giao việc nhỏ, có bước kiểm tra rõ ràng thì model làm tốt và ít vòng lặp thừa. Nhưng khi được giao một kế hoạch nhiều bước, model bắt đầu quên mục tiêu ban đầu, bỏ sót các bước đã thống nhất từ trước hoặc tự ý đi lệch hướng sau vài lượt trao đổi. Khi được nhắc lại, model đôi khi chỉ xin lỗi rồi lặp lại đúng lỗi cũ thay vì thực sự sửa. Cửa sổ 1 triệu token mô tả sức chứa đầu vào, không phải khả năng ghi nhớ. Model có thể “nhìn thấy” toàn bộ context nhưng vẫn bỏ sót chi tiết khi thực hiện; chỉ cần một điểm nhỏ không được chú ý là kế hoạch có thể lệch hướng ngay. Đây không phải lỗi ngẫu nhiên hiếm gặp mà là điểm yếu lặp lại đủ nhiều để không thể bỏ qua. Nói cách khác, Gemini 3.6 Flash mạnh ở việc làm nhanh một tác vụ, nhưng chưa đáng tin khi phải thực hiện đúng một chuỗi tác vụ, và đó chính là khoảng cách mà benchmark không đo được. Giá giảm 17% nhưng chất lượng chưa chắc tương xứng Giá niêm yết của Gemini 3.6 Flash là 1,50 USD cho một triệu token đầu vào và 7,50 USD cho một triệu token đầu ra, giảm khoảng 17% so với mức 9 USD của 3.5 Flash. Nghe qua, đây là một bước tiến hợp lý: rẻ hơn mà benchmark lại cao hơn. Nhưng nếu chất lượng thực thi trên các tác vụ dài lại kém, phần tiết kiệm chi phí trên giấy có thể bị nuốt gọn bởi số lần phải nhắc lại, sửa lại hoặc chạy lại toàn bộ kế hoạch từ đầu. Gemini 3.5 Flash Lite còn rẻ hơn, với giá 0,30 USD cho một triệu token đầu vào và 2,50 USD cho đầu ra, nhưng đó là lựa chọn dành cho phân loại và chuyển đổi dữ liệu đơn giản, những việc không đòi hỏi model phải nhớ một kế hoạch dài. Được gì, mất gì khi dùng Gemini 3.6 Flash? Nhìn một cách khách quan, đây không phải là một bản nâng cấp thất bại. Google có lẽ đã tính toán rất kỹ để tối ưu giữa chất lượng đầu ra, tốc độ và chi phí, dù kết quả thực tế chưa hẳn đáp ứng kỳ vọng cao dành cho đội ngũ kỹ sư của họ. Những cải thiện này hoàn toàn rõ ràng chứ không chỉ dừng lại trên lý thuyết: tốc độ phản hồi nhanh hơn, chi phí đầu ra giảm đáng kể và với các tác vụ ngắn, phạm vi hẹp như phân loại nội dung, viết một hàm code đơn lẻ hoặc giải quyết một câu hỏi cụ thể, model xử lý rất gọn gàng, hạn chế các vòng lặp thừa. Nhưng cái giá phải trả lộ ra ngay khi công việc kéo dài quá một vài bước. Model càng phải giữ nhiều ràng buộc và nhớ nhiều quyết định đã thống nhất trước đó thì tỷ lệ đi lệch càng tăng. Với coding agent hoặc quy trình dài đang chạy ổn định trên Claude Fable 5 hoặc GPT 5.6, chưa có lý do đủ thuyết phục để đổi sang Gemini 3.6 Flash chỉ vì benchmark hoặc giá thấp hơn. Vẫn phải chờ Gemini 3.5 Pro Google cho biết Gemini 3.5 Pro vẫn đang được thử nghiệm cùng các đối tác và sẽ được phát hành rộng rãi khi sẵn sàng. Vì vậy, câu chuyện cốt lõi của đợt phát hành này nằm ở khoảng cách khá xa giữa benchmark và thực tế công việc. Với những ai đang tìm kiếm một agent đủ tin cậy cho các quy trình dài hạn, có lẽ họ vẫn phải kiên nhẫn chờ xem 3.5 Pro có tạo nên bước ngoặt mới hay không. Nếu các phiên bản tiếp theo tiếp tục thể hiện mờ nhạt trong thực chiến, Google có nguy cơ tự tay nhường lợi thế cho các đối thủ như Anthropic, OpenAI và Meta.

Nam•

23 thg 7, 2026

Đọc thêm

Spotify ra mắt trợ lý AI trò chuyện

Spotify biến tìm nhạc thành một cuộc trò chuyện liên tục: người dùng có thể yêu cầu phát nghệ sĩ mới, đổi không khí, lưu bài hát và hỏi về lịch sử nghe mà không rời ứng dụng. Trợ lý mới đưa AI từ gợi ý thụ động thành công cụ hiểu yêu cầu và thực hiện hành động. Spotify biến tìm kiếm thành cuộc trò chuyện như thế nào? Theo thông báo chính thức của Spotify, người dùng đủ điều kiện sẽ thấy cách trò chuyện mới tại màn hình Home và Now Playing trên ứng dụng di động. Họ có thể gõ câu hỏi hoặc nhấn nút micro để nói, sau đó tiếp tục trao đổi qua nhiều lượt thay vì nhập lại một truy vấn hoàn toàn mới. Điểm đáng chú ý là trợ lý không chỉ trả về một danh sách bài hát. Nó có thể điều khiển nội dung đang phát, giải thích thông tin liên quan và thực hiện hành động như lưu bài, thêm bài vào hàng đợi hoặc theo dõi nghệ sĩ. Ví dụ, người nghe có thể yêu cầu một số nghệ sĩ mà mình chưa từng nghe, rồi bổ sung rằng họ muốn nhạc mới phát hành hoặc không khí sôi động hơn. Trợ lý AI mới làm được những gì? Spotify chia trải nghiệm thành ba nhóm chính gồm chọn nội dung, tìm hiểu nội dung đang phát và khám phá thói quen nghe. Trong âm nhạc, người dùng có thể yêu cầu một phong cách, một nghệ sĩ hoặc một tâm trạng, sau đó thay đổi lựa chọn bằng câu hỏi tiếp theo. Trong podcast và sách nói, họ có thể hỏi thêm về khách mời, tác giả hoặc những chương trình liên quan. Trợ lý cũng có quyền truy cập vào ngữ cảnh cá nhân mà một chatbot thông thường không tự có. Nó hiểu playlist, nghệ sĩ yêu thích, bài nghe lặp lại và lịch sử phát của tài khoản, vì vậy người dùng có thể hỏi lần đầu mình nghe một bài là khi nào hoặc gần đây đang nghe nhiều thể loại nào. Đây là lợi thế lớn vì câu trả lời gắn với dữ liệu sử dụng thực tế thay vì chỉ dựa trên kiến thức chung. Một yêu cầu có thể được chỉnh qua nhiều lượt Hãy hình dung bạn đang chuẩn bị một buổi chạy bộ nhưng không biết nên mở playlist nào. Bạn có thể yêu cầu nhạc có nhịp nhanh từ các nghệ sĩ chưa từng nghe, tiếp tục thêm một ca sĩ yêu thích, rồi giới hạn kết quả ở các bản phát hành gần đây. Khi gặp bài phù hợp, bạn có thể yêu cầu lưu bài ngay mà không chuyển qua nhiều màn hình. Tính năng này khác AI DJ và ChatGPT ra sao? AI DJ chủ yếu đóng vai trò người dẫn chương trình, chọn nhạc và giới thiệu bằng giọng nói, trong khi trợ lý mới mở rộng hội thoại sang Home và Now Playing. Người dùng không chỉ nghe lựa chọn do hệ thống đưa ra mà còn có thể đặt câu hỏi, thay đổi hướng đề xuất và yêu cầu ứng dụng thực hiện tác vụ cụ thể. Spotify cũng từng kết nối dịch vụ với ChatGPT, nhưng trải nghiệm mới diễn ra trực tiếp bên trong ứng dụng nghe nhạc. Điều này có nghĩa là người dùng không cần rời Spotify, liên kết một dịch vụ khác rồi quay lại để phát nội dung. Theo TechCrunch, Spotify kết hợp công nghệ AI do hãng phát triển với model từ nhiều nhà cung cấp và chọn công nghệ phù hợp cho từng tác vụ. Spotify chưa công bố tên model cụ thể hoặc cách định tuyến yêu cầu. Vì vậy, chưa thể kết luận trợ lý mạnh đến đâu ở các câu hỏi kiến thức, nhưng chiến lược nhiều model cho thấy hãng không muốn phụ thuộc vào một nhà cung cấp duy nhất. Người dùng cần lưu ý gì trước khi thử? Tính năng đang được triển khai dần dưới dạng beta cho người dùng Premium từ 18 tuổi tại Mỹ, Ireland và Thụy Điển. Trợ lý hiện hỗ trợ tiếng Anh trên iOS và Android, vì vậy người dùng tại Việt Nam chưa nằm trong phạm vi được công bố. Spotify thừa nhận phản hồi có thể chưa luôn chính xác trong giai đoạn thử nghiệm và ý kiến của người dùng sẽ được dùng để cải thiện sản phẩm. Trước khi tin vào thông tin về ngày phát hành, nguồn cảm hứng của bài hát hoặc tiểu sử nghệ sĩ, người nghe vẫn nên kiểm tra nguồn chính thức nếu dữ kiện đó quan trọng. Kiểm tra tài khoản có thuộc khu vực và độ tuổi được hỗ trợ hay không. Thử cả nhập chữ và giọng nói để xem cách nào hiểu ý định tốt hơn. Bắt đầu bằng yêu cầu rõ ràng, sau đó dùng câu hỏi nối tiếp để tinh chỉnh. Không xem câu trả lời beta là nguồn duy nhất cho thông tin cần độ chính xác cao. Spotify đang thay đổi cách khám phá âm thanh Điểm quan trọng nhất không phải là Spotify có thêm một chatbot, mà là hội thoại đang trở thành lớp điều khiển cho cả nội dung và hành động trong ứng dụng. Khi AI hiểu được thư viện, lịch sử nghe và nội dung đang phát, một câu nói có thể thay thế nhiều lần tìm kiếm, mở menu và chỉnh hàng đợi. Nếu được quyền thử beta, người dùng nên kiểm tra ba tình huống gồm khám phá nghệ sĩ mới, hỏi về lịch sử nghe và tinh chỉnh playlist qua nhiều lượt. Ba phép thử này sẽ cho thấy trợ lý thực sự hiểu sở thích cá nhân hay chỉ biến câu lệnh thành một cách tìm kiếm dài hơn.

Nam•

19 thg 7, 2026

Đọc thêm

Muse Image khác gì Nano Banana 2 và GPT Image 2.0?

Muse Image là nỗ lực mới nhất của Meta nhằm biến Meta AI thành một studio sáng tạo nằm ngay trong mạng xã hội. Mô hình không chỉ tạo hoặc sửa ảnh mà còn có thể tìm kiếm, viết code, suy luận và tự kiểm tra kết quả. Khi đặt cạnh Nano Banana 2 và GPT Image 2.0, Muse Image không cố chiến thắng bằng một chỉ số duy nhất mà chọn lợi thế tích hợp sâu với Meta AI, Instagram, WhatsApp cùng cách tạo ảnh mang tính AI agent. Muse Image hoạt động ra sao ? Meta Superintelligence Labs công bố Muse Image tháng 7-2026 cùng preview của Muse Video. Đây là mô hình tạo ảnh đầu tiên của Meta AI để cạnh tranh với các ông lớn Google hay OpenAI. Meta cho biết Muse Image tuân thủ hướng dẫn tốt, chỉnh sửa chính xác và có thể kết hợp nhiều ảnh tham chiếu trong một yêu cầu. Điểm khác biệt nằm ở quy trình trước khi ảnh được xuất đó là thay vì nhận prompt rồi dựng hình ngay, Muse Image có thể lên kế hoạch, gọi công cụ và tự đánh giá bản nháp. Hệ thống phối hợp với Muse Spark để chia sẻ công cụ và cùng lập kế hoạch, đưa khả năng suy luận của mô hình ngôn ngữ vào quá trình tạo nội dung trực quan. Tìm kiếm và viết code giúp ảnh chính xác hơn Muse Image có hai nhóm công cụ đáng chú ý đó là tìm kiếm web giúp mô hình lấy ngữ cảnh thời gian thực và tham chiếu thị giác cho chủ đề cần kiến thức mới. Công cụ viết code được dùng khi ảnh yêu cầu chi tiết có cấu trúc như biểu đồ, công thức hoặc code QR có thể quét. Thay vì chỉ “vẽ gần giống”, hệ thống có thể tạo dữ liệu bằng code, dựng kết quả rồi dùng nó làm điều kiện cho ảnh cuối. Về nguyên lý, cách làm này khá giống với kỹ thuật của GPT Image 2.0 và Nano Banana 2: cả ba đều không chỉ dựa vào prompt ban đầu mà còn tận dụng ngữ cảnh, suy luận hoặc thông tin bổ trợ để nâng độ chính xác của ảnh. Điểm khác biệt của Muse Image theo như Meta nói đó là nhấn mạnh quy trình Agent kết hợp tìm kiếm web, viết lại code và tự đánh giá bản nháp. Nếu một chi tiết nhỏ sai, Muse Image có thể sửa cục bộ; nếu bố cục sai lớn, mô hình có thể tạo lại hoặc đổi chiến thuật bằng cách gọi thêm công cụ. Meta cho biết chất lượng tăng khi mô hình được cấp thêm ngân sách suy luận và các bước tự tinh chỉnh ở thời điểm chạy.Lưu ý: Các nhận định về khả năng và thứ hạng của Muse Image hiện chủ yếu đến từ Meta. Kết quả thực tế còn phụ thuộc prompt, ảnh tham chiếu, khu vực được hỗ trợ và việc tính năng có được triển khai đầy đủ trên tài khoản hay chưa. Trải nghiệm tạo và chỉnh sửa ảnh có gì đáng chú ý? Trong Meta AI, người dùng dĩ nhiên có thể mô tả yêu cầu bằng ngôn ngữ hội thoại, bắt đầu từ ảnh trắng hoặc tải ảnh có sẵn. Đây gần như là điều kiện tối thiểu ở thời điểm hiện tại khi tương tác với công cụ tạo ảnh, thiếu nó đồng nghĩa với việc bị coi là thụt lùi so với mặt bằng chung. Các ví dụ Meta đưa ra gồm xóa người thừa khỏi hậu cảnh, ghép người dùng vào một địa danh, phục hồi ảnh cũ, thử kiểu tóc, tạo infographic và dựng code QR. Preset gợi ý giúp người mới bắt đầu mà không cần viết prompt dài.Chỉnh trực tiếp bằng nét vẽ và giữ ngữ cảnh nhiều lượt Muse Image cho phép khoanh, vẽ hoặc ghi chú trực tiếp lên vùng cần sửa. Vì Meta AI giữ ngữ cảnh hội thoại, người dùng có thể đổi phong cách, thêm vật thể hoặc tinh chỉnh chi tiết qua nhiều lượt mà không phải bắt đầu lại. Đây là cách tương tác phù hợp với người dùng điện thoại và mạng xã hội, nơi thao tác trực quan quan trọng hơn bảng tham số kỹ thuật.Khả năng kết hợp nhiều tham chiếu cũng là lợi thế lớn khi này một prompt có thể đưa người từ ảnh chân dung, trang phục từ ảnh khác, bối cảnh từ ảnh thứ ba và phong cách từ một tham chiếu riêng vào cùng bố cục. Muse Image hỗ trợ xen kẽ văn bản với ảnh trong prompt, giúp yêu cầu phức tạp dễ mô tả hơn.Tích hợp Meta khiến ảnh đi thẳng vào nơi cần chia sẻMuse Image có mặt trong ứng dụng và web của Meta AI đồng thời cung cấp hiệu ứng cho Instagram Stories và tạo ảnh trong cuộc trò chuyện WhatsApp tại một số quốc gia. Meta dự kiến mở rộng sang Facebook, Messenger, thêm khu vực trên Instagram và WhatsApp, cũng như Advantage+ creative cho quảng cáo.Điều này rút ngắn đáng kể quãng đường từ ý tưởng đến bài đăng. Người dùng không cần tạo ảnh ở một ứng dụng, tải xuống rồi nhập lại vào mạng xã hội. Đổi lại, mức độ sẵn có và luồng làm việc phụ thuộc nhiều vào hệ sinh thái Meta hơn so với các model có API công khai rõ ràng. Muse Image so với Nano Banana 2 và GPT Image 2.0 Ba công cụ đều tạo và chỉnh sửa ảnh chất lượng cao, nhưng được tối ưu cho ba điểm xuất phát khác nhau. Muse Image bắt đầu từ Meta AI và mạng xã hội. Nano Banana 2, tên model Gemini 3.1 Flash Image, nhấn mạnh tốc độ, giá thành và khối lượng triển khai. GPT Image 2.0 kết nối trải nghiệm ChatGPT Images 2.0 với model API `gpt-image-2` dành cho tạo và chỉnh sửa ảnh chất lượng cao.Tiêu chíMuse ImageNano Banana 2GPT Image 2.0Cách tiếp cậnTác tử tạo ảnh dùng tìm kiếm, code và tự tinh chỉnhModel Flash tối ưu tốc độ, chi phí và throughputModel chất lượng cao trong ChatGPT và OpenAI APIĐiểm mạnh nổi bậtNhiều ảnh tham chiếu, chỉnh sửa trực tiếp, tích hợp MetaGrounding web và hình ảnh, bản địa hóa chữ, nhiều độ phân giảiĐộ trung thực cao, đầu vào ảnh chất lượng cao, phong cách đa dạngĐộ phân giải và tỉ lệMeta chưa công bố bộ thông số API chuẩn hóa rộng rãi0.5K, 1K, 2K, 4K và các tỉ lệ rất rộng như 8:1Kích thước linh hoạt qua ChatGPT và APIKênh sử dụngMeta AI, meta.ai, Instagram, WhatsApp và dần mở rộngGemini, Google AI Studio và Gemini APIChatGPT, Playground và OpenAI APIPhù hợp nhấtSáng tạo nhanh để chia sẻ trong hệ sinh thái MetaỨng dụng cần tốc độ, chi phí tốt và tạo ảnh số lượng lớnThiết kế, chỉnh sửa và pipeline cần chất lượng cùng kiểm soát caoNano Banana 2 thiên về tốc độ và quy môNano Banana 2 được Google định vị là model Flash hiệu quả cao. Nó hỗ trợ tìm kiếm web và hình ảnh để lấy ngữ cảnh mới, cải thiện chữ trong ảnh và bản địa hóa nhiều ngôn ngữ. Nhà phát triển có thể chọn mức suy luận, nhiều tỉ lệ khung hình và độ phân giải từ 0.5K đến 4K.Điểm hấp dẫn nhất của Nano Banana 2 là khả năng đưa vào quy trình sản xuất khi mà Google công bố giá theo độ phân giải và có chế độ batch rẻ hơn, phù hợp ứng dụng thương mại điện tử, quảng cáo theo thị trường hoặc công cụ cần tạo lượng lớn biến thể. Nếu bài toán là tốc độ, chi phí dự đoán được và API, Nano Banana 2 có lợi thế rõ. GPT Image 2.0 thiên về chất lượng và không gian sáng tạo rộng ChatGPT Images 2.0 cho thấy thế mạnh ở typography đa ngôn ngữ, phong cách thị giác, ảnh chân thực, poster, truyện tranh, infographic và thiết kế nhiều khung. Model `gpt-image-2` cũng có trên OpenAI API với khả năng tạo nhanh, chỉnh sửa, kích thước linh hoạt và đầu vào hình ảnh có độ trung thực cao.Trải nghiệm ChatGPT phù hợp với quá trình trao đổi ý tưởng dài: người dùng có thể đưa tài liệu, ảnh tham chiếu và yêu cầu thay đổi bằng hội thoại. Với nhà phát triển, API tạo ảnh và chỉnh sửa tách bạch giúp đưa model vào sản phẩm. GPT Image 2.0 vì thế cân bằng tốt giữa công cụ cho người dùng cuối và hạ tầng lập trình.Nên chọn công cụ nào cho từng loại công việc?Không có model thắng mọi trường hợp. Nếu kết quả cuối cùng là Story, bài đăng, tin nhắn hoặc quảng cáo trong hệ sinh thái Meta, Muse Image mang lại luồng làm việc ngắn nhất. Khả năng chỉnh bằng nét vẽ và preset cũng giúp người không quen prompt bắt đầu nhanh.Chọn Muse Image khi cần ghép nhiều ảnh cá nhân, tạo nội dung xã hội, chỉnh sửa trên điện thoại hoặc chia sẻ ngay trong Meta.Chọn Nano Banana 2 khi xây ứng dụng tạo ảnh quy mô lớn, cần nhiều độ phân giải, bản địa hóa và tối ưu chi phí API.Chọn GPT Image 2.0 khi cần phong cách đa dạng, chỉnh sửa bằng hội thoại, đầu vào ảnh trung thực hoặc tích hợp với OpenAI API.Một nhóm sản xuất cũng có thể dùng nhiều model. Nano Banana 2 tạo biến thể số lượng lớn, GPT Image 2.0 xử lý tài sản cần art direction kỹ, còn Muse Image phục vụ nội dung cá nhân hóa để phân phối trên Instagram, WhatsApp hoặc Facebook.Muse Image có đủ sức trở thành đối thủ lớn không?Meta cho biết Muse Image đứng thứ hai trên bảng xếp hạng Arena cho text-to-image, chỉnh sửa một ảnh và chỉnh sửa nhiều ảnh theo xếp hạng ưu tiên của người dùng. Con số này cho thấy model có chất lượng cạnh tranh, nhưng lợi thế bền vững của Meta có thể nằm ở phân phối hơn là bảng xếp hạng.Muse Image bước vào nơi hàng tỷ người đã trò chuyện, đăng story, chia sẻ ảnh và mua quảng cáo. Nếu khả năng suy luận, tìm kiếm và tự tinh chỉnh hoạt động ổn định, Meta có thể biến tạo ảnh AI thành tính năng mặc định trong giao tiếp hằng ngày thay vì một công cụ chuyên biệt.Ở chiều ngược lại, Nano Banana 2 và GPT Image 2.0 vẫn giữ hệ sinh thái API rõ ràng hơn cho nhà phát triển, còn Muse Image cần mở rộng khu vực, minh bạch hơn về hạn mức và có lựa chọn tích hợp đủ mạnh nếu muốn cạnh tranh ngoài ứng dụng Meta. Đây là công cụ đáng chú ý nhất cho mảng sáng tạo trên mạng xã hội tính đến lúc này, dù Meta AI vốn mang tiếng luôn đi sau về chất lượng model. Lần này khoảng cách có vẻ đã hẹp hơn đáng kể, nhưng việc Meta có thực sự bắt kịp hay không vẫn cần chờ người dùng đánh giá qua thời gian sử dụng thực tế.

Liên•

19 thg 7, 2026

Đọc thêm