Nano Banana Pro (Gemini 3 Pro Image) đã ra mắt: Sự nâng cấp bùng nổ thách thức mọi đối thủ

Xuất bản vào 24 tháng 11, 2025

Tóm tắt nhanh

Nano Banana Pro (Gemini 3 Pro Image) là một công cụ tạo ảnh AI mới, được xây dựng trên nền tảng Gemini 3 Pro, mang đến nhiều cải tiến vượt trội so với các công cụ hiện có. Nó nổi bật với khả năng xử lý văn bản cực kỳ chính xác trong ảnh (99%), hỗ trợ độ phân giải 4K, khả năng suy luận phức tạp và tích hợp tìm kiếm Google theo thời gian thực, cùng với khả năng duy trì sự ổn định khuôn mặt/khung hình. Mặc dù có những điểm yếu nhỏ cần cải thiện như logic sơ đồ đôi khi không chính xác và ghép ảnh chưa thực sự mượt mà, Nano Banana Pro hiện có thể trải nghiệm miễn phí trong ứng dụng Gemini với một hạn mức nhất định.

Sự ra mắt của Nano Banana Pro (tên chính thức là Gemini 3 Pro Image), được xây dựng trên nền tảng Gemini 3 Pro, thực sự là một sự nâng cấp xuất sắc.

Cá nhân tôi vẫn còn bất ngờ khi Gemini 3 giờ đây xuất hiện thêm Nano Banana Pro. Nó không chỉ mang đến một bước nâng cấp lớn so với Nano Banana mà có thể sẽ khiến nhiều người quên đi những mô hình, nền tảng tạo ảnh khác như Midjourney, GPT Image 1 hay thậm chí phần nào đó là Photoshop.

Trải nghiệm thực tế của Nano Banana Pro như thế nào?

Nano Banana Pro được thiết kế để tận dụng khả năng suy luận nâng cao và hiểu biết sâu rộng về thế giới thực của Gemini 3. Phiên bản Pro này không chỉ giúp tạo ra hình ảnh đẹp đơn thuần mà còn giúp xây dựng nội dung hữu ích hơn, chẳng hạn như sơ đồ minh họa hoặc infographic chính xác dựa trên thông tin thực tế hoặc dữ liệu do người dùng cung cấp.

Trong quá trình thử nghiệm, có 4 điểm nâng cấp lớn nhất mang lại sự khác biệt rõ rệt so với bản Nano Banana (Gemini 2.5 Flash Image):

Chữ (text) trong ảnh có thể chính xác 99%: Chúng ta đều biết điểm yếu chung của các AI tạo ảnh là khả năng xử lý văn bản rất kém, dù là tiếng Anh hay tiếng Việt. Nhưng với sự trợ giúp từ Gemini 3, câu chuyện đã khác, chúng ta hoàn toàn có thể chuyển đổi tài liệu, sách, ảnh từ tiếng Anh sang tiếng Việt hoặc tô màu chúng cực kỳ chính xác. Điều này trước kia vốn là nhiệm vụ bất khả thi.
Độ phân giải cực cao (4K): Trước đây, muốn ảnh AI đạt tới 4K để phục vụ in ấn hay quảng cáo là một cơn ác mộng, thường phải tốn công sức làm nét lại. Giờ đây, chất lượng 4K không còn là điều quá xa vời với Nano Banana Pro, còn các độ phân giải thấp hơn như 2K thì mô hình này cân dư sức.
Khả năng suy luận và hỗ trợ Google Search: Nhờ sự hỗ trợ của Gemini 3 Pro, mô hình hoàn toàn có khả năng suy luận qua các câu lệnh phức tạp. Đặc biệt hơn, nó có thể sử dụng Google Search để lấy dữ liệu thời gian thực tạo ra hình ảnh. Ví dụ: Bạn có thể yêu cầu vẽ hình ảnh ăn mừng dựa trên kết quả của một trận thể thao vừa kết thúc hoặc có thể tạo hình ảnh thiệt hại của 2 cơn bão vừa xảy ra ở miền trung và dưới đây là kết quả mình cho ra.

Báo cáo thiệt hại bão lũ — Dựa trên sức mạnh nano banana pro

Giữ khuôn mặt/khung hình cực ổn định: Đối với những ai làm thương hiệu hoặc cần sự nhất quán, tính năng này cực kỳ cần thiết. Mô hình có khả năng giữ nguyên khuôn mặt hoặc khung hình của nhân vật xuất sắc ngay cả khi thay đổi bối cảnh, trang phục. Nhờ vậy, bạn có thể dễ dàng tạo ra toàn bộ một bộ nhận diện thương hiệu đồng nhất.

Khả năng giữ ổn định khuôn mặt — Dựa trên sức mạnh nano banana pro

Những điều Nano Banana Pro cần cải thiện

Mặc dù rất ấn tượng, Nano Banana Pro vẫn gặp khó khăn hoặc một số lỗi nhỏ cần cải thiện:

Logic sơ đồ đôi khi hơi "ngáo": Dù có Gemini 3 hỗ trợ nhưng khoản vẽ sơ đồ hay infographic nhiều lúc vẫn bị lộn xộn (ví dụ: bước 2 lại nhảy lên nằm trước bước 1) dù hình ảnh chất lượng. Lỗi này khó sửa bằng prompt, thường phải tạo lại từ đầu.
Chữ trong ảnh vẫn xuất hiện lỗi chính tả: Lâu lâu AI vẫn cho ra bức ảnh sai chính tả với tỷ lệ khoảng 1/10. Mức này hoàn toàn chấp nhận được nhưng chưa hoàn hảo 100%.
Ghép ảnh chưa thực sự mượt: Khả năng hòa trộn khuôn mặt vào khung hình mới vẫn chưa được tự nhiên lắm, đối với những người khó tính thì nhìn bằng mắt thường là thấy hơi giả trân. Nên với những ca khó cần độ chính xác cao, chúng ta vẫn phải nhờ đến bàn tay hậu kỳ của các bạn designer.

Làm thế nào để trải nghiệm Nano Banana Pro?

Nano Banana Pro có thể sử dụng được hoàn toàn miễn phí trong ứng dụng Gemini.

Mở ứng dụng Gemini (hoặc truy cập trên web).
Chọn mô hình "Thinking" (tư duy). Mục này nên dùng vì Nano Banana Pro sẽ lấy sức mạnh tư duy của Gemini 3 để tạo ảnh.
Chọn tùy chọn trong mục công cụ chọn "Create images" (Tạo hình ảnh).

Người dùng gói miễn phí sẽ nhận được một hạn mức sử dụng Pro giới hạn. Sau khi dùng hết hạn mức này, hệ thống sẽ tự động chuyển về mô hình Nano Banana gốc. Người dùng đăng ký các gói cao hơn (Google AI Plus, Pro, và Ultra) sẽ nhận được hạn mức sử dụng Nano Banana Pro cao hơn đáng kể.

Vậy là Nano Banana Pro giống như một nhiếp ảnh gia chuyên nghiệp mới được trang bị máy ảnh 4K và bộ xử lý thông minh. Nó có thể tạo ra những bức ảnh siêu thực, nhưng đôi khi vẫn cần bạn hướng dẫn cụ thể về logic và ý định để đảm bảo bức ảnh không chỉ đẹp mà còn hợp lý.

Thảo luận (0)

Đăng nhập để tham gia thảo luận.

Chưa có bình luận nào. Hãy là người đầu tiên!

Các bài viết liên quan

Gemini 3.1 Flash-Lite ra mắt nhanh hơn rẻ hơn Gemini 2.5 Flash

Gemini 3.1 Flash-Lite đang là lựa chọn "ngon - bổ - rẻ" mới cho cộng đồng AI Nếu bạn đang tìm kiếm một giải pháp AI vừa nhanh, vừa tiết kiệm để triển khai các dự án quy mô lớn, thì Gemini 3.1 Flash-Lite vừa được Google ra mắt chính là câu trả lời. Đây không chỉ là một bản nâng cấp nhẹ, mà thực sự là một bước đi giúp công nghệ AI trở nên dễ tiếp cận hơn với tất cả mọi người. Hiệu suất ổn định với mức chi phí cực kỳ dễ thở Điểm làm mình ấn tượng nhất ở Gemini 3.1 Flash-Lite chính là cách Google cân bằng giữa bài toán kinh tế và hiệu năng. Với những bạn đang tối ưu chi phí API hàng tháng, đây sẽ là một lựa chọn rất đáng cân nhắc khi mà Claude Opus hay Claude Code đang hot thì chi phí quá khủng lên tới 200 đô nếu không muốn bị hết giới hạn nhanh chóng. Giá rất hợp lý Chỉ tốn khoảng 0.25 USD cho mỗi triệu token đầu vào. Mức giá này giúp chúng ta tự tin triển khai các tính năng xử lý dữ liệu lớn mà không cần quá lo lắng về ngân sách. Tốc độ phản hồi đáng nể: Cảm giác chờ đợi AI phản hồi đôi khi khá bất tiện, nhưng với Flash-Lite, tốc độ trả kết quả đầu tiên đã nhanh gấp 1.5 lần so với bản 2.5 Flash trước đây. Tuy chi phí đã tăng so với Gemini 2.5 Flash-Lite nhưng so với mặt bằng chung thì vẫn ở mức hợp lý nhưng đổi cái được tốc độ thì thật sự ai cũng yêu thích. Thừa hưởng sức mạnh từ "người đàn anh" Gemini 3 Pro Dù có chữ "Lite" trong tên gọi, nhưng các bạn đừng vì thế mà đánh giá thấp khả năng của nó. Được phát triển dựa trên nền tảng của Gemini 3 Pro cho nên mô hình này vẫn xử lý mượt mà từ văn bản, hình ảnh cho đến âm thanh và video. Khả năng đọc hiểu sâu: Với điểm Elo 1432, Flash-Lite chứng minh mình không hề kém cạnh các đối thủ cùng phân khúc. Đặc biệt cửa sổ ngữ cảnh lên tới 1 triệu token có lẽ đã là phổ thông đối với các mô hình đến từ nhà Google điều này thực sự có ích đối với những người hay làm việc với tài liệu cực dài. Linh hoạt cho nhà phát triển Một điểm cộng nữa là các bạn có thể tùy chỉnh độ sâu khi AI suy nghĩ. Tùy vào việc bạn đang làm chatbot đơn giản hay cần phân tích dữ liệu phức tạp mà có thể điều chỉnh cho tối ưu nhất. An toàn hơn và đáng tin cậy hơn Google cũng đã tinh chỉnh rất nhiều để mô hình này trở nên thân thiện và thông minh hơn trong cách giao tiếp. Nó hạn chế tối đa việc từ chối câu hỏi một cách vô lý, đồng thời đảm bảo các tiêu chuẩn an toàn nghiêm ngặt, giúp mọi người yên tâm khi đưa vào sản phẩm thực tế. Lời kết Nhìn chung, Gemini 3.1 Flash-Lite là một bước tiến rất thực tế của Google. Nó tập trung vào đúng thứ mà các bạn cần: Tốc độ, hiệu quả và giá thành cạnh tranh. Nếu mọi người đang có ý định nâng cấp hệ thống giảm token cho những thứ không cần suy luận phức tạp, hãy thử qua bản Gemini 3.1 Flash-Lite này nhé!

Nam•

4 thg 3, 2026

Đọc thêm

Claude Opus 4.6 ra mắt tiếp tục nhấn mạnh vào adaptive thinking

Có thể có những người còn chưa kịp trải nghiệm Claude Opus 4.5 thì nay Anthropic đã cho ra mắt Claude Opus 4.6 rồi thật sự là một tốc độ quá nhanh. Giống như phiên bản tiền nhiệm, Anthropic tiếp tục nhấn mạnh vào sự chuyển mình của model từ trợ lý phản hồi sang một cộng tác viên chủ động. Những sự thay đổi mạnh mẽ trong cách AI hiểu và đồng hành cùng con người trong công việc hàng ngày được thể hiện rõ nét qua tính năng Adaptive Thinking (Tư duy thích ứng). [VIDEO:dPn3GBI8lII|Video giới thiệu Claude Opus 4.6|Video giới thiệu Claude Opus 4.6 của Anthropic] Khi Claude bắt đầu biết suy nghĩ trước khi thực hiện Thay đổi dễ nhận thấy nhất ở Claude Opus 4.6 chính là tính năng Adaptive Thinking. Trước đây, bạn thường phải đắn đo xem nên để AI suy nghĩ bao lâu để cân bằng giữa tốc độ và chất lượng.Tương tự như GPT 5.x, Claude tự quyết định việc chọn model trả lời dựa trên độ khó của yêu cầu. Với những việc vặt như đổi tên file hay định dạng văn bản, Claude sẽ phản hồi tức thì (mức Low). Nhưng khi gặp một bài toán kiến trúc phần mềm phức tạp, nó sẽ phân tích sâu hơn trước khi đưa ra câu trả lời cuối cùng nhằm đạt độ chính xác cao nhất. Điểm khác biệt so với GPT 5.x là người dùng vẫn có thể can thiệp dễ dàng vào thông số effort, chủ động giảm xuống mức thấp hơn để tiết kiệm thời gian và chi phí nếu thấy Claude đang "suy nghĩ quá nhiều" cho một việc đơn giản. Thực sự cộng đồng đang kêu rất nhiều về việc Claude Opus 4.6 đang bị bệnh suy nghĩ quá nhiều dẫn đến cực kì tốn token và lãng phí thời gian mong rằng Anthropic sẽ nhanh chóng khác phục điều này. Tiếp tục đứng đầu các bảng xếp hạngViệc Anthropic tung ra Claude Opus 4.6 với khả năng xử lý 1 triệu token (trong bản beta) giúp Claude đứng ngang hàng với Gemini 3 và Grok 4.1. Tuy nhiên, đối với người dùng bình thường, con số này có lẽ không quá quan trọng vì rất khó để dùng hết 200k token; tính năng này chủ yếu dành cho các đối tượng chuyên biệt. Lưu ý đối với Claude Opus 4.6, nếu yêu cầu vượt quá 200k token sẽ áp dụng mức phí $10/triệu token đầu vào.Ngay sau khi ra mắt, Claude Opus 4.6 đã tạo nên một cuộc "càn quét" diện rộng trên các bảng xếp hạng AI thế giới. Nó liên tục đánh bại các đối thủ như Gemini 3, Grok 4.1 và GPT 5.2 để chiếm lĩnh vị trí quán quân, từ khả năng lập trình agentic trên Terminal-Bench 2.0 cho đến các bài kiểm tra lý luận đa ngành phức tạp như Humanity’s Last Exam.Agent tiếp tục với khả năng tự vận hànhAnthropic cung cấp thêm Agent Teams (Nhóm tác nhân), giúp bạn không còn phải làm việc với một AI đơn lẻ. Đặc biệt trong lĩnh vực coding, Claude Opus 4.5 đã nhận được sự tin tưởng rất lớn vì viết code ít lỗi hơn đối thủ, và chắc chắn Claude Opus 4.6 sẽ còn làm tốt hơn thế.Trong các dự án lớn, Claude có thể tự phân chia thành các nhóm nhỏ làm việc song song: một nhóm lo giao diện, một nhóm lo logic hệ thống và một nhóm chuyên kiểm tra lỗi.Một ví dụ điển hình là nhóm gồm 16 Agent Claudeđã tự xây dựng một trình biên dịch C từ con số không, tạo ra hơn 100.000 dòng mã nguồn với rất ít sự can thiệp của con người. Dù chi phí cho những dự án tự trị hoàn toàn này có thể lên tới hàng chục ngàn USD, nhưng nó mở ra tương lai nơi AI có thể quản lý các dự án phức tạp từ đầu đến cuối.Tích hợp sâu vào văn phòng: Excel và PowerPointKhông dừng lại ở việc lập trình, Claude Opus 4.6 giờ đây đã tiến sâu vào những công cụ văn phòng quen thuộc:Trong Excel: Claude có thể lập kế hoạch trước khi thực hiện, tự động cấu trúc lại dữ liệu phi cấu trúc và xử lý các thay đổi đa bước chỉ trong một lần thực hiện.Trong PowerPoint: Claude hỗ trợ tạo toàn bộ slide từ mô tả, biết đọc layout, font chữ và phong cách thiết kế của công ty để đảm bảo bài thuyết trình luôn đúng bộ nhận diện thương hiệu.Sự an toàn và giảm thiểu ảo giácDù thông minh hơn, Claude Opus 4.6 vẫn duy trì các tiêu chuẩn an toàn nghiêm ngặt thông qua hệ thống Constitutional AI v3. Hệ thống này giúp mô hình đạt tỷ lệ hành vi sai lệch thấp nhất từ trước đến nay chỉ khoảng 1.8/10 điểm trong các bài kiểm tra về hành vi không phù hợp.Đặc biệt, Opus 4.6 đã khắc phục được điểm yếu từ chối nhầm các yêu cầu hợp lệ (over-refusals), mang lại trải nghiệm mượt mà hơn. Với cấu trúc tư duy mới, tình trạng lệch lạc logic (logic drift)trong các chuỗi suy luận đa bước cũng giảm đáng kể, giúp kết quả ổn định hơn trong các tác vụ phức tạp như mô hình hóa tài chính.Kết luận: Một sự đầu tư xứng đáng?Với mức giá giữ nguyên so với bản 4.5, Claude Opus 4.6 vẫn thực sự là một món hời trong việc tiến tới Agentic AI. Tuy nhiên, bạn vẫn nên coi nó là người đồng hành thông minh trong công việc hơn là để nó thực hiện mọi thứ hoàn toàn thay thế con người.

Nam•

11 thg 2, 2026

Đọc thêm

Google ra mắt Gemini 3: Mô hình AI thông minh nhất thế giới, bước tiến mới của Google tới AGI

Ngày 19-11-2025, Google đã chính thức giới thiệu Gemini 3, mô hình AI tiên tiến và thông minh nhất của mình, được thiết kế để giúp người dùng hiện thực hóa mọi ý tưởng. CEO Sundar Pichai đã tuyên bố Gemini 3 là "mô hình tốt nhất trên thế giới về khả năng hiểu đa phương thức". Mô hình này đánh dấu sự nâng cấp trong hành trình tiến tới trí tuệ nhân tạo tổng quát (AGI). Sự nâng cấp so với Gemini 2.5 như thế nào Như vậy sau 8 tháng kể từ khi ra mắt Gemini 2.5 thì Google đã quay lại với Gemini 3 Pro với sự nâng cấp về khả năng suy luận và hiểu ngữ cảnh, nó là sự kết hợp của tất cả các khả năng của các thế hệ Gemini trước lại với nhau. Càn quét các bảng xếp hạng Gemini 3 Pro với sự ra mắt có thể nói trong âm thầm không phải là một bước nhảy vọt nhưng vẫn có sức nặng khi đã đứng đầu rất nhiều bảng xếp hạng LLM (như LMArena,...) Tất nhiên nếu so với Gemini 2.5 thì Gemini 3 hoàn toàn vượt trội ở mọi tiêu chuẩn AI, như ở việc xác định ngữ cảnh và ý định đằng sau yêu cầu của người dùng, cho phép người dùng nhận được kết quả mong muốn với ít đoạn prompting hơn. Gemini 3 vượt trội so với Gemini thế hệ trước là bình thường nhưng điểm số của nó cũng vượt qua cả Claude 4.5 Sonnet và GPT 5.1 đơn cứ như việc Gemini 3 thể hiện khả năng suy luận ở cấp độ tiến sĩ (PhD-level reasoning) với điểm số cao trên các bài kiểm tra Humanity’s Last Exam là 37.5% không dùng công cụ vượt trội so với Claude Sonnet 4.5 (13.7%) và GPT 5.1 (26.5%) hoặc điểm GPQA Diamond (91.9%) cũng tiếp tục vượt lên với Claude Sonnet 4.5 (83.4%) và GPT 5.1 (88.1%) [GEMINI_3_BENCHMARK_CHART] Sức mạnh đa phương thức (Multimodality) Gemini 3 vẫn được tiếp nối với Gemini 2.5 ở khả năng tổng hợp thông tin liền mạch trên nhiều phương thức, bao gồm văn bản, hình ảnh, video, âm thanh và mã code. Tất nhiên là với bài kiểm tra đều tốt hơn Gemini 2.5 với 81% điểm MMMU-Pro (Gemini 2.5 là 68%) và 87.6% điểm Video-MMMU (Gemini 2.5 là 83.6% theo Google). Tình huống sử dụng thực tế như thế nào Sử dụng trong học tập và nghiên cứu: Gemini 3 có thể phân tích các bài báo học thuật hoặc bài giảng video dài và tạo mã code cho các hình ảnh trực quan tương tác hoặc thẻ ghi nhớ nhưng mình đã thử với video dài 4 tiếng thật sự Gemini 3 chế độ Fast sẽ không ghi nhớ được hết sẽ sai hoặc thiếu các chi tiết vì vậy bây giờ chưa nên tin tưởng hoàn toàn vào những thông tin mà Gemini 3 đưa ra mà hãy làm việc đó với Notebook LM. Trong lĩnh vực sáng tạo và lập kế hoạch: Gemini 3 hoàn toàn có thể phiên dịch và chuyển đổi các công thức nấu ăn viết tay bằng nhiều ngôn ngữ khác nhau thành sách dạy nấu ăn rất thích hợp để chia sẻ. Thậm chí theo Google nó hoàn toàn có thể viết một bài thơ nắm bắt được vật lý học của phản ứng tổng hợp hạt nhân, hoặc viết mã code để tạo hình ảnh trực quan về dòng plasma trong tokamak. Trong lĩnh vực phân tích video thể thao: Gemini 3 có thể phân tích video về trận đấu thể thao (như pickleball, quần vợt,...) xác định các kĩ năng cần cải thiện và tạo kế hoạch luyện tập. Gemini 3 Deep Think có chế độ suy nghĩ nâng cao không Google cũng giới thiệu Deep think mode một chế độ suy luận được tăng cường, để giúp giải quyết các vấn đề phức tạp hơn giống như Gemini 2.5 nhưng thật sự nó cho ra kết quả sẽ rất là lâu. Chế độ Deep Think đang được thử nghiệm và dự kiến sẽ sớm có mặt cho người dùng đăng ký Google AI Ultra trong những tuần tới vì vậy mình chưa có cơ hội trải nghiệm nhưng với người dùng bình thường thì chế độ Thinking cũng khá phù hợp. Khả năng cho nhà phát triển và tốc độ triển khai Khả năng coding Gemini 3 tốt như thế nào Gemini 3 có sự thể hiện rất tốt trong khả năng tạo mã code và xử lý các prompt phức tạp để tạo ra giao diện web tương tác và phong phú hơn nhưng thật sự vẫn về khả năng coding mình vẫn tin tưởng Claude Sonnet 4.5 hơn, bởi khi Gemini 3 gặp vấn đề với code sẽ không tập trung xử lý vấn đề đó mà càng sửa càng sai không giống như Claude Sonnet 4.5 điều này gây khó khăn so với những người không hiểu nhiều về code. Về tốc độ, khi sử dụng coding thì Gemini 3 nhanh hơn đáng kể so với Claude Sonnet 4.5 và GPT 5.1 đặc biệt nhanh gấp 2 lần so với Gemini 2.5 đối với các tác vụ nhỏ và trung bình. Để hỗ trợ phát triển các agent, Google cũng phát hành nền tảng phát triển agentic mới là Google Antigravity sử dụng khả năng suy luận và công cụ của Gemini 3 để biến AI thành một agent mới có khả năng hoạt động độc lập và tích cực. Bao giờ có thể sử dụng Gemini 3 Gemini 3 đang được triển khai trên toàn bộ hệ sinh thái của Google bắt đầu ngày 19 tháng 11 Ở khung chat Gemini thì Google đã cho chọn chế độ Fast và Thinking và Pro chứ không phải lựa chọn LLM như Gemini 2.5 nữa điều đó cũng sẽ cho thấy việc Google tự động hóa việc lựa chọn LLM cho các tác vụ từ đơn giản phức tạp giống như điều mà Open AI đã làm với GPT-5.1. Gemini 3 cũng lần đầu được tích hợp luôn trong Google Search với chế độ AI Mode. Chế độ AI này sử dụng Gemini 3 để kích hoạt các trải nghiệm giao diện người dùng tạo sinh (generative UI) mới, chẳng hạn như bố cục hình ảnh sống động và các công cụ tương tác, được tạo ra dựa trên truy vấn của người dùng. Một động thái theo ý kiến cá nhân là để cạnh tranh với Open Atlas ChatGPT Atlas và Perplexity Comet.

Liên•

19 thg 11, 2025

Đọc thêm