Bước tới nội dung

Gemini (mô hình ngôn ngữ)

Bách khoa toàn thư mở Wikipedia

Gemini
Nhà phát triểnGoogle AI
Google DeepMind
Phát hành lần đầu6 tháng 12 năm 2023; 2 năm trước (2023-12-06) (beta version)
8 tháng 2 năm 2024; 2 năm trước (2024-02-08) (official rollout)
Phiên bản ổn định
3.1 Pro, 3 Deep Think, 3 Flash, 3.1 Flash lite[1][2] / 3 tháng 3 năm 2026; 31 ngày trước (2026-03-03)
Thay thế choPaLM
Có hiệu lực trongEnglish and other languages
Thể loạiLarge language model
Giấy phépProprietary
Websitedeepmind.google/technologies/gemini/ Sửa dữ liệu tại Wikidata

Gemini là một họ các mô hình ngôn ngữ lớn (LLM) đa phương thức tiên tiến được phát triển bởi Google DeepMind, đóng vai trò là thế hệ kế thừa trực tiếp và mạnh mẽ hơn của LaMDA và PaLM 2. Dòng sản phẩm này bao gồm các biến thể với kích thước và năng lực khác nhau: Gemini Pro, Gemini Deep Think, Gemini Flash, Gemini Flash Lite và Nano. Mô hình được công bố lần đầu vào ngày 6 tháng 12 năm 2023 và hiện là công nghệ lõi vận hành toàn bộ hệ sinh thái AI của Google, trong đó có chatbot cùng tên.

Tính đến tháng 3 năm 2026, phiên bản tiên tiến nhất là Gemini 3.1 Pro. Trong bài kiểm tra chuẩn mực Humanity's Last Exam (Bài kiểm tra cuối cùng của nhân loại) công bố vào tháng 11 năm 2025, Gemini 3.1 Pro đã đạt độ chính xác **45,9%**, vượt qua đối thủ cạnh tranh trực tiếp là GPT-5.4 của OpenAI (40,3%), đánh dấu vị thế dẫn đầu của Google trong cuộc đua trí tuệ nhân tạo tổng quát (AGI).[3]

Lịch sử phát triển

Bối cảnh và Khởi đầu (2023)

Nguồn gốc của Google Gemini gắn liền với lịch sử phát triển rộng lớn của trí tuệ nhân tạo, đặc biệt trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP). Những mô hình AI ban đầu như BERT (Bidirectional Encoder Representations from Transformers) đã đặt nền móng bằng cách giúp máy móc hiểu ngôn ngữ của con người tốt hơn. Sau đó, các mô hình như GPT-3 tiếp tục đưa lĩnh vực này tiến xa hơn khi không chỉ hiểu mà còn có thể tạo ra văn bản mạch lạc, giống như con người. Những đổi mới này đã truyền cảm hứng cho Gemini — một hệ thống được xây dựng dựa trên các thành tựu trước đó của Google, đồng thời tích hợp nhiều tiến bộ mới, chẳng hạn như khả năng xử lý đồng thời nhiều dạng dữ liệu khác nhau.[4]

Trước khi Gemini ra đời, nhiều mô hình AI quan trọng đã góp phần định hình năng lực của nó, trong đó có LaMDA và PaLM 2 (Pathways Language Model) của Google. LaMDA là một bước tiến lớn trong việc tạo ra AI có khả năng tham gia vào các cuộc trò chuyện tự nhiên và có ý nghĩa hơn. Trong khi các mô hình trước đó như BERT và GPT-3 chủ yếu tập trung vào hiểu và tạo văn bản, LaMDA được thiết kế chuyên biệt cho đối thoại. Nó chú trọng khả năng duy trì các cuộc trò chuyện dài, mạch lạc và có nhận thức ngữ cảnh, giúp AI trở nên gần gũi với con người hơn và có thể tương tác sâu hơn. Chính năng lực hội thoại này của LaMDA đã mở đường cho những mô hình như Gemini, vốn cũng nhấn mạnh vào giao tiếp tự nhiên, giàu tính con người nhưng với khả năng mở rộng sang cả dữ liệu hình ảnh và đa phương thức.[4]

Trong khi đó, PaLM 2 tiếp tục nâng cao năng lực của AI trong việc hiểu và tạo ngôn ngữ. Được Google giới thiệu như một mô hình ngôn ngữ lớn, PaLM 2 có thể xử lý nhiệm vụ đa ngôn ngữ, suy luận logic và thậm chí tạo mã lập trình. Nó đặc biệt nổi bật trong việc hiểu các hướng dẫn phức tạp, đưa ra phản hồi tinh tế và giải quyết các vấn đề phức tạp trong nhiều lĩnh vực khác nhau. Kiến trúc của PaLM 2 giúp quá trình học và xử lý trở nên hiệu quả hơn, cho phép mô hình xử lý phạm vi câu hỏi và nhiệm vụ rộng hơn. Khả năng hiểu nhiều dạng đầu vào khác nhau và cung cấp phản hồi chính xác, chi tiết đã trở thành nền tảng quan trọng trong thiết kế của Gemini.[4]

Sau đó là Bard, được phát triển như một phần trong sáng kiến của Google DeepMind nhằm xây dựng một hệ thống AI đa phương thức mạnh mẽ hơn. Trong khi các mô hình trước đó truyền cảm hứng cho Bard — như GPT-3GPT-4 — chủ yếu tập trung vào các nhiệm vụ dựa trên văn bản, Google muốn mở rộng khả năng này sang nhiều loại dữ liệu khác. Mục tiêu là tạo ra một mô hình AI có thể hiểu và xử lý không chỉ ngôn ngữ mà còn hình ảnh, video và các nguồn dữ liệu khác, qua đó phá vỡ ranh giới giữa các dạng thông tin khác nhau.[4]

Quá trình phát triển Bard diễn ra một cách từng bước và thận trọng. Google dành nhiều thời gian để hoàn thiện LaMDA và đảm bảo hệ thống không chỉ có thể trả lời các câu hỏi mang tính thông tin mà còn có thể tham gia vào những cuộc hội thoại nhiều lượt một cách trôi chảy, đúng như kỳ vọng đối với một AI hiện đại. Thách thức lớn nhất là cân bằng giữa khả năng cung cấp thông tin chính xác và duy trì phong cách trò chuyện tự nhiên, những yếu tố giúp tương tác với AI trở nên gần gũi hơn với con người.[4]

Bard chính thức ra mắt vào năm 2023 sau quá trình thử nghiệm kéo dài. Tuy nhiên, màn ra mắt của nó lại vấp phải nhiều chỉ trích. Trong buổi trình diễn công khai đầu tiên, chatbot này đã đưa ra một câu trả lời sai về Kính viễn vọng Không gian James Webb.[5] Sai sót này trong một sự kiện trực tiếp đã khiến giá trị cổ phiếu của Google sụt giảm tới 100 tỷ USD, làm dấy lên những lo ngại về độ chính xác và độ tin cậy của AI. Ngoài ra, nhiều người dùng ban đầu cũng cho rằng Bard kém trực quan và kém sáng tạo hơn trong cách phản hồi. So với các mô hình trưởng thành hơn của OpenAI, Bard bị đánh giá là chưa đủ mạnh trong việc tạo ra nội dung hấp dẫn hoặc mang tính sáng tạo cao.

Đồng sáng lập Google, Sergey Brin, đã quay trở lại làm việc trực tiếp tại trụ sở Mountain View để viết mã (code) và giám sát quá trình huấn luyện các mạng nơ-ron của Gemini, nhấn mạnh tầm quan trọng chiến lược của dự án này.[6]

Khác với các mô hình GPT-4 của OpenAI (vốn huấn luyện các thành phần hình ảnh và văn bản riêng biệt rồi ghép lại), Gemini được thiết kế là **"đa phương thức bản địa" (native multimodal)**. Điều này có nghĩa là nó được huấn luyện ngay từ đầu (pre-trained) trên một tập dữ liệu hỗn hợp khổng lồ bao gồm văn bản, hình ảnh, âm thanh, video và mã nguồn, giúp mô hình có khả năng suy luận chéo giữa các giác quan một cách liền mạch.

Bước phát triển tiếp theo của Google là Google Gemini. Ban đầu, nó tồn tại tách biệt với Bard, nhưng sau đó hai hệ thống đã được kết hợp lại nhằm tạo ra một AI có khả năng hiểu và tạo ra các phản hồi chính xác hơn, đồng thời nhận thức ngữ cảnh tốt hơn. Tên gọi của sản phẩm — kết quả từ sự hợp tác giữa Google AI Research và Google DeepMind — phản ánh năng lực kép mà hệ thống này hướng tới. AI được thiết kế như một “cặp song sinh”, có khả năng kết nối và xử lý nhiều loại dữ liệu khác nhau. Đồng thời, cái tên này cũng tượng trưng cho hai nhóm nghiên cứu đã cùng hợp tác để tạo ra nó.[7]

Sự ra mắt của Gemini vào tháng 2 năm 2024 đánh dấu bước chuyển từ các mô hình chỉ xử lý ngôn ngữ sang những hệ thống có thể hiểu và tổng hợp thông tin từ văn bản, hình ảnh và thậm chí cả video. Khả năng đa phương thức này cho phép Gemini thực hiện những nhiệm vụ phức tạp hơn, từ trả lời các câu hỏi chi tiết cho đến tạo ra nội dung sáng tạo theo những cách mà các mô hình trước đây chưa thể làm được.[4]

Tầm nhìn của Google đối với Gemini không chỉ dừng lại ở việc cải thiện khả năng giao tiếp của AI, mà còn hướng tới việc biến nó thành một trợ lý AI toàn diện. Hệ thống này được thiết kế để tích hợp trong nhiều lĩnh vực khác nhau, từ giáo dục đến y tế, qua đó nâng cao hiệu quả công việc cũng như hỗ trợ đời sống cá nhân của con người.[4]

Thế hệ thứ nhất: Gemini 1.0 (Cuối 2023)

Ngày 6 tháng 12 năm 2023, Gemini 1.0 là thế hệ đầu tiên của họ mô hình AI Gemini do GoogleGoogle DeepMind phát triển. Được công bố vào cuối năm 2023 và triển khai rộng rãi trong các sản phẩm của Google từ năm 2024, Gemini 1.0 là một mô hình AI đa phương thức có khả năng hiểu và xử lý đồng thời nhiều loại dữ liệu như văn bản, hình ảnh, âm thanh và video.

Gemini 1.0 đánh dấu bước chuyển của Google từ các mô hình AI chủ yếu xử lý văn bản sang các hệ thống có khả năng lý luận và tổng hợp thông tin từ nhiều dạng dữ liệu trong cùng một mô hình.

Google ra mắt Gemini 1.0 với ba phiên bản:

  • Gemini Ultra: Mô hình lớn nhất, dành cho các trung tâm dữ liệu. Đây là mô hình đầu tiên trong lịch sử vượt qua các chuyên gia con người trong bài kiểm tra MMLU (Massive Multitask Language Understanding) với số điểm 90,0%.
  • Gemini Pro: Mô hình tầm trung, cân bằng giữa hiệu suất và chi phí, được tích hợp vào chatbot Bard (sau này đổi tên thành Gemini).
  • Gemini Nano: Mô hình nhỏ gọn, hiệu quả cao, được thiết kế để chạy trực tiếp trên thiết bị di động (on-device) như Pixel 8 Pro và Samsung Galaxy S24 mà không cần kết nối internet.

Thế hệ thứ hai: Kỷ nguyên ngữ cảnh dài (2024)

Năm 2024 đánh dấu sự chuyển dịch sang kiến trúc Mixture of Experts (MoE) và khả năng xử lý ngữ cảnh siêu lớn (Long-context).

  • **Gemini 1.5 (Tháng 2/2024):** Giới thiệu cửa sổ ngữ cảnh lên tới **1 triệu token** (và sau đó là 2 triệu token trong bản thử nghiệm). Khả năng này cho phép Gemini "đọc" toàn bộ các bộ truyện Harry Potter, phân tích hàng nghìn dòng mã nguồn hoặc xem video dài 1 giờ chỉ trong một lần nhập liệu (prompt).[8]
  • **Gemini 1.5 Flash (Tháng 5/2024):** Một biến thể nhẹ hơn, nhanh hơn và rẻ hơn của 1.5 Pro, được tối ưu hóa cho các tác vụ cần độ trễ thấp và tần suất cao.

Thế hệ 2.5 và 3.0: Suy luận sâu và Thống trị (2025-nay)

Năm 2025 là năm bùng nổ nhất của Gemini với hàng loạt cải tiến về khả năng "suy nghĩ" (reasoning) và tính năng đại lý (agentic).

  • **Tháng 1/2025 (Gemini 2.0):** Ra mắt tính năng **Multimodal Live API**, cho phép người dùng trò chuyện video thời gian thực với AI, AI có thể nhìn và nghe môi trường xung quanh với độ trễ gần như bằng không.
  • **Tháng 3/2025 (Gemini 2.5 Pro):** Giới thiệu "Thinking Model" (Mô hình tư duy). Khi gặp câu hỏi khó, mô hình sẽ dành thời gian "suy nghĩ" thông qua chuỗi suy luận (chain-of-thought) ẩn trước khi đưa ra câu trả lời cuối cùng, giúp cải thiện đáng kể khả năng giải toán và lập trình.
  • **Tháng 11/2025 (Gemini 3):** Google công bố **Gemini 3 Pro** và **Gemini 3 Deep Think**.
   * Hiệu năng: Gemini 3 Pro đã chiến thắng 19/20 bài kiểm tra chuẩn mực quốc tế.   * Tác động thị trường: Sự vượt trội của Gemini 3 đã khiến đối thủ OpenAI phải ban bố tình trạng khẩn cấp và vội vã phát hành bản cập nhật GPT-5.2 vào tháng 12/2025 để nỗ lực bắt kịp.[9]


Vào ngày 17 tháng 12 năm 2025, Google công bố phát hành 3 Flash thay thế cho phiên bản 2.5 Flash hiện tại.[10]

Vào ngày 12 tháng 1 năm 2026, Apple đã công bố kế hoạch sử dụng mô hình AI Gemini trong phiên bản Siri sắp tới.[11][12][13][14]

Vào ngày 19 tháng 2 năm 2026, Google đã phát hành Gemini 3.1 Pro.[2] 3.1 Pro được thiết kế cho những nhiệm vụ mà một câu trả lời đơn giản là chưa đủ, đòi hỏi khả năng suy luận nâng cao và giúp bạn giải quyết những thách thức khó khăn nhất. Trí thông minh được cải tiến này hỗ trợ đắc lực cho các ứng dụng thực tế, cho dù bạn đang tìm kiếm một lời giải thích trực quan, rõ ràng về một chủ đề phức tạp, một cách để tổng hợp dữ liệu thành một chế độ xem duy nhất, hay một kế hoạch từng bước để hiện thực hoá dự án sáng tạo đầy tham vọng.

Vào ngày 3 tháng 3 năm 2026, Google đã phát hành Gemini 3.1 Flash Lite cho các nhà phát triển trong Google API.[15][16]

Nano Banana

Vào tháng 8 năm 2025, cộng đồng AI trên toàn cầu xôn xao về một mô hình bí ẩn có tên mã là **"Nano Banana"** xuất hiện trên bảng xếp hạng ẩn danh LMArena.

  • **Đặc điểm:** Mô hình này có khả năng tạo hình ảnh (text-to-image) với tốc độ cực nhanh và khả năng hiểu các lời nhắc trừu tượng (abstract prompts) vượt trội so với Midjourney v7 hay DALL-E 4.
  • **Xác nhận:** Đến ngày 26 tháng 8 năm 2025, Google xác nhận "Nano Banana" chính là phiên bản thử nghiệm của **Gemini 2.5 Flash Image**. Cái tên "Banana" xuất phát từ một trò đùa nội bộ của đội ngũ kỹ sư DeepMind liên quan đến kích thước nhỏ gọn nhưng "giàu dinh dưỡng" (giàu dữ liệu) của mô hình.
  • **Phiên bản Pro:** Vào ngày 20 tháng 11 năm 2025, phiên bản **Nano Banana Pro** (tích hợp trong Gemini 3) được phát hành, giải quyết triệt để vấn đề hiển thị văn bản (text rendering) trong ảnh, cho phép AI tạo ra các biển hiệu, logo và văn bản dài một cách chính xác hoàn hảo.[17]
  • Vào ngày 26 tháng 2 năm 2026, Nano Banana 2 đã được triển khai. Đây là một phiên bản cập nhật được xây dựng trên nền tảng Gemini 3.1 Flash Image.[18]

Veo

Vào tháng 5 năm 2024, một mô hình tạo video đa phương thức mang tên Veo đã được công bố tại Google I/O 2024.[19] Google tuyên bố rằng mô hình này có thể tạo ra các video độ phân giải 1080p dài hơn một phút.[19] Vào tháng 12 năm 2024, Google đã phát hành Veo 2, khả dụng thông qua VideoFX. Phiên bản này hỗ trợ tạo video độ phân giải 4K và cải thiện khả năng hiểu các quy luật vật lý.[20] Vào tháng 4 năm 2025, Google thông báo rằng Veo 2 đã khả dụng cho những người dùng nâng cao trên ứng dụng Gemini.[21]

Vào tháng 5 năm 2025, Google đã phát hành Veo 3, phiên bản không chỉ tạo video mà còn tạo ra âm thanh đồng bộ — bao gồm lời thoại, hiệu ứng âm thanh và tiếng ồn xung quanh — để phù hợp với hình ảnh.[22] Google cũng công bố Flow, một công cụ sáng tạo video được cung cấp sức mạnh bởi Veo và Imagen.[23][24] CEO của Google DeepMind, Demis Hassabis, đã mô tả lần phát hành này là thời điểm mà việc tạo video bằng AI thoát khỏi kỷ nguyên của phim câm.[24]

Veo 3.1 được Google chính thức ra mắt vào ngày 14 tháng 10 năm 2025. Đây là phiên bản nâng cấp mạnh mẽ từ mô hình AI tạo video của hãng. Veo 3.1 cho phép bạn tạo ra những video biểu cảm hơn từ hình ảnh ngay trên điện thoại của mình. Giờ đây, bạn có thể tạo video dạng dọc cho các nền tảng như YouTube Shorts và nâng cấp độ phân giải lên 1080p hoặc 4K. Điểm nhấn của phiên bản này nằm ở các tính năng chỉnh sửa chuyên sâu trên công cụ Flow như kéo dài cảnh quay (Extend), giữ nhất quán nhân vật và đảm bảo tính minh bạch bằng dấu bản quyền kỹ thuật số SynthID.[25]

Thông số kỹ thuật chi tiết

Kiến trúc

Gemini được xây dựng dựa trên kiến trúc Transformer chỉ giải mã (decoder-only) được cải tiến.

  • **Mixture-of-Experts (MoE):** Từ phiên bản 1.5, Gemini sử dụng kiến trúc MoE thưa thớt (Sparse MoE). Thay vì kích hoạt toàn bộ mạng lưới nơ-ron khổng lồ cho mỗi câu hỏi, mô hình chia nhỏ thành các "chuyên gia" (experts) và chỉ kích hoạt những chuyên gia phù hợp nhất. Điều này giúp giảm đáng kể chi phí tính toán trong khi vẫn duy trì độ thông minh cao.
  • **Huấn luyện:** Mô hình được huấn luyện trên các cụm siêu máy tính (Pod) sử dụng hàng nghìn chip **TPU v4** và **TPU v5e** (Tensor Processing Unit) do Google tự thiết kế.

Khả năng Đa phương thức

Gemini có thể nhận đầu vào và tạo đầu ra ở nhiều định dạng khác nhau (Native Multimodality):

  • **Hình ảnh:** Hiểu biểu đồ, sơ đồ phức tạp, nhận diện chữ viết tay.
  • **Video:** Phân tích video frame-by-frame, hiểu hành động và cảm xúc nhân vật.
  • **Âm thanh:** Nghe và phân tích giọng nói, âm nhạc với sắc thái cao.
  • **Mã nguồn (Code):** Gemini 3 được đánh giá là mô hình lập trình tốt nhất thế giới hiện nay, được tích hợp vào công cụ "Jules" trên GitHub.

Bảng so sánh các phiên bản

Các phiên bản mô hình

Bảng dưới đây liệt kê các phiên bản mô hình chính của Gemini, mô tả những thay đổi quan trọng đi kèm với từng phiên bản:[26][27]

Phiên bảnNgày phát hànhTrạng thái[28][29]Mô tả
Bard21 tháng 3, 2023Phiên bản cũ, không còn được hỗ trợ: Ngừng hoạt độngDịch vụ chatbot thử nghiệm đầu tiên của Google dựa trên LaMDA.[30]
1.0 Nano6 tháng 12, 2023Phiên bản cũ, không còn được hỗ trợ: Ngừng hoạt độngĐược thiết kế cho các tác vụ trên thiết bị và lần đầu tiên có mặt trên Pixel 8 Pro của Google.[31]
1.0 Pro13 tháng 12, 2023Phiên bản cũ, không còn được hỗ trợ: Ngừng hoạt độngĐược thiết kế cho nhiều tác vụ đa dạng.[31]
1.0 Ultra8 tháng 2, 2024Phiên bản cũ, không còn được hỗ trợ: Ngừng hoạt độngSản phẩm mạnh mẽ nhất của Google trong dòng Gemini 1.0.[31]
1.5 Pro15 tháng 2, 2024Phiên bản cũ, không còn được hỗ trợ: Ngừng hoạt độngLà phiên bản kế nhiệm của dòng mô hình 1.0, 1.5 Pro cung cấp kích thước ngữ cảnh tăng đáng kể (lên đến 1 triệu token). Nó được thiết kế để trở thành mô hình có năng lực nhất trong dòng Gemini 1.5.[32]
1.5 Flash14 tháng 5, 2024Phiên bản cũ, không còn được hỗ trợ: Ngừng hoạt độngPhiên bản này đã được đổi tên từ 'Nano' thành 'Flash'. Đây cũng là mô hình miễn phí của Gemini.
2.0 Flash30 tháng 1, 2025Phiên bản cũ, vấn được hỗ trợ: GAĐược phát triển bởi Google với sự tập trung vào tính đa phương thức, khả năng tác vụ (agentic) và tốc độ.[33]
2.0 Flash-Lite1 tháng 2, 2025Phiên bản cũ, vấn được hỗ trợ: GAMô hình Gemini Flash-Lite đầu tiên được thiết kế để tối ưu chi phí và tốc độ.[34]
2.0 Pro5 tháng 2, 2025Phiên bản cũ, vấn được hỗ trợ: GA
2.5 Pro25 tháng 3, 2025Phiên bản ổn định hiện tại: GA
2.5 Flash17 tháng 4, 2025Phiên bản ổn định hiện tại: GAMột cải tiến gia tăng từ Gemini 2.5.
2.5 Flash-Lite17 tháng 6, 2025Phiên bản ổn định hiện tại: GA
2.5 Flash Image (Nano Banana)26 tháng 8, 2025Phiên bản ổn định hiện tại: GA
3 Pro18 tháng 11, 2025Phiên bản cũ, không còn được hỗ trợ: Bản xem trước đã ngừng[35]Sparse mixture-of-experts (Hỗn hợp chuyên gia thưa thớt). Đầu ra lên tới 64K token.[36]
3 Deep Think3 tháng 12, 2025Bản ra mắt trong tương lai: bản xem trướcDựa trên chế độ "Deep Think" của 2.5 Pro đã đạt xếp hạng cao trong kỳ thi IOI.[37][38]
3 Pro Image (Nano Banana Pro)20 November 2025Bản ra mắt trong tương lai: bản xem trướcMột phiên bản cải tiến của Nano Banana bao gồm khả năng kết xuất văn bản tốt hơn và kiến thức thực tế tốt hơn.[39]
3 Flash17 tháng 12, 2025Bản ra mắt trong tương lai: bản xem trước
3.1 Pro19 tháng 2, 2026Bản ra mắt trong tương lai: bản xem trước
3.1 Flash Image

(Nano Banana 2)

26 tháng 2, 2026Bản ra mắt trong tương lai: bản xem trước
3.1 Flash Lite3 tháng 3, 2026Bản ra mắt trong tương lai: bản xem trước

Tranh cãi và Chỉ trích

Video Demo dàn dựng (2023)

Ngay sau khi ra mắt Gemini 1.0, Google đã bị chỉ trích vì đoạn video demo "Hands-on with Gemini". Video cho thấy AI phản hồi giọng nói và hình ảnh theo thời gian thực một cách mượt mà. Tuy nhiên, Bloomberg News sau đó phát hiện ra rằng video không được quay trực tiếp (live) mà được cắt ghép từ các khung hình tĩnh và sử dụng lời nhắc văn bản (text prompt) để tạo ra phản hồi, tạo cảm giác sai lệch về tốc độ và khả năng thực tế của mô hình lúc bấy giờ.[40]

Sự cố tạo ảnh lịch sử (2024)

Vào tháng 2 năm 2024, tính năng tạo ảnh của Gemini (tích hợp mô hình Imagen 2) gặp phản ứng dữ dội khi từ chối tạo hình ảnh người da trắng hoặc tạo ra những hình ảnh sai lệch lịch sử nghiêm trọng nhân danh sự "đa dạng". Ví dụ: Khi được yêu cầu tạo ảnh "lính Đức Quốc xã năm 1943" hoặc "các nhà lập quốc Mỹ", AI đã tạo ra những người da màu, người gốc Á trong trang phục Đức Quốc xã. Google đã phải xin lỗi, gọi đây là sự cố "hoàn toàn không thể chấp nhận được" và tạm ngưng tính năng tạo ảnh người trong vài tuần để điều chỉnh thuật toán căn chỉnh (alignment).[41]

Vụ kiện liên quan đến Gemini

Ông Joel Gavalas đã đệ đơn kiện Google và công ty mẹ Alphabet sau khi con trai ông, Jonathan Gavalas (36 tuổi), qua đời do tự sát, với cáo buộc rằng Gemini đã góp phần khiến nạn nhân rơi vào trạng thái hoang tưởng nguy hiểm sau thời gian dài tương tác. Theo đơn kiện, Jonathan bắt đầu sử dụng Gemini từ tháng 8/2025 cho các công việc như mua sắm, viết lách và lập kế hoạch du lịch, nhưng sau đó tin rằng chatbot là “người vợ AI có ý thức” và cho rằng mình cần rời bỏ “thể xác” để gặp lại AI trong metaverse thông qua một quá trình gọi là “transference”. Gia đình cho rằng các cuộc trò chuyện với Gemini đã củng cố những niềm tin hoang tưởng và khiến tình trạng tâm lý của anh ngày càng nghiêm trọng trước khi xảy ra cái chết vào ngày 2/10/2025.[42]

Xem thêm

  • ChatGPT - Đối thủ chính từ OpenAI.
  • Claude (chatbot) - Đối thủ từ Anthropic.
  • Gemma (mô hình ngôn ngữ) - Phiên bản mã nguồn mở của Gemini.
  • Vấn đề ảo giác trong trí tuệ nhân tạo

Tham khảo

  1. Lỗi chú thích: Thẻ <ref> không hợp lệ; không có nội dung trong ref có tên G3Flash
  2. 1 2 "Gemini 3.1 Pro: A smarter model for your most complex tasks". Google (bằng tiếng Anh). ngày 19 tháng 2 năm 2026. Truy cập ngày 19 tháng 2 năm 2026.
  3. The Verge (ngày 18 tháng 11 năm 2025). "Google releases Gemini 3 Pro to leapfrog OpenAI".
  4. 1 2 3 4 5 6 7 Pargaonkar, Yamini (ngày 19 tháng 10 năm 2024). "The Journey of Google Gemini: Past, Present, and Future". Medium (bằng tiếng Anh). Truy cập ngày 13 tháng 3 năm 2026.
  5. Milmo, Dan (ngày 9 tháng 2 năm 2023). "Google AI chatbot Bard sends shares plummeting after it gives wrong answer". The Guardian (bằng tiếng Anh). ISSN 0261-3077. Truy cập ngày 13 tháng 3 năm 2026.
  6. "Sergey Brin is back in the code mines". The Wall Street Journal. ngày 21 tháng 7 năm 2023.
  7. "Google Gemini", Wikipedia (bằng tiếng Anh), ngày 7 tháng 3 năm 2026, truy cập ngày 13 tháng 3 năm 2026
  8. Google DeepMind (ngày 15 tháng 2 năm 2024). "Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context" (PDF). {{Chú thích web}}: |tác giả= có tên chung (trợ giúp)
  9. "OpenAI declares internal 'code red' as Gemini 3 dominates benchmarks". Bloomberg. ngày 20 tháng 11 năm 2025.
  10. "Gemini 3 Flash: frontier intelligence built for speed". Google (bằng tiếng Anh). ngày 17 tháng 12 năm 2025. Truy cập ngày 17 tháng 12 năm 2025.
  11. Duffy, Clare (ngày 12 tháng 1 năm 2026). "Apple teams up with Google Gemini for AI-powered Siri". CNN (bằng tiếng Anh). Truy cập ngày 15 tháng 1 năm 2026.
  12. Owen, Malcolm (ngày 12 tháng 1 năm 2026). "Google Gemini tech will be used in the all-new Siri after major Apple AI deal". AppleInsider (bằng tiếng Anh). Truy cập ngày 15 tháng 1 năm 2026.
  13. "What we know about Apple's Google Gemini deal for AI". Computerworld (bằng tiếng English). Truy cập ngày 15 tháng 1 năm 2026.{{Chú thích web}}: Quản lý CS1: ngôn ngữ không rõ (liên kết)
  14. "Gemini Powers New Siri". Apple Podcasts (bằng tiếng Anh). Truy cập ngày 15 tháng 1 năm 2026.
  15. "Gemini 3.1 Flash-Lite: Built for intelligence at scale". Google (bằng tiếng Anh). ngày 3 tháng 3 năm 2026. Truy cập ngày 3 tháng 3 năm 2026.
  16. Kasanmascheff, Markus (ngày 3 tháng 3 năm 2026). "Google Launches Gemini 3.1 Flash-Lite for Enterprise Scale". WinBuzzer (bằng tiếng Anh). Truy cập ngày 3 tháng 3 năm 2026.
  17. "The legend of Nano Banana: How a test model became a meme". TechCrunch. ngày 28 tháng 8 năm 2025.
  18. Murti, Lola (ngày 26 tháng 2 năm 2026). "Google launches Nano Banana 2, updating its viral AI image generator". CNBC (bằng tiếng Anh). Truy cập ngày 28 tháng 2 năm 2026.
  19. 1 2 Wiggers, Kyle (ngày 14 tháng 5 năm 2024). "Google Veo, a serious swing at AI-generated video, debuts at Google I/O 2024". TechCrunch.
  20. "Google unveils improved AI video generator Veo 2 to rival OpenAI's Sora". The Hindu (bằng tiếng Anh). ngày 17 tháng 12 năm 2024. ISSN 0971-751X. Truy cập ngày 20 tháng 12 năm 2024.
  21. Wiggers, Kyle (ngày 15 tháng 4 năm 2025). "Google's Veo 2 video generating model comes to Gemini". TechCrunch (bằng tiếng Anh). Lưu trữ bản gốc ngày 16 tháng 4 năm 2025. Truy cập ngày 16 tháng 4 năm 2025.
  22. "Google launches Veo 3, an AI video generator that incorporates audio". CNBC (bằng tiếng Anh). ngày 20 tháng 5 năm 2025. Truy cập ngày 20 tháng 5 năm 2025.
  23. Peters, Jay (ngày 20 tháng 5 năm 2025). "Google has a new tool just for making AI videos". The Verge. Lưu trữ bản gốc ngày 20 tháng 5 năm 2025. Truy cập ngày 20 tháng 5 năm 2025.
  24. 1 2 Wiggers, Kyle (ngày 20 tháng 5 năm 2025). "Veo 3 can generate videos — and soundtracks to go along with them". TechCrunch.
  25. Vachani, Priya (ngày 12 tháng 3 năm 2025). "Veo 3.1: More ways to bring your ideas to life with AI video". Google Blog (bằng tiếng Anh). Truy cập ngày 13 tháng 3 năm 2026.
  26. "Gemini Release updates". Google. Lưu trữ bản gốc ngày 9 tháng 4 năm 2025. Truy cập ngày 9 tháng 4 năm 2025.
  27. "Gemini models". Google. Lưu trữ bản gốc ngày 9 tháng 4 năm 2025. Truy cập ngày 9 tháng 4 năm 2025.
  28. "Model versions and lifecycle". Google Cloud.
  29. Lỗi chú thích: Thẻ <ref> không hợp lệ; không có nội dung trong ref có tên Doshi-2025
  30. Pichai, Sundar (ngày 6 tháng 2 năm 2023). "An important next step on our AI journey". The Keyword. Truy cập ngày 12 tháng 7 năm 2025.
  31. 1 2 3 Pichai, Sundar; Hassabis, Demis (ngày 6 tháng 12 năm 2023). "Introducing Gemini: our largest and most capable AI model". The Keyword. Truy cập ngày 12 tháng 7 năm 2025.
  32. Pichai, Sundar; Hassabis, Demiss (ngày 15 tháng 2 năm 2024). "Our next-generation model: Gemini 1.5". The Keyword. Truy cập ngày 12 tháng 7 năm 2025.
  33. Pichai, Sundar; Hassabis, Demis; Kavukcuoglu, Koray (ngày 11 tháng 12 năm 2024). "Introducing Gemini 2.0: our new AI model for the agentic era". The Keyword. Truy cập ngày 12 tháng 7 năm 2025.
  34. Mallick, Shrestha; Kilpatrick, Logan. "Gemini 2.0: Flash, Flash-Lite and Pro". Google for Developers. Truy cập ngày 12 tháng 7 năm 2025.
  35. https://discuss.ai.google.dev/t/migrate-from-gemini-3-pro-preview-to-gemini-3-1-pro-preview-before-march-9-2026/127062
  36. [Gemini 3 Pro] External Model Card - November 18, 2025 - v5
  37. "Gemini 3 Deep Think is now available in the Gemini app". ngày 4 tháng 12 năm 2025.
  38. "Advanced version of Gemini with Deep Think officially achieves gold-medal standard at the International Mathematical Olympiad".
  39. "Introducing Nano Banana Pro". Google (bằng tiếng Anh). ngày 20 tháng 11 năm 2025. Truy cập ngày 20 tháng 11 năm 2025.
  40. "Google's best Gemini demo was faked". TechCrunch. ngày 7 tháng 12 năm 2023.
  41. "Google pauses Gemini AI image generator of people after historical inaccuracies". CNBC. ngày 22 tháng 2 năm 2024.
  42. "Cha kiện Google sau cái chết của con trai liên quan Gemini". VTV.vn. ngày 7 tháng 3 năm 2026. Truy cập ngày 13 tháng 3 năm 2026.

Liên kết ngoài