GPT (mô hình ngôn ngữ)

Generative pre-trained transformer (GPT) là một loại mô hình ngôn ngữ lớn (LLM)[1][2][3] được sử dụng rộng rãi trong các chatbot AI tạo sinh.[4][5] GPT dựa trên một kiến trúc học sâu gọi là transformer. Chúng được huấn luyện trước trên các bộ dữ liệu lớn gồm nội dung không gắn nhãn, và có khả năng tạo ra nội dung mới.[2][3]
OpenAI là tổ chức đầu tiên áp dụng phương pháp tiền huấn luyện sinh vào kiến trúc transformer, giới thiệu mô hình GPT-1 vào năm 2018.[6] Kể từ đó, công ty đã phát hành nhiều mô hình GPT lớn hơn. Chatbot ChatGPT, được phát hành vào cuối năm 2022 (sử dụng GPT-3.5), sau đó là sự xuất hiện của nhiều chatbot cạnh tranh sử dụng các generative pre-trained transformer riêng để tạo văn bản, như Gemini, DeepSeek và Claude.
GPT chủ yếu được dùng để tạo văn bản, nhưng cũng có thể được huấn luyện để tạo ra các loại dữ liệu khác. Ví dụ, GPT-4o có thể xử lý và tạo ra văn bản, hình ảnh và âm thanh. Để cải thiện hiệu suất trên các tác vụ phức tạp, một số GPT, như OpenAI o3, phân bổ nhiều thời gian tính toán hơn để phân tích vấn đề trước khi tạo ra đầu ra, và được gọi là mô hình suy luận. Năm 2025, GPT-5 được phát hành với một bộ định tuyến tự động chọn giữa việc dùng mô hình nhanh hơn hay mô hình suy luận chậm hơn tùy theo tác vụ được cung cấp.
Bối cảnh
Trong thập niên 2010, các thuật toán học máy được cải tiến, máy tính mạnh hơn và lượng tài liệu được số hóa tăng lên đã tạo điều kiện cho một làn sóng bùng nổ AI.[7]
Tách biệt với điều đó, khái niệm generative pre-training (GP) từ lâu đã là một kỹ thuật trong machine learning. GP là một dạng self-supervised learning trong đó mô hình trước tiên được huấn luyện trên một bộ dữ liệu lớn không gắn nhãn (bước "pre-training") để học cách tạo ra các điểm dữ liệu. Mô hình được huấn luyện trước này sau đó được điều chỉnh cho một tác vụ cụ thể bằng cách sử dụng bộ dữ liệu có gắn nhãn (bước "fine-tuning").[8]
Kiến trúc transformer cho học sâu là công nghệ cốt lõi của GPT. Được phát triển bởi các nhà nghiên cứu tại Google, nó được giới thiệu trong bài báo "Attention Is All You Need", phát hành vào ngày 12 tháng 6 năm 2017. Kiến trúc transformer đã giải quyết nhiều vấn đề hiệu năng liên quan đến các thiết kế recurrent neural network (RNN) cũ hơn cho natural language processing (NLP). Việc kiến trúc này sử dụng cơ chế attention cho phép mô hình xử lý toàn bộ chuỗi văn bản cùng lúc, từ đó cho phép huấn luyện các mô hình lớn hơn và tinh vi hơn nhiều. Kể từ năm 2017, các hệ thống NLP dựa trên transformer hiện có đã có khả năng xử lý, khai phá, tổ chức, kết nối, đối chiếu và tóm tắt văn bản cũng như trả lời câu hỏi từ đầu vào văn bản.[2]
Mô hình nền tảng
Một mô hình nền tảng là một mô hình AI được huấn luyện trên dữ liệu rộng ở quy mô lớn để có thể thích nghi với nhiều tác vụ hạ nguồn khác nhau.[9][10] Mô hình gần đây nhất trong loạt GPT-n của OpenAI là GPT-5.[11] Những mô hình khác cùng loại bao gồm PaLM của Google, một mô hình nền tảng rộng đã được so sánh với GPT-3 và đã được cung cấp cho nhà phát triển thông qua một API,[12][13] và GPT-JT của Together, được cho là lựa chọn thay thế mã nguồn mở có hiệu năng gần nhất với GPT-3 (và được phát triển từ các GPT mã nguồn mở trước đó).[14] Meta AI (trước đây là Facebook) cũng có một mô hình ngôn ngữ lớn nền tảng dựa trên generative transformer, được gọi là LLaMA.[15] Các GPT nền tảng cũng có thể sử dụng các phương thức ngoài văn bản, cho đầu vào và/hoặc đầu ra. GPT-4 là một LLM đa phương thức có khả năng xử lý đầu vào là văn bản và hình ảnh (mặc dù đầu ra của nó chỉ giới hạn ở văn bản).[16] Về đầu ra đa phương thức, một số mô hình dựa trên generative transformer được dùng cho các công nghệ tạo ảnh từ văn bản như diffusion[17] và giải mã song song.[18] Các loại mô hình này có thể đóng vai trò là visual foundation models (VFM) để phát triển các hệ thống hạ nguồn có thể làm việc với hình ảnh.[19]
Mô hình chuyên biệt

Một mô hình GPT nền tảng có thể tiếp tục được điều chỉnh để tạo ra các hệ thống có mục tiêu cụ thể hơn, hướng tới những tác vụ và/hoặc lĩnh vực chuyên môn nhất định. Các phương pháp điều chỉnh như vậy có thể bao gồm fine-tuning bổ sung (vượt ngoài phần đã thực hiện cho mô hình nền tảng) cũng như một số dạng prompt engineering.[22] Một ví dụ quan trọng của điều này là fine-tuning mô hình để làm theo hướng dẫn, vốn dĩ là một tác vụ khá rộng nhưng vẫn có mục tiêu cụ thể hơn so với mô hình nền tảng.
Vào tháng 1 năm 2022, OpenAI giới thiệu "InstructGPT" – một loạt mô hình được fine-tune để làm theo hướng dẫn bằng cách kết hợp huấn luyện có giám sát và reinforcement learning from human feedback (RLHF) trên các mô hình ngôn ngữ GPT-3 cơ sở.[23][24] Ưu điểm của chúng so với các mô hình nền tảng thuần túy bao gồm độ chính xác cao hơn, ít cảm xúc tiêu cực/độc hại hơn và nhìn chung phù hợp hơn với nhu cầu của người dùng. Vì vậy, OpenAI đã bắt đầu dùng đây làm nền tảng cho các dịch vụ API của mình.[25] Các mô hình instruction-tuned khác cũng đã được phát hành bởi bên khác, bao gồm cả một phiên bản hoàn toàn mở.[26][27] Một loại mô hình đặc thù cho tác vụ khác (có liên quan) là chatbot, vốn tham gia hội thoại giống con người.
Vào tháng 11 năm 2022, OpenAI ra mắt ChatGPT – một giao diện trò chuyện trực tuyến được vận hành bởi một mô hình ngôn ngữ instruction-tuned được huấn luyện theo cách tương tự InstructGPT.[28] Họ huấn luyện mô hình này bằng RLHF, với các huấn luyện viên AI con người cung cấp các đoạn hội thoại trong đó họ đóng cả vai người dùng lẫn AI, rồi trộn bộ dữ liệu hội thoại mới này với bộ dữ liệu InstructGPT để tạo ra định dạng hội thoại phù hợp cho chatbot.
Các chatbot lớn khác hiện nay bao gồm Bing Chat của Microsoft, sử dụng GPT-4 của OpenAI (như một phần của mối hợp tác chặt chẽ rộng hơn giữa OpenAI và Microsoft),[29] và chatbot cạnh tranh Gemini của Google (ban đầu dựa trên họ mô hình hội thoại LaMDA, với kế hoạch chuyển sang PaLM).[30] Một loại tác vụ khác nữa mà GPT có thể dùng là meta-task tạo ra chính các hướng dẫn của nó, như phát triển một chuỗi prompt cho 'chính nó' để có thể thực hiện một mục tiêu tổng quát hơn do người dùng đưa ra.[31] Điều này được gọi là một AI agent, và cụ thể hơn là agent đệ quy vì nó sử dụng kết quả từ các tự chỉ dẫn trước đó để giúp hình thành các prompt tiếp theo; ví dụ lớn đầu tiên cho điều này là Auto-GPT (sử dụng các mô hình GPT của OpenAI), và kể từ đó những hệ thống khác cũng đã được phát triển.[32]
models cụ thể theo công việc (Task-specific model)

Một mô hình GPT nền tảng có thể tiếp tục được điều chỉnh để tạo ra các hệ thống có mục tiêu cụ thể hơn, hướng tới những tác vụ và/hoặc lĩnh vực chuyên môn nhất định. Các phương pháp điều chỉnh như vậy có thể bao gồm fine-tuning bổ sung (vượt ngoài phần đã thực hiện cho mô hình nền tảng) cũng như một số dạng prompt engineering.[35]
Một ví dụ quan trọng của điều này là fine-tuning mô hình để làm theo hướng dẫn, vốn dĩ là một tác vụ khá rộng nhưng vẫn có mục tiêu cụ thể hơn so với mô hình nền tảng. Vào tháng 1 năm 2022, OpenAI giới thiệu "InstructGPT" – một loạt mô hình được fine-tune để làm theo hướng dẫn bằng cách kết hợp huấn luyện có giám sát và reinforcement learning from human feedback (RLHF) trên các mô hình ngôn ngữ GPT-3 cơ sở.[23][24] Ưu điểm của chúng so với các mô hình nền tảng thuần túy bao gồm độ chính xác cao hơn, ít cảm xúc tiêu cực/độc hại hơn và nhìn chung phù hợp hơn với nhu cầu của người dùng. Vì vậy, OpenAI đã bắt đầu dùng đây làm nền tảng cho các dịch vụ API của mình.[36] Các mô hình instruction-tuned khác cũng đã được phát hành bởi bên khác, bao gồm cả một phiên bản hoàn toàn mở.[37][38]
Một loại mô hình đặc thù cho tác vụ khác (có liên quan) là chatbot, vốn tham gia hội thoại giống con người. Vào tháng 11 năm 2022, OpenAI ra mắt ChatGPT – một giao diện trò chuyện trực tuyến được vận hành bởi một mô hình ngôn ngữ instruction-tuned được huấn luyện theo cách tương tự InstructGPT.[28] Họ huấn luyện mô hình này bằng RLHF, với các huấn luyện viên AI con người cung cấp các đoạn hội thoại trong đó họ đóng cả vai người dùng lẫn AI, rồi trộn bộ dữ liệu hội thoại mới này với bộ dữ liệu InstructGPT để tạo ra định dạng hội thoại phù hợp cho chatbot. Các chatbot lớn khác hiện nay bao gồm Bing Chat của Microsoft, sử dụng GPT-4 của OpenAI (như một phần của mối hợp tác chặt chẽ rộng hơn giữa OpenAI và Microsoft),[39] và chatbot cạnh tranh Gemini của Google (ban đầu dựa trên họ mô hình hội thoại LaMDA, với kế hoạch chuyển sang PaLM).[40]
Một loại tác vụ khác nữa mà GPT có thể dùng là meta-task tạo ra chính các hướng dẫn của nó, như phát triển một chuỗi prompt cho 'chính nó' để có thể thực hiện một mục tiêu tổng quát hơn do người dùng đưa ra.[41] Điều này được gọi là một AI agent, và cụ thể hơn là agent đệ quy vì nó sử dụng kết quả từ các tự chỉ dẫn trước đó để giúp hình thành các prompt tiếp theo; ví dụ lớn đầu tiên cho điều này là Auto-GPT (sử dụng các mô hình GPT của OpenAI), và kể từ đó những hệ thống khác cũng đã được phát triển.[42]
Tham khảo
- ↑ Haddad, Mohammed. "How does GPT-4 work and how can you start using it in ChatGPT?". www.aljazeera.com. Lưu trữ bản gốc ngày 5 tháng 7 năm 2023. Truy cập ngày 10 tháng 4 năm 2023.
- 1 2 3 "Generative AI: a game-changer society needs to be ready for". World Economic Forum. ngày 9 tháng 1 năm 2023. Lưu trữ bản gốc ngày 25 tháng 4 năm 2023. Truy cập ngày 8 tháng 4 năm 2023.
- 1 2 "The A to Z of Artificial Intelligence". Time. ngày 13 tháng 4 năm 2023. Lưu trữ bản gốc ngày 16 tháng 6 năm 2023. Truy cập ngày 14 tháng 4 năm 2023.
- ↑ Hu, Luhui (ngày 15 tháng 11 năm 2022). "Generative AI and Future". Medium. Lưu trữ bản gốc ngày 5 tháng 6 năm 2023. Truy cập ngày 29 tháng 4 năm 2023.
- ↑ "CSDL | IEEE Computer Society". www.computer.org. Lưu trữ bản gốc ngày 28 tháng 4 năm 2023. Truy cập ngày 29 tháng 4 năm 2023.
- ↑ "Improving language understanding with unsupervised learning". openai.com (bằng tiếng Anh). ngày 11 tháng 6 năm 2018. Lưu trữ bản gốc ngày 18 tháng 3 năm 2023. Truy cập ngày 18 tháng 3 năm 2023.
- ↑ "An understanding of AI's limitations is starting to sink in". The Economist. ngày 11 tháng 6 năm 2020. ISSN 0013-0613. Lưu trữ bản gốc ngày 31 tháng 7 năm 2020. Truy cập ngày 31 tháng 7 năm 2020.
- ↑ Erhan, Dumitru; Courville, Aaron; Bengio, Yoshua; Vincent, Pascal (ngày 31 tháng 3 năm 2010). "Why Does Unsupervised Pre-training Help Deep Learning?". Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics (bằng tiếng Anh). JMLR Workshop and Conference Proceedings: 201–208. Lưu trữ bản gốc ngày 24 tháng 1 năm 2024. Truy cập ngày 24 tháng 1 năm 2024.
- ↑ "Introducing the Center for Research on Foundation Models (CRFM)". Stanford HAI. ngày 18 tháng 8 năm 2021. Lưu trữ bản gốc ngày 4 tháng 6 năm 2023. Truy cập ngày 26 tháng 4 năm 2023.
- ↑ "Reflections on Foundation Models". hai.stanford.edu (bằng tiếng Anh). ngày 18 tháng 10 năm 2021. Lưu trữ bản gốc ngày 15 tháng 8 năm 2024. Truy cập ngày 15 tháng 8 năm 2024.
- ↑ "Introducing GPT-5". openai.com (bằng tiếng Anh). ngày 7 tháng 8 năm 2025. Truy cập ngày 14 tháng 8 năm 2025.
- ↑ Vincent, James (ngày 14 tháng 3 năm 2023). "Google opens up its AI language model PaLM to challenge OpenAI and GPT-3". The Verge. Lưu trữ bản gốc ngày 14 tháng 3 năm 2023. Truy cập ngày 29 tháng 4 năm 2023.
- ↑ "Google Opens Access to PaLM Language Model". Lưu trữ bản gốc ngày 31 tháng 5 năm 2023. Truy cập ngày 29 tháng 4 năm 2023.
- ↑ Iyer, Aparna (ngày 30 tháng 11 năm 2022). "Meet GPT-JT, the Closest Open Source Alternative to GPT-3". Analytics India Magazine. Lưu trữ bản gốc ngày 2 tháng 6 năm 2023. Truy cập ngày 29 tháng 4 năm 2023.
- ↑ "Meta Debuts AI Language Model, But It's Only for Researchers". PCMAG. ngày 24 tháng 2 năm 2023. Lưu trữ bản gốc ngày 19 tháng 7 năm 2023. Truy cập ngày 21 tháng 5 năm 2023.
- ↑ Islam, Arham (ngày 27 tháng 3 năm 2023). "Multimodal Language Models: The Future of Artificial Intelligence (AI)". Bản gốc lưu trữ ngày 15 tháng 5 năm 2023. Truy cập ngày 15 tháng 5 năm 2023.
- ↑ Islam, Arham (ngày 14 tháng 11 năm 2022). "How Do DALL·E 2, Stable Diffusion, and Midjourney Work?". Lưu trữ bản gốc ngày 18 tháng 7 năm 2023. Truy cập ngày 21 tháng 5 năm 2023.
- ↑ Saha, Shritama (ngày 4 tháng 1 năm 2023). "Google Launches Muse, A New Text-to-Image Transformer Model". Analytics India Magazine. Lưu trữ bản gốc ngày 15 tháng 5 năm 2023. Truy cập ngày 15 tháng 5 năm 2023.
- ↑ Wu (et-al), Chenfei (ngày 8 tháng 3 năm 2023). "Visual ChatGPT". arXiv:2303.04671 [cs.CV].
- ↑ Ouyang, Long; Wu, Jeff; và đồng nghiệp (ngày 4 tháng 3 năm 2022). "Training language models to follow instructions with human feedback". arXiv:2203.02155 [cs.CL].
- ↑ OpenAI (ngày 27 tháng 1 năm 2022). "Aligning language models to follow instructions". OpenAI. Truy cập ngày 29 tháng 7 năm 2025.
- ↑ Bommasani (et-al), Rishi (ngày 12 tháng 7 năm 2022). "On the Opportunities and Risks of Foundation Models". arXiv:2108.07258 [cs.LG].
- 1 2 "Aligning language models to follow instructions". openai.com. Lưu trữ bản gốc ngày 23 tháng 3 năm 2023. Truy cập ngày 23 tháng 3 năm 2023.
- 1 2 Ouyang, Long; Wu, Jeff; Jiang, Xu; và đồng nghiệp (ngày 4 tháng 11 năm 2022). "Training language models to follow instructions with human feedback". NeurIPS. arXiv:2203.02155.
- ↑ Ramnani, Meeta (ngày 28 tháng 1 năm 2022). "OpenAI dumps its own GPT-3 for something called InstructGPT, and for right reason". Analytics India Magazine. Lưu trữ bản gốc ngày 4 tháng 6 năm 2023. Truy cập ngày 29 tháng 4 năm 2023.
- ↑ "Stanford CRFM". crfm.stanford.edu. Lưu trữ bản gốc ngày 6 tháng 4 năm 2023. Truy cập ngày 15 tháng 5 năm 2023.
- ↑ "Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM". Databricks. ngày 12 tháng 4 năm 2023. Lưu trữ bản gốc ngày 14 tháng 7 năm 2023. Truy cập ngày 15 tháng 5 năm 2023.
- 1 2 "Introducing ChatGPT". openai.com (bằng tiếng Anh). Lưu trữ bản gốc ngày 16 tháng 3 năm 2023. Truy cập ngày 16 tháng 3 năm 2023.
- ↑ Wiggers, Kyle (ngày 4 tháng 5 năm 2023). "Microsoft doubles down on AI with new Bing features". Lưu trữ bản gốc ngày 7 tháng 12 năm 2023. Truy cập ngày 4 tháng 5 năm 2023.
- ↑ "ChatGPT vs. Bing vs. Google Bard: Which AI Is the Most Helpful?". CNET. Lưu trữ bản gốc ngày 24 tháng 7 năm 2023. Truy cập ngày 30 tháng 4 năm 2023.
- ↑ "Auto-GPT, BabyAGI, and AgentGPT: How to use AI agents". Mashable. ngày 19 tháng 4 năm 2023. Lưu trữ bản gốc ngày 22 tháng 7 năm 2023. Truy cập ngày 15 tháng 5 năm 2023.
- ↑ Marr, Bernard. "Auto-GPT May Be The Strong AI Tool That Surpasses ChatGPT". Forbes. Lưu trữ bản gốc ngày 21 tháng 5 năm 2023. Truy cập ngày 15 tháng 5 năm 2023.
- ↑ Ouyang, Long; Wu, Jeff; và đồng nghiệp (ngày 4 tháng 3 năm 2022). "Training language models to follow instructions with human feedback". arXiv:2203.02155 [cs.CL].
- ↑ OpenAI (ngày 27 tháng 1 năm 2022). "Aligning language models to follow instructions". OpenAI. Truy cập ngày 29 tháng 7 năm 2025.
- ↑ Bommasani (et-al), Rishi (ngày 12 tháng 7 năm 2022). "On the Opportunities and Risks of Foundation Models". arXiv:2108.07258 [cs.LG].
- ↑ Ramnani, Meeta (ngày 28 tháng 1 năm 2022). "OpenAI dumps its own GPT-3 for something called InstructGPT, and for right reason". Analytics India Magazine. Lưu trữ bản gốc ngày 4 tháng 6 năm 2023. Truy cập ngày 29 tháng 4 năm 2023.
- ↑ "Stanford CRFM". crfm.stanford.edu. Lưu trữ bản gốc ngày 6 tháng 4 năm 2023. Truy cập ngày 15 tháng 5 năm 2023.
- ↑ "Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM". Databricks. ngày 12 tháng 4 năm 2023. Lưu trữ bản gốc ngày 14 tháng 7 năm 2023. Truy cập ngày 15 tháng 5 năm 2023.
- ↑ Wiggers, Kyle (ngày 4 tháng 5 năm 2023). "Microsoft doubles down on AI with new Bing features". Lưu trữ bản gốc ngày 7 tháng 12 năm 2023. Truy cập ngày 4 tháng 5 năm 2023.
- ↑ "ChatGPT vs. Bing vs. Google Bard: Which AI Is the Most Helpful?". CNET. Lưu trữ bản gốc ngày 24 tháng 7 năm 2023. Truy cập ngày 30 tháng 4 năm 2023.
- ↑ "Auto-GPT, BabyAGI, and AgentGPT: How to use AI agents". Mashable. ngày 19 tháng 4 năm 2023. Lưu trữ bản gốc ngày 22 tháng 7 năm 2023. Truy cập ngày 15 tháng 5 năm 2023.
- ↑ Marr, Bernard. "Auto-GPT May Be The Strong AI Tool That Surpasses ChatGPT". Forbes. Lưu trữ bản gốc ngày 21 tháng 5 năm 2023. Truy cập ngày 15 tháng 5 năm 2023.
- Trí tuệ nhân tạo
- OpenAI
- Máy biến đổi được huấn luyện trước
- Mô hình nền tảng
- Học tập đa phương thức
- Mô hình ngôn ngữ lớn đa phương thức