Bước tới nội dung

Học máy

Bách khoa toàn thư mở Wikipedia
Học sâu là một tập hợp con của học máy. Học máy là một tập hợp con của trí tuệ nhân tạo.
Học sâu là một tập hợp con của học máy. Học máy là một tập hợp con của trí tuệ nhân tạo.

Học máy (tiếng Anh: Machine learning) là một lĩnh vực của trí tuệ nhân tạo (AI), hướng tới việc xây dựng các thuật toán và mô hình có khả năng "học" từ dữ liệu huấn luyện. Từ đó, các mô hình này có thể đưa ra dự đoán hoặc quyết định mà không cần được lập trình chi tiết cho từng tình huống cụ thể.[1][2] Gần đây, một nhánh nhỏ của học máy là học sâu đã sử dụng mạng thần kinh nhân tạo giúp đạt kết quả vượt trội so với các phương pháp học máy khác.

Học máy có liên hệ mật thiết với thống kê, vì cả hai lĩnh vực đều xây dựng mô hình từ dữ liệu để đưa ra suy luận. Điểm khác biệt chính là thống kê truyền thống thường tập trung vào việc kiểm định giả thuyết và diễn giải kết quả, trong khi học máy ưu tiên khả năng dự đoán và tự động hóa trên dữ liệu lớn.[3]

Ngày nay, học máy được ứng dụng rộng rãi trong nhiều lĩnh vực, từ tìm kiếm thông tin, chẩn đoán y khoa, phát hiện thư rác và gian lận tài chính, đến nhận dạng tiếng nói, dịch tự động, và điều khiển robot.[4]

Định nghĩa

Thuật ngữ "học máy" được Arthur Samuel, nhân viên của IBM và người tiên phong trong lĩnh vực trò chơi máy tính và trí tuệ nhân tạo, đặt ra vào năm 1959. Trong bài báo nghiên cứu về chương trình chơi cờ đam, ông định nghĩa đây là "lĩnh vực nghiên cứu cung cấp cho máy tính khả năng học hỏi mà không cần lập trình cụ thể".[5]

Tuy nhiên, trong giới khoa học ngày nay, người ta thường sử dụng định nghĩa chuẩn mực hơn của giáo sư Tom Mitchell từ Đại học Carnegie Mellon: "Một chương trình máy tính được xem là học cách thực thi một lớp nhiệm vụ T thông qua kinh nghiệm E, đối với thước đo hiệu năng P, nếu hiệu năng thực thi của nó trên các nhiệm vụ T — được đo bởi P — có tiến bộ sau khi tích lũy kinh nghiệm E".[2]

Động lực ban đầu của học máy xuất phát từ nhu cầu tự động hóa việc thu nhận tri thức. Tuy nhiên, trong nhiều lĩnh vực, kiến thức chuyên gia vừa khan hiếm vừa khó mở rộng quy mô: không thể có đủ chuyên gia để phân loại thủ công hàng triệu giao dịch tài chính mỗi ngày, hay để đọc toàn bộ hồ sơ bệnh nhân trong một bệnh viện lớn. Bên cạnh đó, một số nhiệm vụ đòi hỏi tốc độ xử lý vượt xa khả năng con người, chẳng hạn như các quyết định mua bán chứng khoán phải được thực hiện trong tích tắc. Học máy giải quyết những hạn chế này bằng cách cho phép máy tính tự động học các quy luật từ dữ liệu thay vì phụ thuộc vào việc lập trình thủ công từng quy tắc một.[2]

Lịch sử

Trước năm 1970: Các phát kiến ban đầu

Không thể vẽ một đường thẳng tuyến tính duy nhất để chia tách hai nhóm dữ liệu trong hàm XOR với nhau.
Không thể vẽ một đường thẳng tuyến tính duy nhất để chia tách hai nhóm dữ liệu trong hàm XOR với nhau.

Nền tảng lý thuyết của học máy bắt đầu hình thành trước cả khi các cỗ máy đã có thể "học". Năm 1943, nhà logic học Walter Pitts và nhà thần kinh học Warren McCulloch đã tạo ra mô hình toán học đầu tiên của mạng neuron giúp mô phỏng lại cách suy nghĩ của con người.[6] 4 năm sau, nhà tâm lý học người Canada Donald Hebb xuất bản cuốn The Organization of Behavior, trong đó ông giới thiệu các nguyên lý tương tác giữa các tế bào thần kinh,[7] là nguồn cảm hứng cho các mạng thần kinh nhân tạo trong học máy sau này.

Năm 1957, nhà tâm lý học Frank Rosenblatt giới thiệu mô hình perceptron — mạng thần kinh nhân tạo đầu tiên. Perceptron có thể phân loại các mẫu đầu vào thông qua một quy tắc cập nhật trọng số đơn giản, đánh dấu lần đầu tiên một máy móc "tự học" để nhận dạng dữ liệu đầu vào.[8] Tuy nhiên, mô hình này gặp một vấn đề nghiêm trọng: một lớp perceptron đơn giản không thể giải quyết các bài toán phi tuyến tính như hàm XOR.

1970-1990: Hệ thống chuyên gia (Expert system) và Mùa đông AI (AI Winter)

Sau những thất vọng với mạng thần kinh nhân tạo, nghiên cứu AI chuyển hướng sang các hệ thống chuyên gia (Expert system), bằng việc lập trình thủ công từ kiến thức của các chuyên gia. Tuy nhiên, chúng chỉ thành công trong các lĩnh vực hẹp và không thể thích nghi với dữ liệu mới, dẫn tới sự thất vọng còn nặng nề hơn và ngưng trệ trong nghiên cứu AI.[9] Giai đoạn này còn được gọi là "mùa đông của trí tuệ nhân tạo".

Tuy nhiên, giai đoạn này vẫn có các tiến bộ trong học máy như thuật toán lan truyền ngược được công bố bởi các nhà khoa học David Rumelhart, Geoffrey Hinton và Ronald Williams,[10] cho phép huấn luyện hiệu quả các mạng thần kinh với nhiều lớp Perceptron nối liền nhau và giải quyết bài toán XOR.

1990–2010: Phương pháp thống kê lên ngôi

Thập niên 1990 chứng kiến sự chuyển dịch từ hướng tiếp cận dựa trên quy tắc sang các phương pháp có nền tảng thống kê vững chắc hơn. Năm 1995, Corinna Cortes và Vladimir Vapnik giới thiệu thuật toán Support Vector Machine (SVM) giúp phân loại hình ảnh.[11] 2 năm sau, Sepp Hochreiter và Jürgen Schmidhuber giới thiệu kiến trúc Long Short-Term Memory (LSTM), giải quyết vấn đề suy giảm độ dốc (vanishing gradient) trong mạng thần kinh hồi quy giúp cải thiện khả năng xử lý dữ liệu chuỗi dài như văn bản.[12] Đến năm 1998, Yann LeCunn và cộng sự cho ra mắt mô hình LeNet sử dụng mạng neuron tích chập để nhận diện văn bản viết tay.[13] Cột mốc văn hóa lớn nhất của thập kỷ là vào tháng 5 năm 1997, khi máy tính Deep Blue của IBM trở thành máy tính đầu tiên trong lịch sử đánh bại đương kim vô địch cờ vua thế giới Garry Kasparov.[14][15]

IBM Deep Blue (trái) là máy chơi cờ vua đầu tiên đánh bại một đương kim vua cờ, lúc bấy giờ là Garry Kasparov (phải)

Bước sang thế kỷ 21, các nhà nghiên cứu tại Stanford công bố bộ tập dữ liệu ImageNet với hơn 14 triệu ảnh được dán nhãn thuộc hàng nghìn mục khác nhau.[16] Tệp dữ liệu này trở thành thước đo chuẩn mực đánh gia các mô hình thị giác máy tính xuyên suốt gần một thập kỷ sau với các cuộc thi ImageNet Large Scale Visual Recognition Challenge (ILSVRC) thường niên từ 2010 đến 2017.

2010–2020: Kỷ nguyên học sâu

Năm 2012 đánh dấu bước ngoặt của học sâu hiện đại. Mô hình AlexNet của Alex Krizhevsky, Ilya Sutskever và Geoffrey Hinton giành chiến thắng tại ILSVRC với tỉ lệ chính xác hơn 10 phần trăm so với đối thủ hạng 2,[17][18] cũng dùng mạng neuron tích chập giống LeNet. Điều này khiến cộng đồng nghiên cứu chuyển hướng gần như hoàn toàn theo lối kiến trúc này, và khi cuộc thi ILSVRC kết thúc thì các mô hình như ResNet đã vượt mặt con người trong khả năng nhận diện hình ảnh từ tập dữ liệu này.

Tháng 3 năm 2016, chương trình AlphaGo của Google DeepMind đánh bại kỳ thủ cờ vây chuyên nghiệp Lee Sedol với tỷ số 4-1 trong một trận đấu 5 ván tại Seoul.[19] Khác với Deep Blue chỉ sử dụng tính tuán tuần túy, AlphaGo kết hợp học tăng cường với mạng thần kinh sâu, giúp nó có khả năng tính toán vượt trội hơn khi cờ vây có nhiều thế cờ hơn cờ vua gấp nhiều lần.

Năm 2017, nhóm nghiên cứu tại Google công bố kiến trúc Transformer trong bài báo "Attention Is All You Need", thay thế các mô hình hồi quy tuần tự bằng cơ chế chú ý (attention mechanism) cho phép xử lý song song toàn bộ chuỗi đầu vào thay vì tuần tự như mạng thần kinh hồi quy.[20] Transformer nhanh chóng trở thành kiến trúc nền tảng cho hầu hết các đột phá về xử lý ngôn ngữ tự nhiên trong những năm tiếp theo. Cùng giai đoạn này, Ian Goodfellow và cộng sự cho ra mắt mạng đối nghịch tạo sinh, sử dụng hai mạng thần kinh "đối đầu" với nhau: một tìm cách phân biệt đâu là dữ liệu thật và đâu là dữ liệu được tạo ra tạo ra, còn mạng thần kinh kia ra sức tạo giữ liệu mới với chất lượng cao để "qua mặt" đối phương.[21]

2020 – nay: Mô hình ngôn ngữ lớn và AI tạo sinh

Kiến trúc Transformer mở đường cho sự ra đời của các mô hình ngôn ngữ lớn nhờ khả năng "học tập" nhanh chóng. Tháng 11 năm 2022, OpenAI ra mắt ChatGPT dựa trên mô hình GPT3.5 và ghi nhận hơn 1 triệu người dùng chỉ trong 5 ngày.[22][23] Sự kiện này đánh dấu sự bùng nổ của AI tạo sinh, đưa học máy ra khỏi phạm vi học thuật và công nghệ, trở thành chủ đề tranh luận công khai toàn cầu về tương lai của lao động, giáo dục và sáng tạo.

Song song với đó, học máy tiếp tục tạo ra các đột phá khoa học. Năm 2024, AlphaFold 3 của Google DeepMind mở rộng khả năng dự đoán cấu trúc 3D không chỉ của protein mà còn của DNA, RNA và các phân tử nhỏ, mở ra tiềm năng lớn cho thiết kế thuốc và nghiên cứu sinh học phân tử.[24]

Các loại thuật toán

Các loại thuật toán trong học máy thường được phân loại dựa trên cách tiếp nhận và xử lý dữ liệu trong quá trình huấn luyện. Theo truyền thống, học máy gômg có ba nhóm chính: học có giám sát, học không giám sát, và học tăng cường.[25] Ngoài ra còn có một số hướng tiếp cận khác mới hơn.

  • Học có giám sát (Supervised learning): là hướng tiếp cận phổ biến nhất. Trong đó, mô hình đựoc huấn luyện trên một tập dữ liệu đã gắn nhãn, tức là mỗi giá trị đầu vào đều tuơng ứng với một kết quả mong muốn. Thuật toán học cách ánh xạ từ đầu vào sang đầu ra qua việc tìm cách giảm thiểu sai số của dự đoán so với nhãn thực tế. Các ứng dụng điển hình bao gồm phân loại thư rác, nhận diện hình ảnh, dự đoán giá cả, nhận diện giọng nói, vân vân.
  • Học không giám sát (Unsupervised learning): trên thực tế, phần lớn dữ liệu trên thế giới không có nhãn, và việc dán nhãn cho chúng rất mất thời gian và công sức. Thay vì học cách dự đoán một kết quả cụ thể, mô hình tự tìm kiếm cấu trúc ẩn bên trong dữ liệu như phân tích cụm (clustering) những đầu vào với thông tin tương tự, hay nén dữ liệu về không gian biểu diễn nhỏ gọn hơn. Vì không cần nhãn, hướng tiếp cận này đặc biệt hữu ích khi việc gán nhãn thủ công tốn kém hoặc không khả thi.
  • Học tăng cường (Reinforcement learning): lấy cảm hứng từ cách con người và động vật học qua thử và sai. Thay vì học từ tập dữ liệu cố định, một tác nhân (agent) liên tục tương tác với môi trường, thực hiện các hành động và nhận phần thưởng hoặc hình phạt tương ứng. Qua thời gian, tác nhân học được chính sách hành động tối ưu để tối đa hóa phần thưởng tích lũy. Đây là phương pháp nền tảng trong các hệ thống chơi game như AlphaGo, cũng như trong điều khiển robot và xe tự lái.

Ngoài ba nhóm trên, một số hướng tiếp cận khác ngày càng được sử dụng rộng rãi. Học nửa giám sát (semi-supervised learning) kết hợp một lượng nhỏ dữ liệu có nhãn với lượng lớn dữ liệu không nhãn, tận dụng cấu trúc của dữ liệu không nhãn để cải thiện độ chính xác khi nhãn khan hiếm.[26] Học tự giám sát (self-supervised learning) tạo ra tín hiệu giám sát trực tiếp từ dữ liệu thô, chẳng hạn bằng cách che một phần văn bản và yêu cầu mô hình đoán phần bị che.[27] Nó vốn được xếp vào học không giám sát do không cần dán nhãn, nhưng thực tế vẫn cần "nhãn" là bản thân dữ liệu ban đầu chưa qua xử lý. Học chuyển giao (transfer learning) tái sử dụng một mô hình đã được huấn luyện trên bài toán lớn cho một bài toán nhỏ hơn có liên quan, giúp tiết kiệm đáng kể thời gian và dữ liệu huấn luyện.[28]

Các vấn đề trong học máy

Biểu diễn

Trước khi một mô hình học máy có thể học được bất cứ điều gì, dữ liệu từ thế giới thực phải được chuyển đổi thành dạng mà máy tính có thể xử lý. Quá trình này gọi là biểu diễn (representation). Cách biểu diễn dữ liệu ảnh hưởng trực tiếp đến hiệu quả học: cùng một bức ảnh, nếu biểu diễn dưới dạng ma trận dựa theo giá trị pixel thuần túy thì mô hình phải tự tìm ra các đặc trưng như hình dạng hay màu sắc, trong khi nếu được trích xuất đặc trưng trước thì bài toán trở nên dễ hơn đáng kể. Trong học sâu, thay vì thiết kế đặc trưng thủ công, mô hình tự học cách biểu diễn dữ liệu qua nhiều lớp trừu tượng trong các lớp ẩn. Đây chính là lý do các mạng thần kinh sâu đạt hiệu quả vượt trội trên dữ liệu phi cấu trúc như ảnh hay văn bản.[29]

Tối ưu hóa

Hàm mất mát có thể có các điểm cực tiểu địa phương khiến thuật toán suy giảm độ dốc "mắc kẹt" bên trong, trong khi mục tiêu là tìm được điểm cực tiểu toàn cục.
Hàm mất mát có thể có các điểm cực tiểu địa phương khiến thuật toán suy giảm độ dốc bị "mắc kẹt" bên trong, trong khi mục tiêu là tìm được điểm cực tiểu toàn cục.

Hầu hết các thuật toán học máy đều được đúc kết thành một bài toán tối ưu hóa: tìm bộ tham số của mô hình sao cho hàm mất mát (thể hiện sai số giữa dự đoán của mô hình và kết quả thực tế) đạt giá trị nhỏ nhất có thể trên tập dữ liệu huấn luyện. Phương pháp phổ biến nhất để giải bài toán này là suy giảm độ dốc. Ở mỗi bước, thuật toán tính đạo hàm của hàm mất mát theo từng tham số, rồi dịch chuyển các tham số theo chiều làm giảm hàm mất mát nhanh nhất.[29] Trên thực tế, thay vì tính gradient trên toàn bộ tập dữ liệu mỗi bước (vì quá tốn kém), người ta thường dùng biến thể hạ gradient ngẫu nhiên theo lô nhỏ (mini-batch stochastic gradient descent) hoặc thậm chí chỉ dùng một mẫu dữ liệu duy nhất, trong đó gradient được ước tính từ một tập con nhỏ của dữ liệu.[30][31] Tuy nhiên, tối ưu hóa trong học máy không đơn giản là tìm điểm cực tiểu cho hàm mất mát vì các mạng thần kinh sâu có hàng triệu tham số, bề mặt hàm mất mát cực kỳ phức tạp và chứa vô số điểm cực tiểu địa phương cũng như điểm yên ngựa (saddle point) cũng có đạo hàm bằng 0, khiến việc tối ưu hóa trở thành một thách thức nghiên cứu riêng.[32]

Tính phổ quát

Thiếu khớp, khớp, và quá khớp từ trái qua phải. Một mô hình không đủ khớp thì không nắm bắt được quy luật của dữ liệu, còn một mô hình quá khớp thì không đủ tính tổng quát để sử dụng trên những dữ liệu mới.
Thiếu khớp, khớp, và quá khớp từ trái qua phải. Một mô hình không đủ khớp thì không nắm bắt được quy luật của dữ liệu, còn một mô hình quá khớp thì không đủ tính tổng quát để sử dụng trên những dữ liệu mới.

Tính phổ quát (generalization) là khả năng của mô hình hoạt động tốt trên dữ liệu chưa từng thấy trong quá trình huấn luyện. Đây là mục tiêu trung tâm của mọi hệ thống học máy, bởi một mô hình chỉ hoạt động tốt trên dữ liệu huấn luyện nhưng thất bại với dữ liệu mới thực tế thì không có giá trị ứng dụng. Hiện tượng khi mô hình "học vẹt" dữ liệu huấn luyện thay vì học quy luật tổng quát được gọi là quá khớp (overfitting). Các kỹ thuật phổ biến để kiểm soát quá khớp bao gồm chính quy hóa (regularization), "bỏ học" một vài neuron (dropout), tăng cường dữ liệu (data augmentation), hoặc tham chiếu với một tập dữ liệu không được sử dụng trực tiếp trong quá trình học.[33] Ở chiều ngược lại, thiếu khớp (underfitting) xảy ra khi mô hình quá đơn giản để nắm bắt được quy luật trong dữ liệu.

Dữ liệu

Chất lượng và số lượng dữ liệu huấn luyện có ảnh hưởng trực tiếp đến hiệu quả của mô hình học máy, thường còn quan trọng hơn cả lựa chọn thuật toán. Một mô hình phức tạp được huấn luyện trên dữ liệu ít hoặc kém chất lượng (độ phân giải kém, nhiều nhiễu, vân vân) sẽ cho kết quả tệ hơn một mô hình đơn giản hơn được huấn luyện trên dữ liệu dồi dào chất lượng cao.[34] Ngoài số lượng, một vấn đề phổ biến là thiên lệch dữ liệu (data bias): khi tập dữ liệu huấn luyện không phản ánh đầy đủ sự đa dạng của thực tế, mô hình sẽ học theo những thiên lệch đó và tái tạo chúng trong dự đoán. Một ví dụ nổi tiếng là các hệ thống nhận diện khuôn mặt có tỉ lệ lỗi cao hơn đáng kể với người da màu do tập huấn luyện chủ yếu chứa ảnh người da trắng.[35] Bên cạnh đó, trong nhiều lĩnh vực như y tế hay pháp lý, việc thu thập dữ liệu có nhãn đòi hỏi chuyên gia và rất tốn kém, khiến dữ liệu có nhãn trở thành một tài nguyên khan hiếm ngay cả khi dữ liệu thô dồi dào.[26] Ngoài ra, việc bảo mật thông tin cho dữ liệu của người dùng cũng là một hướng nghiên cứu quan trọng, dẫn tới sự ra đời của kỹ thuật Machine unlearning với mục tiêu quên đi dữ liệu của người dùng thay vì ghi nhớ.[36]

Khả năng diễn giải

Khi các mô hình học máy ngày càng đạt hiệu quả cao hơn, chúng cũng trở nên phức tạp đến mức con người khó hiểu được tại sao mô hình đưa ra một dự đoán cụ thể. Một mạng thần kinh với hàng triệu tham số về bản chất là một hộp đen (black box): ta biết đầu vào và đầu ra, nhưng không thể dễ dàng truy vết logic bên trong.[37] Kể cả khi biết rõ giá trị của từng tham số, ta cũng khó lòng diễn giải được từng giá trị thực sự mang ý nghĩa gì, hay đâu là tham số trực tiếp khiến mô hình đưa ra dự đoán sai. Điều này trở thành vấn đề nghiêm trọng trong các lĩnh vực đòi hỏi trách nhiệm giải trình: một bác sĩ cần hiểu tại sao mô hình chẩn đoán bệnh nhân mắc ung thư, một thẩm phán cần biết lý do hệ thống đánh giá nguy cơ tái phạm của một bị cáo, hay một ngân hàng phải giải thích được quyết định từ chối cho vay. Họ không thể nào chỉ nói "vì mô hình của tôi cho kết quả như vậy" được.[38] Để giải quyết vấn đề này, một nhánh nghiên cứu riêng về khả năng diễn giải đã hình thành, với các phương pháp như LIME và SHAP cho phép giải thích dự đoán của mô hình theo từng trường hợp cụ thể dựa vào mà không cần thay đổi kiến trúc của mô hình gốc.[39]

Các lĩnh vực ứng dụng

Thị giác máy tính

Hình ảnh X-quang bàn tay, với tính toán tự động tuổi xương bằng phần mềm máy tính.
Hình ảnh X-quang bàn tay, với tính toán tự động tuổi xương bằng phần mềm máy tính.

Thị giác máy tính (computer vision) là lĩnh vực ứng dụng học máy vào việc xử lý và hiểu dữ liệu hình ảnh và video. Các bài toán cốt lõi bao gồm phân loại ảnh (image classification), phát hiện vật thể (object detection), và phân đoạn ảnh (image segmentation); trong đó mô hình phải xác định không chỉ vật thể nào có trong ảnh mà còn vị trí và ranh giới chính xác của chúng.[40] Sự bùng nổ của học sâu từ năm 2012 với AlexNet đã đưa thị giác máy tính lên một tầm cao mới, và đến giữa thập niên 2010, các mô hình như ResNet đã vượt qua con người trong bài toán phân loại ảnh trên tập dữ liệu ImageNet.[41] Ngày nay, thị giác máy tính được ứng dụng rộng rãi trong xe tự lái, hệ thống giám sát, kiểm tra chất lượng sản xuất, và chẩn đoán hình ảnh y tế, nơi các mô hình có thể phát hiện khối u trong ảnh chụp X-quang hay MRI với độ chính xác tương đương bác sĩ chuyên khoa.[42]

Xử lý ngôn ngữ tự nhiên

Xử lý ngôn ngữ tự nhiên (natural language processing, viết tắt là NLP) là lĩnh vực nghiên cứu cách máy tính hiểu, phân tích và sinh ra ngôn ngữ của con người. Các bài toán truyền thống bao gồm dịch máy, phân tích cảm xúc, trả lời câu hỏi, và tóm tắt văn bản.[43] Nhận dạng giọng nói (speech recognition) cũng thuộc phạm vi NLP vì nó liên quan đến việc hiểu ngôn ngữ nói của con người thông qua việc chuyển tín hiệu âm thanh thành văn bản. Phần lớn các mô hình ngôn ngữ ban đầu sử dụng các mạng thần kinh hồi quy và các biến thể như LSTM hay GRU (Gated Recurrent Unit - đơn vị hồi quy có cổng), vốn khá mất thời gian để đào tạo dữ liệu do chỉ có thể xử lý từng từ một cũng như không thể học được các chuỗi từ dài.[44] Bước ngoặt lớn nhất của lĩnh vực này là sự ra đời của kiến trúc Transformer năm 2017, cho phép mô hình xử lý toàn bộ chuỗi văn bản song song thay vì tuần tự, mở đường cho các mô hình ngôn ngữ lớn (large language model, viết tắt là LLM) như GPT[45] và BERT.[46] Các LLM được huấn luyện trên lượng văn bản khổng lồ từ internet và sách báo, cho phép chúng thực hiện nhiều tác vụ ngôn ngữ khác nhau chỉ với một mô hình duy nhất, thay vì phải xây dựng hệ thống riêng cho từng bài toán như trước.[47]

AI tạo sinh

Sơ đồ kiến trúc Transformer
Sơ đồ kiến trúc Transformer

AI tạo sinh (generative AI) là nhánh học máy tập trung vào việc xây dựng các mô hình có khả năng tạo ra nội dung mới — hình ảnh, âm thanh, video, hay văn bản — có chất lượng gần với dữ liệu thực.[48] Hai kiến trúc nền tảng của lĩnh vực này là mạng đối nghịch tạo sinh (Generative Adversarial Network) và mô hình khuếch tán (diffusion model). GAN, được Ian Goodfellow và cộng sự giới thiệu năm 2014, sử dụng hai mạng thần kinh cạnh tranh nhau: một mạng sinh (generator) cố gắng tạo ra dữ liệu giả trông thật, trong khi mạng phân biệt (discriminator) cố gắng phân biệt dữ liệu thật và giả. Quá trình cạnh tranh này dần dần nâng cao chất lượng của cả hai.[21] Mô hình khuếch tán hoạt động theo nguyên lý khác: mô hình học cách khôi phục lại dữ liệu gốc từ dữ liệu đã bị thêm nhiễu dần dần, và khi đã thành thạo quá trình khử nhiễu này, nó có thể tạo ra dữ liệu mới bằng cách bắt đầu từ nhiễu ngẫu nhiên thuần túy.[49] Mô hình khuếch tán là nền tảng của các hệ thống sinh ảnh từ văn bản phổ biến hiện nay như Stable Diffusion và DALL-E. Các mô hình ngôn ngữ như LLM hay các mạng thần kinh hồi quy đơn giản cũng thuộc phạm trù AI tạo sinh khi được dùng để sinh văn bản.

Học tăng cường ứng dụng

Không giống các lĩnh vực ứng dụng khác vốn tập trung vào một loại dữ liệu đầu vào cụ thể, học tăng cường nổi bật ở chỗ nó học thông qua tương tác với môi trường thay vì từ tập dữ liệu cố định, giúp nó trở thành lựa chọn tự nhiên cho các bài toán đòi hỏi ra quyết định tuần tự.[50] Trong lĩnh vực robot, học tăng cường cho phép robot học các kỹ năng vận động phức tạp như đi lại, cầm nắm đồ vật hay lắp ráp linh kiện chỉ thông qua thử và sai trong môi trường mô phỏng, thay vì phải lập trình từng chuyển động thủ công.[51] Ngoài robot, học tăng cường cũng là nền tảng của các hệ thống chơi game như AlphaGo và AlphaZero của Google DeepMind. Gần đây, học tăng cường còn được ứng dụng trong việc tinh chỉnh các mô hình ngôn ngữ lớn thông qua kỹ thuật học tăng cường từ phản hồi của con người (reinforcement learning from human feedback, viết tắt là RLHF), trong đó mô hình được điều chỉnh để tạo ra các phản hồi phù hợp hơn với mong muốn của người dùng.[52]

Tham khảo

  1. Koza, John R.; Bennett, Forrest H.; Andre, David; Keane, Martin A. (1996), Gero, John S.; Sudweeks, Fay (biên tập), "Automated Design of Both the Topology and Sizing of Analog Electrical Circuits Using Genetic Programming", Artificial Intelligence in Design ’96 (bằng tiếng Anh), Dordrecht: Springer Netherlands, tr. 151–170, doi:10.1007/978-94-009-0279-4_9, ISBN 978-94-009-0279-4, truy cập ngày 2 tháng 4 năm 2026
  2. 1 2 3 Mitchell, Tom M. (1997). Machine Learning. McGraw-Hill series in computer science. New York: McGraw-Hill. ISBN 978-0-07-042807-2.
  3. Breiman, Leo (2001). "Statistical Modeling: The Two Cultures". Statistical Science. Quyển 16 số 3. tr. 199–215. doi:10.1214/ss/1009213726.
  4. Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. New York: Springer. ISBN 978-0-387-31073-2.
  5. Samuel, A. L. (tháng 7 năm 1959). "Some Studies in Machine Learning Using the Game of Checkers". IBM Journal of Research and Development. Quyển 3 số 3. tr. 210–229. doi:10.1147/rd.33.0210. ISSN 0018-8646.
  6. McCulloch, Warren S.; Pitts, Walter (ngày 1 tháng 12 năm 1943). "A logical calculus of the ideas immanent in nervous activity". The bulletin of mathematical biophysics (bằng tiếng Anh). Quyển 5 số 4. tr. 115–133. doi:10.1007/BF02478259. ISSN 1522-9602.
  7. Hebb, D. O. (2002). The organization of behavior: a neuropsychological theory. Mahwah, N.J: L. Erlbaum Associates. ISBN 978-0-8058-4300-2.
  8. Rosenblatt, F. (1958). "The perceptron: A probabilistic model for information storage and organization in the brain". Psychological Review (bằng tiếng Anh). Quyển 65 số 6. tr. 386–408. doi:10.1037/h0042519. ISSN 1939-1471.
  9. Crevier, Daniel (1993). AI: the tumultuous history of the search for artificial intelligence. New York, NY: Basic Books. ISBN 978-0-465-02997-6.
  10. Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (tháng 10 năm 1986). "Learning representations by back-propagating errors". Nature (bằng tiếng Anh). Quyển 323 số 6088. tr. 533–536. doi:10.1038/323533a0. ISSN 1476-4687.
  11. Cortes, Corinna; Vapnik, Vladimir (tháng 9 năm 1995). "Support-vector networks". Machine Learning. Quyển 20 số 3. tr. 273–297. doi:10.1007/bf00994018. ISSN 0885-6125.
  12. Hochreiter, Sepp; Schmidhuber, Jürgen (ngày 1 tháng 11 năm 1997). "Long Short-Term Memory". Neural Computation (bằng tiếng Anh). Quyển 9 số 8. tr. 1735–1780. doi:10.1162/neco.1997.9.8.1735. ISSN 0899-7667.
  13. Lecun, Y.; Bottou, L.; Bengio, Y.; Haffner, P. (tháng 11 năm 1998). "Gradient-based learning applied to document recognition". Proceedings of the IEEE. Quyển 86 số 11. tr. 2278–2324. doi:10.1109/5.726791. ISSN 1558-2256.
  14. "Deep Blue | IBM". www.ibm.com (bằng tiếng Anh). Truy cập ngày 2 tháng 4 năm 2026.
  15. Bảo, Lâm (ngày 23 tháng 5 năm 2023). "Ván cờ lịch sử giữa con người và 'AI đời đầu'".
  16. Deng, Jia; Dong, Wei; Socher, Richard; Li, Li-Jia; Kai Li; Li Fei-Fei (tháng 6 năm 2009). "ImageNet: A large-scale hierarchical image database". IEEE. tr. 248–255. doi:10.1109/CVPR.2009.5206848. ISBN 978-1-4244-3992-8. {{Chú thích tạp chí}}: Chú thích magazine cần |magazine= (trợ giúp)
  17. Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E (2012). "ImageNet Classification with Deep Convolutional Neural Networks". Advances in Neural Information Processing Systems. Quyển 25. Curran Associates, Inc.
  18. Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (ngày 24 tháng 5 năm 2017). "ImageNet classification with deep convolutional neural networks". Commun. ACM. Quyển 60 số 6. tr. 84–90. doi:10.1145/3065386. ISSN 0001-0782.
  19. "Artificial intelligence: Go master Lee Se-dol wins against AlphaGo program". BBC News (bằng tiếng Anh). ngày 13 tháng 3 năm 2016. Truy cập ngày 2 tháng 4 năm 2026.
  20. Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Ł ukasz; Polosukhin, Illia (2017). "Attention is All you Need". Advances in Neural Information Processing Systems. Quyển 30. Curran Associates, Inc.
  21. 1 2 Goodfellow, Ian; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (ngày 22 tháng 10 năm 2020). "Generative adversarial networks". ACM Digital Library (bằng tiếng Anh). doi:10.1145/3422622. Truy cập ngày 2 tháng 4 năm 2026.
  22. Roumeliotis, Konstantinos I.; Tselikas, Nikolaos D. (ngày 26 tháng 5 năm 2023). "ChatGPT and Open-AI Models: A Preliminary Review". Future Internet (bằng tiếng Anh). Quyển 15 số 6. tr. 192. doi:10.3390/fi15060192. ISSN 1999-5903.{{Chú thích tạp chí}}: Quản lý CS1: DOI truy cập mở nhưng không được đánh ký hiệu (liên kết)
  23. Khương, Nha (ngày 23 tháng 1 năm 2023). "Hai tháng siêu AI ChatGPT khuấy đảo thế giới".
  24. Abramson, Josh; Adler, Jonas; Dunger, Jack; Evans, Richard; Green, Tim; Pritzel, Alexander; Ronneberger, Olaf; Willmore, Lindsay; Ballard, Andrew J. (tháng 6 năm 2024). "Accurate structure prediction of biomolecular interactions with AlphaFold 3". Nature (bằng tiếng Anh). Quyển 630 số 8016. tr. 493–500. doi:10.1038/s41586-024-07487-w. ISSN 1476-4687. PMC 11168924. PMID 38718835.
  25. "Types of Machine Learning". GeeksforGeeks (bằng tiếng Anh). ngày 21 tháng 8 năm 2023. Truy cập ngày 2 tháng 4 năm 2026.
  26. 1 2 Zhu, Xiaojin (Jerry) (2005). "Semi-Supervised Learning Literature Survey" (bằng tiếng Anh). {{Chú thích tạp chí}}: Chú thích magazine cần |magazine= (trợ giúp)
  27. Gui, Jie; Chen, Tuo; Zhang, Jing; Cao, Qiong; Sun, Zhenan; Luo, Hao; Tao, Dacheng (tháng 12 năm 2024). "A Survey on Self-Supervised Learning: Algorithms, Applications, and Future Trends". IEEE Transactions on Pattern Analysis and Machine Intelligence. Quyển 46 số 12. tr. 9052–9071. doi:10.1109/TPAMI.2024.3415112. ISSN 1939-3539.
  28. Zhuang, Fuzhen; Qi, Zhiyuan; Duan, Keyu; Xi, Dongbo; Zhu, Yongchun; Zhu, Hengshu; Xiong, Hui; He, Qing (tháng 1 năm 2021). "A Comprehensive Survey on Transfer Learning". Proceedings of the IEEE. Quyển 109 số 1. tr. 43–76. doi:10.1109/JPROC.2020.3004555. ISSN 1558-2256.
  29. 1 2 Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). Deep learning. Adaptive computation and machine learning. Cambridge, Mass: The MIT press. ISBN 978-0-262-03561-3.
  30. Robbins, Herbert; Monro, Sutton (1951). "A Stochastic Approximation Method". The Annals of Mathematical Statistics. Quyển 22 số 3. tr. 400–407. doi:10.1214/aoms/1177729586.
  31. Saad, David (1998). On-line learning in neural networks. Publications of the Newton institute (ấn bản thứ 1). Cambridge (GB): Cambridge university press. ISBN 978-0-521-65263-6.
  32. Dauphin, Yann N.; Pascanu, Razvan; Gulcehre, Caglar; Cho, Kyunghyun; Ganguli, Surya; Bengio, Yoshua (2014). "Identifying and attacking the saddle point problem in high-dimensional non-convex optimization". Advances in Neural Information Processing Systems. Quyển 27.
  33. Lin, David Chuan-En (ngày 7 tháng 6 năm 2020). "8 Simple Techniques to Prevent Overfitting".
  34. Banko, Michele; Brill, Eric (tháng 7 năm 2001). "Scaling to Very Very Large Corpora for Natural Language Disambiguation". Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics. Toulouse, France: Association for Computational Linguistics. tr. 26–33. doi:10.3115/1073012.1073017.
  35. Buolamwini, Joy; Gebru, Timnit (ngày 21 tháng 1 năm 2018). "Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification". Proceedings of the 1st Conference on Fairness, Accountability and Transparency (bằng tiếng Anh). PMLR. tr. 77–91.
  36. Nguyen, Thanh Tam; Huynh, Thanh Trung; Ren, Zhao; Nguyen, Phi Le; Liew, Alan Wee-Chung; Yin, Hongzhi; Nguyen, Quoc Viet Hung (ngày 18 tháng 9 năm 2025). "A Survey of Machine Unlearning". ACM Trans. Intell. Syst. Technol. Quyển 16 số 5. tr. 108:1–108:46. doi:10.1145/3749987. ISSN 2157-6904.
  37. Lipton, Zachary C. (ngày 1 tháng 6 năm 2018). "The Mythos of Model Interpretability" (bằng tiếng Anh). doi:10.1145/3236386.3241340.
  38. Doshi-Velez, F., & Kim, B. (2017). Towards a rigorous science of interpretable machine learning. arXiv preprint arXiv:1702.08608.
  39. Ribeiro, Marco Tulio; Singh, Sameer; Guestrin, Carlos (2016). ""Why Should I Trust You?": Explaining the Predictions of Any Classifier". Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. tr. 1135–1144. doi:10.1145/2939672.2939778.
  40. Szeliski, Richard (2022). Computer Vision: Algorithms and Applications (ấn bản thứ 2). Cham: Springer. ISBN 978-3-030-34372-9.
  41. He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). "Deep Residual Learning for Image Recognition". 2016 IEEE Conference on Computer Vision and Pattern Recognition. tr. 770–778. doi:10.1109/CVPR.2016.90.
  42. Esteva, Andre; Kuprel, Brett; Novoa, Roberto A.; Ko, Justin; Swetter, Susan M.; Blau, Helen M.; Thrun, Sebastian (tháng 2 năm 2017). "Dermatologist-level classification of skin cancer with deep neural networks". Nature. Quyển 542 số 7639. tr. 115–118. doi:10.1038/nature21056.
  43. Jurafsky, Daniel; Martin, James H. (2023). Speech and Language Processing (ấn bản thứ 3). Prentice Hall.
  44. Song, Xinyuan; Chen, Keyu; Bi, Ziqian; Niu, Qian; Liu, Junyu; Peng, Benji; Zhang, Sen; Yuan, Zichen; Liu, Ming (2025). "Transformer: A Survey and Application". papers.ssrn.com. doi:10.2139/ssrn.5211988. Truy cập ngày 7 tháng 4 năm 2026.
  45. Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving language understanding by generative pre-training.
  46. Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics. tr. 4171–4186.
  47. Brown, Tom; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared N. (2020). "Language Models are Few-Shot Learners". Advances in Neural Information Processing Systems. Quyển 33. tr. 1877–1901.
  48. Cao, Yihan; Li, Siyu; Liu, Yixin; Yan, Zhiling; Dai, Yutong; Yu, Philip S.; Sun, Lichao (2023). "A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT". arXiv preprint. Quyển arXiv:2303.04226.
  49. Ho, Jonathan; Jain, Ajay; Abbeel, Pieter (2020). "Denoising Diffusion Probabilistic Models". Advances in Neural Information Processing Systems. Quyển 33. tr. 6840–6851.
  50. Sutton, Richard S.; Barto, Andrew G. (2018). Reinforcement Learning: An Introduction (ấn bản thứ 2). Cambridge, MA: MIT Press. ISBN 978-0-262-03924-6.
  51. Kober, Jens; Bagnell, J. Andrew; Peters, Jan (2013). "Reinforcement Learning in Robotics: A Survey". The International Journal of Robotics Research. Quyển 32 số 11. tr. 1238–1274. doi:10.1177/0278364913495721.
  52. Christiano, Paul F.; Leike, Jan; Brown, Tom; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). "Deep Reinforcement Learning from Human Preferences". Advances in Neural Information Processing Systems. Quyển 30.