LeNet

LeNet là một chuỗi các kiến trúc mạng thần kinh tích chập được nghiên cứu và phát triển từ năm 1988 đến 1998 bởi một nhóm nghiên cứu từ phòng thí nghiệm Bell, dẫn đầu là Yann LeCun. Mục tiêu chính của các mô hình này là để đọc các số viết tay trên ảnh đen trắng, thường được ứng dụng để đọc séc ngân hàng.
Có tổng cộng 5 phiên bản LeNet được công bố,[1][2][3][4] và thường khi nhắc đến LeNet người ta sẽ nhắc tời phiên bản cuối cùng LeNet-5 hoàn chỉnh nhất.[5] Đây là một kiến trúc mạng thần kinh nhân tạo mang ý nghĩa rất quan trọng trong lịch sử ngành học máy khi là ứng dụng thành công đầu tiên của phương pháp học sâu.
Lịch sử phát triển LeNet
Năm 1988, nhóm nghiên cứu tại phòng thí nghiệm Bell xuất bản một kiến trúc mạng thần kinh tích chập để nhận dạng các chữ số viết tay trên mã bưu chính.[6] Tuy nhiên, các kernel tích chập trong kiến trúc này vẫn được thiết kế thủ công.

Năm 1989, Yann LeCun và cộng sự lần đầu áp dụng thuật toán lan truyền ngược để tự động học các kernel tích chập, tạo ra phiên bản đầu tiên thường được gọi là LeNet-1.[1] Mô hình được huấn luyện trên tập dữ liệu ảnh chữ số viết tay thu thập từ bưu điện thành phố Buffalo, New York, và đạt tỉ lệ lỗi chỉ 1% trên tập kiểm tra.
Năm 1994, cơ sở dữ liệu MNIST được phát triển. Do LeNet-1 có kích thước quá nhỏ để huấn luyện trên tập dữ liệu lớn hơn này, nhóm nghiên cứu cho ra phiên bản LeNet-4 với nhiều feature map hơn và thêm một lớp ẩn fully connected.[3] Không có nhiều thông tin đựoc công bố về LeNet-2 và LeNet-3.
Năm 1998, Yann LeCun, Léon Bottou, Yoshua Bengio và Patrick Haffner công bố phiên bản hoàn chỉnh nhất là LeNet-5 trong một bài báo mô tả các ứng dụng thực tiễn của mạng thần kinh nhân tạo.[4]
Kiến trúc LeNet
LeNet-5 nhận đầu vào là ảnh đen trắng kích thước 32×32 pixel và xử lý qua 7 lớp (không tính lớp đầu vào).[4] Kiến trúc bao gồm hai khối tích chập-lấy mẫu, theo sau là ba lớp fully connected.

- C1 là lớp tích chập đầu tiên, áp dụng 6 kernel kích thước 5×5 lên ảnh đầu vào, tạo ra 6 feature map kích thước 28×28.
- S2 là lớp lấy mẫu (subsampling), thu nhỏ mỗi feature map từ 28×28 xuống 14×14 bằng cách gộp từng vùng 2×2. Khác với average pooling thông thường, mỗi ô trong lớp này có thêm hai tham số có thể học được.
- C3 là lớp tích chập thứ hai, tạo ra 16 feature map kích thước 10×10. Các feature map ở C3 không nhận đầu vào từ tất cả 6 feature map của S2 mà chỉ từ một số nhất định, nhằm giảm số lượng tham số và buộc mạng học các đặc trưng đa dạng hơn.
- S4 là lớp lấy mẫu thứ hai, thu nhỏ 16 feature map từ 10×10 xuống 5×5.
- C5 là lớp tích chập thứ ba với 120 kernel kích thước 5×5, cho ra 120 feature map kích thước 1×1, tương đương với một lớp fully connected.
- F6 là lớp fully connected với 84 neuron.
- Đầu ra là 10 neuron tương ứng với 10 chữ số từ 0 đến 9.
Toàn bộ mạng có khoảng 60.000 tham số có thể học được.[4]
Ứng dụng LeNet
Ứng dụng thực tiễn đầu tiên của LeNet là đọc chữ số viết tay trên séc ngân hàng. Ngay sau khi phát triển LeNet-1 vào năm 1989, nhóm nghiên cứu đã nạp mô hình vào một chip xử lý tín hiệu số AT&T DSP-32C để chạy thời gian thực, đạt tốc độ phân loại 30 chữ số mỗi giây.[1]
Nhóm nghiên cứu sau đó hợp tác với NCR Corporation để đưa hệ thống vào sản phẩm thương mại. Từ tháng 6 năm 1996, NCR triển khai các máy đọc séc quy mô lớn tại các ngân hàng sử dụng LeNet-5. Đến năm 2001, hệ thống này xử lý ước tính 20 triệu séc mỗi ngày, tương đương khoảng 10% tổng số séc lưu hành tại Mỹ.[4]
Ảnh hưởng LeNet
Mặc dù vào thời điểm ra mắt, LeNet chưa được ứng dụng rộng rãi do hạn chế về phần cứng, đặc biệt là thiếu GPU, và các thuật toán khác như máy vector hỗ trợ (SVM) có thể đạt hiệu suất tương đương với chi phí tính toán thấp hơn, LeNet vẫn đặt nền móng cho toàn bộ lĩnh vực thị giác máy tính hiện đại.[4]
Sau thành công của AlexNet vào năm 2012, mạng thần kinh tích chập trở thành phương pháp chủ đạo trong thị giác máy tính. Các kiến trúc hiện đại như ResNet hay VGG đều kế thừa các khái niệm cốt lõi mà LeNet-5 đặt ra: lớp tích chập để trích xuất đặc trưng không gian, lớp pooling để giảm chiều dữ liệu, và lớp fully connected để phân loại.[5]
Tham khảo LeNet
- 1 2 3 LeCun, Y.; Boser, B.; Denker, J. S.; Henderson, D.; Howard, R. E.; Hubbard, W.; Jackel, L. D. (1989). "Backpropagation Applied to Handwritten Zip Code Recognition". Neural Computation. Quyển 1 số 4. tr. 541–551. doi:10.1162/neco.1989.1.4.541.
- ↑ LeCun, Yann; Boser, Bernhard E.; Denker, John S.; Henderson, Donnie; Howard, Richard E.; Hubbard, Wayne E.; Jackel, Lawrence D. (1989). "Handwritten Digit Recognition with a Back-Propagation Network". Advances in Neural Information Processing Systems 2 (NIPS 1989). Morgan Kaufmann. tr. 396–404.
- 1 2 Bottou, L.; Cortes, C.; Denker, J.S.; Drucker, H.; Guyon, I.; Jackel, L.D.; LeCun, Y.; Muller, U.A.; Sackinger, E.; Simard, P.; Vapnik, V. (1994). "Comparison of classifier methods: A case study in handwritten digit recognition". Proceedings of the 12th IAPR International Conference on Pattern Recognition. Quyển 2. IEEE. tr. 77–82. doi:10.1109/ICPR.1994.576879.
- 1 2 3 4 5 6 LeCun, Y.; Bottou, L.; Bengio, Y.; Haffner, P. (1998). "Gradient-based learning applied to document recognition". Proceedings of the IEEE. Quyển 86 số 11. tr. 2278–2324. doi:10.1109/5.726791.
- 1 2 Zhang, Aston; Lipton, Zachary; Li, Mu; Smola, Alexander J. (2024). "7.6. Convolutional Neural Networks (LeNet)". Dive into deep learning. Cambridge New York Port Melbourne New Delhi Singapore: Cambridge University Press. ISBN 978-1-009-38943-3.
- ↑ Denker, John; Gardner, W.; Graf, Hans; Henderson, Donnie; Howard, R.; Hubbard, W.; Jackel, L. D.; Baird, Henry; Guyon, Isabelle (1988). "Neural Network Recognizer for Hand-Written Zip Code Digits". Advances in Neural Information Processing Systems. Quyển 1. Morgan-Kaufmann.