Lớp (mạng thần kinh nhân tạo)

Một lớp (tiếng Anh: Layer) trong một mạng thần kinh nhân tạo là một hàm thành phần của một mạng thần kinh truyền thẳng.^[1]^[2] Nó bao gồm nhiều node không được kết nối với nhau, nhưng cùng nhau tiếp nhận các đầu vào từ lớp phía trước để tính toán ra kết quả truyền ra lớp phía sau.

Trong một mạng học sâu, thường có một lớp đầu vào, các lớp ẩn ở giữa, và một lớp đầu ra.

Định nghĩa toán học Lớp (mạng thần kinh nhân tạo)

Về mặt toán học, nếu coi một mạng thần kinh truyền thẳng với $d$ lớp là một tập hợp $d$ hàng được kết nối với nhau thành một chuỗi:

f^{(d)}(\cdot ,\theta ^{(d)})\circ f^{(d-1)}(\cdot ,\theta ^{(d-1)})\circ ...\circ f^{(1)}(\cdot ,\theta ^{(1)})

Với đầu ra bằng:

f(x)=f^{(d)}(f^{(d-1)}(...(f^{(1)}(x))...))

Thì hàm vectơ $f^{(i)}$ là lớp thứ $i$ của mạng này.^[1] Trong đó, $\theta ^{(i)}$ là tham số của nó.

Phân loại Lớp (mạng thần kinh nhân tạo)

Lớp kết nối đầy đủ

Lớp kết nối đầy đủ (tiếng Anh: fully-connected, viết tắt là FC, hoặc dense) là loại lớp cơ bản nhất trong mạng neuron. Trong lớp này, mỗi neuron đầu vào được kết nối với mọi neuron đầu ra của lớp trước đó.^[3]^[4] Về mặt toán học, lớp FC thực hiện một phép biến đổi tuyến tính theo sau bởi một hàm kích hoạt phi tuyến:

y=\sigma (W\cdot x+b)

Trong đó, $x\in \mathbb {R} ^{n_{in}}$ là vectơ đầu vào, $W\in \mathbb {R} ^{n_{out}\times n_{in}}$ là ma trận trọng số, $b\in \mathbb {R} ^{n_{out}}$ là vectơ đo độ lệch, còn $\sigma$ là hàm kích hoạt. Mỗi kết nối mang một trọng số riêng biệt và mỗi neuron có độ lệch riêng: kết nối giữa neuron $i$ của lớp trước và $j$ của lớp này có giá trị là $W[i][j]$ với độ lệch $b[j]$ .^[1]

Lớp FC thường được sử dụng cho các mạng Perceptron nhiều lớp (Multilayer Perceptron)^[4] hoặc ở các tầng cuối của mạng để tổng hợp đặc trưng và thực hiện nhiệm vụ phân loại hoặc hồi quy.^[1] Nhược điểm của nó là số lượng tham số cần được học lớn, đặc biệt khi kích cỡ của $x$ lớn. Ngoài ra, nó cũng không mấy hữu hiệu với các đầu vào cần thông tin về không gian như hình ảnh hoặc theo chuỗi như ngôn ngữ.

Lớp làm phẳng

Lớp làm phẳng (Flatten) thực hiện nhiệm vụ đơn giản nhưng cần thiết: chuyển đổi đầu vào nhiều chiều thành vectơ một chiều để chuẩn bị cho đầu vào của lớp kết nối đầy đủ.^[5] Ví dụ, đầu ra từ một lớp tích chập có kích thước $H\times W\times C$ sẽ được làm phẳng thành vectơ với kích thước $1\times (H\cdot W\cdot C)$ . Lớp này không chứa tham số toán học, không thực hiện tính toán, và không làm thay đổi giá trị đầu vào.

Lớp tích chập

Lớp tích chập (Convolutional, viết tắt là Conv) là khối xây dựng cốt lõi của mạng neuron tích chập (CNN), chuyên xử lý dữ liệu dạng lưới như hình ảnh.^[6]^[7] Khác với lớp FC, lớp tích chập sử dụng kết nối cục bộ và chia sẻ trọng số, cho phép mô hình hóa các quan hệ không gian một cách hiệu quả.

Một bộ lọc (kernel hoặc filter) có kích thước cố định "trượt" trên toàn bộ đầu vào, tại mỗi vị trí thực hiện phép tích vô hướng giữa bộ lọc và vùng cục bộ có kích thước giống với bộ lọc của đầu vào để tạo ra một phần tử trên bản đồ đặc trưng (feature map).

(F\ast K)[i][j]=\sum _{m=0}^{k_{h}-1}\sum _{n=0}^{k_{w}-1}F[i-m][j-n]\cdot K[m][n]

Trong đó, $F$ là đầu vào, $K$ là bộ lọc với kích cỡ $k_{h}\times k_{w}$ .^[1]^[7] Trong học sâu, phép toán này thường là tương quan chéo (cross-correlation) chứ không phải tích chập đúng nghĩa vì bộ lọc không bị đảo ngược.

Lớp lấy mẫu

Lớp lấy mẫu (Pooling) thực hiện giảm chiều không gian của bản đồ đặc trưng đầu ra từ các lớp tích chập nhằm giảm độ phức tạp tính toán.^[1] Về cơ bản, nó chính là một lớp tích chập nhưng không chứa tham số học.^[6]^[7] Một cửa sổ có kích thước cố định (ví dụ 2×2) trượt trên đầu vào, tại mỗi vị trí tính một giá trị đầu ra duy nhất bằng một hàm xác định (deterministic function). Hai loại phổ biến nhất là max pooling lấy giá trị lớn nhất từ cửa sổ trên đầu vào, và average pooling lấy giá trị trung bình của chúng.

Lớp hàm kích hoạt

Lớp hàm kích hoạt (Activation) áp dụng một hàm phi tuyến lên đầu ra của lớp tuyến tính (FC, Conv, ...) nhằm tạo ra tính phi tuyến cho mô hình. Nếu không có hàm kích hoạt, toàn bộ mạng neuron sẽ chỉ là một chuỗi các phép biến đổi tuyến tính, tương đương với một phép biến đổi tuyến tính duy nhất, không thể mô hình hóa các mối quan hệ phức tạp.^[1]

Một số hàm phổ biến bao gồm:

ReLU (Rectified Linear Unit): $ReLU(x)=max(0,x)$ và các biến thể.
Sigmoid: $\sigma (x)={\frac {1}{1+e^{-x}}}$ cho đầu ra trong khoảng $(0,1)$ , thường dùng ở lớp đầu ra cho bài toán phân loại nhị phân.
Tanh: $\tanh(x)={\frac {e^{x}-e^{-x}}{e^{x}+e^{-x}}}$ đầu ra trong khoảng $(-1,1)$ .
Softmax: ${\text{softmax}}(z_{i})={\frac {e^{z_{i}}}{\sum _{j=1}^{K}e^{z_{j}}}}$ chuyển đổi vectơ đầu ra thành phân phối xác suất, thường dùng ở lớp cuối cùng cho bài toán phân loại nhiều nhãn.

Lớp attention

Lớp attention có thể được định nghĩa như một phép tổng hợp có trọng số của một tập các giá trị, trong đó trọng số được tính dựa trên mức độ tương đồng giữa truy vấn (query) và chìa khóa truy xuất (key) cho một giá trị (value).^[8]

Quy trình tính toán attention (Scaled Dot-Product Attention) gồm ba bước:

Tính điểm tương đồng giữa query và từng key: $scores={\frac {Q\cdot K^{T}}{\sqrt {d_{k}}}}$
Chuẩn hóa điểm số bằng softmax để có trọng số: $m=softmax(scores)$
Tính tổng có trọng số: $o=\sum _{i}b_{i}\cdot scores_{i}$

Các biến thể quan trọng bao gồm Self‑Attention ( $Q$ , $K$ , $V$ đều đến từ cùng một nguồn) và Multi‑Head Attention (sử dụng nhiều phép chiếu khác nhau để nắm bắt nhiều loại mối quan hệ).^[8]

Lớp chuẩn hóa

Lớp chuẩn hóa (normalized) được sử dụng điều chỉnh phân phối của các giá trị kích hoạt nhằm tăng tốc độ hội tụ, cải thiện tính ổn định, giảm quá khớp, và tăng tính phổ quát với các dữ liệu mới.^[9] Tránh nhầm lẫn với chuẩn hóa dữ liệu, lớp chuẩn hóa này được áp dụng cho đầu ra của các lớp ẩn.

y=\gamma \cdot {\frac {x-\mu }{\sqrt {\sigma ^{2}+\epsilon }}}+\beta

Trong đó, $\gamma$ là tham số tỉ lệ (scale parameter) có thể học được, cho phép mô hình khôi phục lại biên độ tín hiệu ban đầu nếu cần thiết; $\beta$ là tham số dịch chuyển (shift parameter) có thể học được, giúp khôi phục lại giá trị trung bình; $\mu$ và $\sigma ^{2}$ lần lượt là giá trị trung bình và phương sai được tính trên một tập hợp các phần tử xác định; và $\epsilon$ là một hằng số dương rất nhỏ được thêm vào để tránh phép chia cho 0.

Sự khác biệt cốt lõi giữa các phương pháp chuẩn hóa kích hoạt nằm ở tập hợp các phần tử được chọn để tính toán thống kê $\mu$ và $\sigma ^{2}$ . Các loại chuẩn hóa kích hoạt phổ biến bao gồm:

Batch Normalization: Theo toàn bộ các mẫu trong cùng một batch (các mẫu được sử dụng để mô hình học trong vòng này), với $\mu$ là giá trị trung bình cho tất cả các đặc trưng (feature) trong các mẫu và $\sigma$ là phương sai. Cụ thể, thống kê được tính độc lập cho từng đặc trưng (kênh) trên toàn bộ chiều batch và chiều không gian. Phương pháp này giúp giảm hiện tượng Dịch chuyển đồng biến nội tại (Internal Covariate Shift), cho phép sử dụng tốc độ học lớn hơn và hoạt động như một cơ chế điều chuẩn nhẹ.^[10]
Layer Normalization: Tính toán giá trị trung bình và phương sai trên toàn bộ các đặc trưng (kênh) của cùng một mẫu đơn lẻ, độc lập với các mẫu khác trong batch. $\mu$ và $\sigma$ được tính trên chiều đặc trưng. Nhờ không phụ thuộc vào kích thước batch, phương pháp này đặc biệt hiệu quả trong các mô hình xử lý chuỗi như RNN hay kiến trúc Transformer, đồng thời hoạt động tốt trong các tác vụ có batch nhỏ.^[11]
Instance Normalization: Thực hiện chuẩn hóa cho từng kênh riêng biệt của từng mẫu đơn lẻ. $\mu$ và $\sigma$ được tính trên các chiều không gian (ví dụ: chiều cao và chiều rộng của ảnh). Phương pháp này loại bỏ thông tin về độ tương phản và cường độ đặc trưng cho từng trường hợp cụ thể, do đó được ưa chuộng trong các tác vụ chuyển đổi phong cách hình ảnh (Style Transfer) vì nó giúp tách biệt phần nội dung và phần phong cách của bức ảnh.^[12]
Group Normalization: Là biến thể trung gian giữa Layer Normalization và Instance Normalization. Phương pháp này chia các kênh thành các nhóm nhỏ và tính toán thống kê $\mu$ và $\sigma$ trong phạm vi nhóm đó cho từng mẫu. Cách tiếp cận này khắc phục hạn chế của Batch Normalization khi kích thước batch quá nhỏ (ví dụ trong các tác vụ phân đoạn ảnh hoặc phát hiện đối tượng vốn tiêu tốn nhiều bộ nhớ GPU).^[13]
RMSNorm (Root Mean Square Layer Normalization): Một biến thể đơn giản hóa của Layer Normalization, chỉ sử dụng căn bậc hai của trung bình bình phương (RMS) để chuẩn hóa biên độ của vectơ kích hoạt mà bỏ qua bước trừ đi giá trị trung bình $\mu$ . Công thức được rút gọn thành $y=\gamma \cdot {\frac {x}{\sqrt {{\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{2}+\epsilon }}}$ (không có tham số $\beta$ ). Việc loại bỏ phép tính trung bình giúp giảm chi phí tính toán đáng kể nhưng vẫn duy trì được sự ổn định của quá trình huấn luyện, do đó được sử dụng rộng rãi trong các Mô hình ngôn ngữ lớn (LLM) hiện đại.^[14]

Tham khảo Lớp (mạng thần kinh nhân tạo)

1 2 3 4 5 6 7 Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). Deep learning. Adaptive computation and machine learning. Cambridge, Massachusetts: The MIT Press. ISBN 978-0-262-03561-3.
↑ Zhang, Aston; Lipton, Zachary; Li, Mu; Smola, Alexander J. (2024). Dive into deep learning. Cambridge New York Port Melbourne New Delhi Singapore: Cambridge University Press. ISBN 978-1-009-38943-3.
↑ Rosenblatt, F. (1958). "The perceptron: A probabilistic model for information storage and organization in the brain". Psychological Review (bằng tiếng Anh). Quyển 65 số 6. tr. 386–408. doi:10.1037/h0042519. ISSN 1939-1471.
1 2 Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (tháng 10 năm 1986). "Learning representations by back-propagating errors". Nature (bằng tiếng Anh). Quyển 323 số 6088. tr. 533–536. doi:10.1038/323533a0. ISSN 0028-0836.
↑ Ali, Muhammad Shoaib (ngày 23 tháng 6 năm 2022). "Flattening CNN layers for Neural Network and basic concepts". Medium (bằng tiếng Anh). Bản gốc lưu trữ ngày 5 tháng 7 năm 2024. Truy cập ngày 14 tháng 4 năm 2026.
1 2 Fukushima, Kunihiko (tháng 4 năm 1980). "Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position". Biological Cybernetics (bằng tiếng Anh). Quyển 36 số 4. tr. 193–202. doi:10.1007/BF00344251. ISSN 0340-1200.
1 2 3 LeCun, Y.; Boser, B.; Denker, J. S.; Henderson, D.; Howard, R. E.; Hubbard, W.; Jackel, L. D. (tháng 12 năm 1989). "Backpropagation Applied to Handwritten Zip Code Recognition". Neural Computation (bằng tiếng Anh). Quyển 1 số 4. tr. 541–551. doi:10.1162/neco.1989.1.4.541. ISSN 0899-7667.
1 2 Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Ł ukasz; Polosukhin, Illia (2017). "Attention is All you Need". Advances in Neural Information Processing Systems. Quyển 30. Curran Associates, Inc.
↑ Huang, Lei (2022). "Normalization Techniques in Deep Learning". Synthesis Lectures on Computer Vision. doi:10.1007/978-3-031-14595-7. ISSN 2153-1056.
↑ Ioffe, Sergey; Szegedy, Christian (2015). "Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift". Proceedings of the 32nd International Conference on Machine Learning (ICML). tr. 448–456.
↑ Ba, Jimmy Lei; Kiros, Jamie Ryan; Hinton, Geoffrey E. (2016). "Layer Normalization". arXiv preprint arXiv:1607.06450.
↑ Ulyanov, Dmitry; Vedaldi, Andrea; Lempitsky, Victor (2016). "Instance Normalization: The Missing Ingredient for Fast Stylization". arXiv preprint arXiv:1607.08022.
↑ Wu, Yuxin; He, Kaiming (2018). "Group Normalization". Proceedings of the European Conference on Computer Vision (ECCV). tr. 3–19.
↑ Zhang, Biao; Sennrich, Rico (2019). "Root Mean Square Layer Normalization". Advances in Neural Information Processing Systems 32 (NeurIPS).

[:0-1] 1 2 3 4 5 6 7 Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). Deep learning. Adaptive computation and machine learning. Cambridge, Massachusetts: The MIT Press. ISBN 978-0-262-03561-3.

[2] Zhang, Aston; Lipton, Zachary; Li, Mu; Smola, Alexander J. (2024). Dive into deep learning. Cambridge New York Port Melbourne New Delhi Singapore: Cambridge University Press. ISBN 978-1-009-38943-3.

[3] Rosenblatt, F. (1958). "The perceptron: A probabilistic model for information storage and organization in the brain". Psychological Review (bằng tiếng Anh). Quyển 65 số 6. tr. 386–408. doi:10.1037/h0042519. ISSN 1939-1471.

[:1-4] 1 2 Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (tháng 10 năm 1986). "Learning representations by back-propagating errors". Nature (bằng tiếng Anh). Quyển 323 số 6088. tr. 533–536. doi:10.1038/323533a0. ISSN 0028-0836.

[5] Ali, Muhammad Shoaib (ngày 23 tháng 6 năm 2022). "Flattening CNN layers for Neural Network and basic concepts". Medium (bằng tiếng Anh). Bản gốc lưu trữ ngày 5 tháng 7 năm 2024. Truy cập ngày 14 tháng 4 năm 2026.

[:2-6] 1 2 Fukushima, Kunihiko (tháng 4 năm 1980). "Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position". Biological Cybernetics (bằng tiếng Anh). Quyển 36 số 4. tr. 193–202. doi:10.1007/BF00344251. ISSN 0340-1200.

[:3-7] 1 2 3 LeCun, Y.; Boser, B.; Denker, J. S.; Henderson, D.; Howard, R. E.; Hubbard, W.; Jackel, L. D. (tháng 12 năm 1989). "Backpropagation Applied to Handwritten Zip Code Recognition". Neural Computation (bằng tiếng Anh). Quyển 1 số 4. tr. 541–551. doi:10.1162/neco.1989.1.4.541. ISSN 0899-7667.

[:4-8] 1 2 Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Ł ukasz; Polosukhin, Illia (2017). "Attention is All you Need". Advances in Neural Information Processing Systems. Quyển 30. Curran Associates, Inc.

[9] Huang, Lei (2022). "Normalization Techniques in Deep Learning". Synthesis Lectures on Computer Vision. doi:10.1007/978-3-031-14595-7. ISSN 2153-1056.

[10] Ioffe, Sergey; Szegedy, Christian (2015). "Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift". Proceedings of the 32nd International Conference on Machine Learning (ICML). tr. 448–456.

[11] Ba, Jimmy Lei; Kiros, Jamie Ryan; Hinton, Geoffrey E. (2016). "Layer Normalization". arXiv preprint arXiv:1607.06450.

[12] Ulyanov, Dmitry; Vedaldi, Andrea; Lempitsky, Victor (2016). "Instance Normalization: The Missing Ingredient for Fast Stylization". arXiv preprint arXiv:1607.08022.

[13] Wu, Yuxin; He, Kaiming (2018). "Group Normalization". Proceedings of the European Conference on Computer Vision (ECCV). tr. 3–19.

[14] Zhang, Biao; Sennrich, Rico (2019). "Root Mean Square Layer Normalization". Advances in Neural Information Processing Systems 32 (NeurIPS).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]