Khác biệt giữa bản sửa đổi của “ImageNet”

Nội dung được xóa Nội dung được thêm vào

Nội tuyến

Phiên bản lúc 14:35, ngày 16 tháng 4 năm 2026

ImageNet là một cơ sở dữ liệu cho nhiệm vụ nhận dạng vật thể (object classification) trong thị giác máy tính.^[1] Với 14.197.122 ảnh được dán nhãn thủ công, trong đó 1.034.908 ảnh có các hộp giới hạn cho nhiệm vụ định vị vật thể (object detection).^[2]^[3]

Từ năm 2010 đến năm 2017, cuộc thi Thử thách Nhận dạng Hình ảnh Quy mô Lớn trên tập dữ liệu này (ImageNet Large Scale Visual Recognition Challenge, ILSVRC) đươc tổ chức thường niên.^[4] Những mô hình đặt thứ hạng cao trong cuộc thi này đã tạo ra các bước đột phá quan trọng trong thuật toán học sâu nói riêng và lĩnh vực học máy nói chung.

Thông tin chung

ImageNet sử dụng hệ thống phân loại dựa trên WordNet, trong đó mỗi khái niệm (không phải mỗi từ, vì có nhiều từ đồng nghĩa, ví dụ "kitty" và "young cat" đều nghĩa là "mèo con") được gọi là một "tập hợp từ đồng nghĩa" (synset). Toàn bộ cơ sở dữ liệu được xây dựng từ 21.841 synset là các danh từ đếm được có thể minh họa bằng hình ảnh, lọc từ hơn 100.000 synset trong WordNet 3.0. Các danh mục trong ImageNet trải dài 9 cấp bậc, từ cấp 1 khá chung chung (như "động vật có vú") đến cấp 9 rất cụ thể (như "chó chăn cừu Đức").^[5] Ảnh được thu thập từ các công cụ tìm kiếm hình ảnh trực tuyến (Google, Flickr, Yahoo...) bằng cách tìm kiếm theo từ đồng nghĩa trong nhiều ngôn ngữ. Ảnh có độ phân giải khác nhau và được lưu ở định dạng RGB; trong thực tế, các mô hình học máy thường chuẩn hóa ảnh về một độ phân giải cố định trước khi xử lý. Mỗi ảnh được gán nhãn đúng một synset. Ngoài nhãn danh mục, một số ảnh còn có hộp giới hạn (bounding box) khoanh vùng vị trí của đối tượng trong ảnh.^[6]

Các phiên bản

Phiên bản đầy đủ ban đầu, gọi là ImageNet-21K, gồm 14.197.122 ảnh chia thành 21.841 danh mục, được phát hành vào mùa thu năm 2011. Không có phân chia huấn luyện/kiểm định/kiểm thử (train/validation/test) chính thức cho ImageNet-21K như MNIST hay CIFAR; một số danh mục chỉ có 1–10 ảnh trong khi nhiều danh mục khác có đến hàng nghìn.^[7] Tập con được sử dụng phổ biến nhất là ImageNet-1K,được sử dụng cho cuộc thi ILSVRC. ImageNet-1K gồm 1.281.167 ảnh huấn luyện, 50.000 ảnh kiểm định và 100.000 ảnh kiểm thử, chia thành 1.000 danh mục lá — tức là các danh mục không có danh mục con nhỏ hơn bên dưới.^[8]

Ngoài ra, còn có một số biến thể được xây dựng cho các mục đích nghiên cứu cụ thể. ImageNet-C (2019) là phiên bản bị nhiễu có chủ đích, dùng để đánh giá độ bền của mô hình trước các biến dạng thông thường.^[9] ImageNetV2 (2019) gồm ba tập kiểm thử mới với 10.000 ảnh mỗi tập, được xây dựng theo cùng phương pháp với ImageNet gốc nhằm kiểm tra khả năng tổng quát hóa của mô hình.^[10] ImageNet-21K-P (2021) là phiên bản đã được lọc và chuẩn hóa của ImageNet-21K, gồm 12.358.688 ảnh từ 11.221 danh mục, tất cả được đổi kích thước về 224×224 pixel.^[7]

Bảng so sánh các phiên bản
Tên	Năm	Số danh mục	Tập huấn luyện	Tập kiểm định	Tập kiểm thử	Dung lượng
PASCAL VOC	2005	20	-	-	-	-
ImageNet-1K	2009	1.000	1.281.167	50.000	100.000	130 GB
ImageNet-21K	2011	21.841	14.197.122	-	-	1,31 TB
ImageNet-C	2019	1.000	-	30.000	-	-
ImageNetV2	2019	1.000	-	-	30.000	-
ImageNet-21K-P	2021	11.221	11.797.632	561.052	-	250 GB

Sai sót và thiên kiến

Dù được gán nhãn ba lần, ImageNet vẫn có tỷ lệ lỗi đáng kể. Ước tính hơn 6% nhãn trong tập kiểm định ImageNet-1K bị sai.^[11] Một nghiên cứu khác cho thấy khoảng 10% nhãn trong ImageNet-1K là mơ hồ hoặc sai; khi được hỏi so sánh giữa nhãn gốc và dự đoán của mô hình hiện đại, người gán nhãn thường chọn dự đoán của mô hình hơn là nhãn chính tay họ gán.^[12] Ngoài lỗi nhãn, ImageNet còn mang theo thiên kiến từ cấu trúc phân loại của WordNet. Vấn đề này đặc biệt rõ ở nhánh phân loại con người: trong số 2.832 synset thuộc nhánh "person" của WordNet, 1.593 synset bị đánh giá là "có khả năng gây xúc phạm". Trong giai đoạn 2018-2020, ImageNet đã tiến hành lọc lại toàn bộ nhánh này, và kết quả chỉ còn 158 synset được giữ lại.^[13] Đến năm 2021, thêm 2.702 danh mục trong nhánh người bị xóa khỏi ImageNet-21K, chỉ còn lại 130 synset.^[14] Cùng năm đó, ImageNet-1K được cập nhật bằng cách làm mờ khuôn mặt xuất hiện trong 997 danh mục không phải người; trong tổng số 1.431.093 ảnh của tập này, 243.198 ảnh (17%) chứa ít nhất một khuôn mặt với tổng cộng 562.626 khuôn mặt. Các thử nghiệm cho thấy việc làm mờ khuôn mặt không ảnh hưởng đáng kể đến hiệu suất của mô hình được huấn luyện trên tệp dữ liệu này.^[15]

Tham khảo

^ Deng, Jia; Dong, Wei; Socher, Richard; Li, Li-Jia; Li, Kai; Fei-Fei, Li (tháng 6 năm 2009). "ImageNet: A large-scale hierarchical image database". 2009 IEEE Conference on Computer Vision and Pattern Recognition. tr. 248–255. doi:10.1109/CVPR.2009.5206848.
^ "ImageNet". www.image-net.org. Truy cập ngày 16 tháng 4 năm 2026.
^ Markoff, John (ngày 19 tháng 11 năm 2012). "Seeking a Better Way to Find Web Images". The New York Times (bằng tiếng Anh). ISSN 0362-4331. Truy cập ngày 16 tháng 4 năm 2026.
^ Russakovsky, Olga; Deng, Jia; Su, Hao; Krause, Jonathan; Satheesh, Sanjeev; Ma, Sean; Huang, Zhiheng; Karpathy, Andrej; Khosla, Aditya (ngày 1 tháng 12 năm 2015). "ImageNet Large Scale Visual Recognition Challenge". International Journal of Computer Vision (bằng tiếng Anh). Quyển 115 số 3. tr. 211–252. doi:10.1007/s11263-015-0816-y. ISSN 1573-1405.
^ Li, F-F. ImageNet. "Crowdsourcing, benchmarking & other cool things." CMU VASC Semin 16 (2010): 18-25.
^ Lỗi chú thích: Thẻ <ref> không hợp lệ; không có nội dung trong ref có tên :42
^ ^a ^b Ridnik, Tal; Ben-Baruch, Emanuel; Noy, Asaf; Zelnik-Manor, Lihi (ngày 5 tháng 8 năm 2021). "ImageNet-21K Pretraining for the Masses". arXiv:2104.10972 [cs.CV].
^ Lỗi chú thích: Thẻ <ref> không hợp lệ; không có nội dung trong ref có tên :22
^ Hendrycks, Dan; Dietterich, Thomas (2019). "Benchmarking Neural Network Robustness to Common Corruptions and Perturbations". arXiv:1903.12261 [cs.LG].
^ Recht, Benjamin; Roelofs, Rebecca; Schmidt, Ludwig; Shankar, Vaishaal (ngày 24 tháng 5 năm 2019). "Do ImageNet Classifiers Generalize to ImageNet?". Proceedings of the 36th International Conference on Machine Learning. PMLR: 5389–5400.
^ Northcutt, Curtis G.; Athalye, Anish; Mueller, Jonas (ngày 7 tháng 11 năm 2021), Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks, arXiv:2103.14749
^ Beyer, Lucas; Hénaff, Olivier J.; Kolesnikov, Alexander; Zhai, Xiaohua; Oord, Aäron van den (ngày 12 tháng 6 năm 2020), Are we done with ImageNet?, arXiv:2006.07159
^ Yang, Kaiyu; Qinami, Klint; Fei-Fei, Li; Deng, Jia; Russakovsky, Olga (ngày 27 tháng 1 năm 2020). "Towards fairer datasets: Filtering and balancing the distribution of the people subtree in the ImageNet hierarchy". Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency (bằng tiếng Anh). ACM. tr. 547–558. doi:10.1145/3351095.3375709. ISBN 978-1-4503-6936-7.
^ "An Update to the ImageNet Website and Dataset". www.image-net.org. Truy cập ngày 13 tháng 11 năm 2024.
^ Yang, Kaiyu; Yau, Jacqueline H.; Fei-Fei, Li; Deng, Jia; Russakovsky, Olga (ngày 28 tháng 6 năm 2022). "A Study of Face Obfuscation in ImageNet". Proceedings of the 39th International Conference on Machine Learning. PMLR: 25313–25330.

[:0-1] Deng, Jia; Dong, Wei; Socher, Richard; Li, Li-Jia; Li, Kai; Fei-Fei, Li (tháng 6 năm 2009). "ImageNet: A large-scale hierarchical image database". 2009 IEEE Conference on Computer Vision and Pattern Recognition. tr. 248–255. doi:10.1109/CVPR.2009.5206848.

[:2-2] "ImageNet". www.image-net.org. Truy cập ngày 16 tháng 4 năm 2026.

[3] Markoff, John (ngày 19 tháng 11 năm 2012). "Seeking a Better Way to Find Web Images". The New York Times (bằng tiếng Anh). ISSN 0362-4331. Truy cập ngày 16 tháng 4 năm 2026.

[:4-4] Russakovsky, Olga; Deng, Jia; Su, Hao; Krause, Jonathan; Satheesh, Sanjeev; Ma, Sean; Huang, Zhiheng; Karpathy, Andrej; Khosla, Aditya (ngày 1 tháng 12 năm 2015). "ImageNet Large Scale Visual Recognition Challenge". International Journal of Computer Vision (bằng tiếng Anh). Quyển 115 số 3. tr. 211–252. doi:10.1007/s11263-015-0816-y. ISSN 1573-1405.

[:5-5] Li, F-F. ImageNet. "Crowdsourcing, benchmarking & other cool things." CMU VASC Semin 16 (2010): 18-25.

[:42-6] Lỗi chú thích: Thẻ <ref> không hợp lệ; không có nội dung trong ref có tên :42

[:3-7] Ridnik, Tal; Ben-Baruch, Emanuel; Noy, Asaf; Zelnik-Manor, Lihi (ngày 5 tháng 8 năm 2021). "ImageNet-21K Pretraining for the Masses". arXiv:2104.10972 [cs.CV].

[:22-8] Lỗi chú thích: Thẻ <ref> không hợp lệ; không có nội dung trong ref có tên :22

[9] Hendrycks, Dan; Dietterich, Thomas (2019). "Benchmarking Neural Network Robustness to Common Corruptions and Perturbations". arXiv:1903.12261 [cs.LG].

[10] Recht, Benjamin; Roelofs, Rebecca; Schmidt, Ludwig; Shankar, Vaishaal (ngày 24 tháng 5 năm 2019). "Do ImageNet Classifiers Generalize to ImageNet?". Proceedings of the 36th International Conference on Machine Learning. PMLR: 5389–5400.

[11] Northcutt, Curtis G.; Athalye, Anish; Mueller, Jonas (ngày 7 tháng 11 năm 2021), Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks, arXiv:2103.14749

[12] Beyer, Lucas; Hénaff, Olivier J.; Kolesnikov, Alexander; Zhai, Xiaohua; Oord, Aäron van den (ngày 12 tháng 6 năm 2020), Are we done with ImageNet?, arXiv:2006.07159

[:7-13] Yang, Kaiyu; Qinami, Klint; Fei-Fei, Li; Deng, Jia; Russakovsky, Olga (ngày 27 tháng 1 năm 2020). "Towards fairer datasets: Filtering and balancing the distribution of the people subtree in the ImageNet hierarchy". Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency (bằng tiếng Anh). ACM. tr. 547–558. doi:10.1145/3351095.3375709. ISBN 978-1-4503-6936-7.

[14] "An Update to the ImageNet Website and Dataset". www.image-net.org. Truy cập ngày 13 tháng 11 năm 2024.

[15] Yang, Kaiyu; Yau, Jacqueline H.; Fei-Fei, Li; Deng, Jia; Russakovsky, Olga (ngày 28 tháng 6 năm 2022). "A Study of Face Obfuscation in ImageNet". Proceedings of the 39th International Conference on Machine Learning. PMLR: 25313–25330.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

@@ Dòng 69: / Dòng 69: @@
 |250 GB
 |}
+=== Sai sót và thiên kiến ===
+Dù được gán nhãn ba lần, ImageNet vẫn có tỷ lệ lỗi đáng kể. Ước tính hơn 6% nhãn trong tập kiểm định ImageNet-1K bị sai.<ref>{{Citation |last1=Northcutt |first1=Curtis G. |title=Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks |date=2021-11-07 |arxiv=2103.14749 |last2=Athalye |first2=Anish |last3=Mueller |first3=Jonas}}</ref> Một nghiên cứu khác cho thấy khoảng 10% nhãn trong ImageNet-1K là mơ hồ hoặc sai; khi được hỏi so sánh giữa nhãn gốc và dự đoán của mô hình hiện đại, người gán nhãn thường chọn dự đoán của mô hình hơn là nhãn chính tay họ gán.<ref>{{Citation |last1=Beyer |first1=Lucas |title=Are we done with ImageNet? |date=2020-06-12 |arxiv=2006.07159 |last2=Hénaff |first2=Olivier J. |last3=Kolesnikov |first3=Alexander |last4=Zhai |first4=Xiaohua |last5=Oord |first5=Aäron van den}}</ref> Ngoài lỗi nhãn, ImageNet còn mang theo [[Thiên kiến thuật toán|thiên kiến]] từ cấu trúc phân loại của WordNet. Vấn đề này đặc biệt rõ ở nhánh phân loại con người: trong số 2.832 synset thuộc nhánh "person" của WordNet, 1.593 synset bị đánh giá là "có khả năng gây xúc phạm". Trong giai đoạn 2018-2020, ImageNet đã tiến hành lọc lại toàn bộ nhánh này, và kết quả chỉ còn 158 synset được giữ lại.<ref name=":7">{{Cite book |last1=Yang |first1=Kaiyu |title=Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency |last2=Qinami |first2=Klint |last3=Fei-Fei |first3=Li |last4=Deng |first4=Jia |last5=Russakovsky |first5=Olga |date=2020-01-27 |publisher=ACM |isbn=978-1-4503-6936-7 |pages=547–558 |language=en |chapter=Towards fairer datasets: Filtering and balancing the distribution of the people subtree in the ImageNet hierarchy |doi=10.1145/3351095.3375709 |chapter-url=https://dl.acm.org/doi/10.1145/3351095.3375709}}</ref> Đến năm 2021, thêm 2.702 danh mục trong nhánh người bị xóa khỏi ImageNet-21K, chỉ còn lại 130 synset.<ref>{{Cite web |title=An Update to the ImageNet Website and Dataset |url=https://www.image-net.org/update-mar-11-2021.php |access-date=2024-11-13 |website=www.image-net.org}}</ref> Cùng năm đó, ImageNet-1K được cập nhật bằng cách làm mờ khuôn mặt xuất hiện trong 997 danh mục không phải người; trong tổng số 1.431.093 ảnh của tập này, 243.198 ảnh (17%) chứa ít nhất một khuôn mặt với tổng cộng 562.626 khuôn mặt. Các thử nghiệm cho thấy việc làm mờ khuôn mặt không ảnh hưởng đáng kể đến hiệu suất của mô hình được huấn luyện trên tệp dữ liệu này.<ref>{{Cite journal |last1=Yang |first1=Kaiyu |last2=Yau |first2=Jacqueline H. |last3=Fei-Fei |first3=Li |last4=Deng |first4=Jia |last5=Russakovsky |first5=Olga |date=2022-06-28 |title=A Study of Face Obfuscation in ImageNet |url=https://proceedings.mlr.press/v162/yang22q.html |journal=Proceedings of the 39th International Conference on Machine Learning |publisher=PMLR |pages=25313–25330}}</ref>
 == Tham khảo ==

Qesefe (thảo luận | đóng góp)

Phiên bản lúc 14:35, ngày 16 tháng 4 năm 2026

Thông tin chung

Các phiên bản

Sai sót và thiên kiến

Tham khảo