Khác biệt giữa bản sửa đổi của “ImageNet”
thông tin chung | |||
| Dòng 6: | Dòng 6: | ||
== Thông tin chung == | == Thông tin chung == | ||
ImageNet sử dụng hệ thống phân loại dựa trên [[WordNet]], trong đó mỗi khái niệm (không phải mỗi từ, vì có nhiều từ đồng nghĩa, ví dụ "kitty" và "young cat" đều nghĩa là "mèo con") được gọi là một "tập hợp từ đồng nghĩa" (''synset''). Toàn bộ cơ sở dữ liệu được xây dựng từ 21.841 synset là các [[danh từ]] [[đếm được]] có thể minh họa bằng hình ảnh, lọc từ hơn 100.000 synset trong WordNet 3.0. Các danh mục trong ImageNet trải dài 9 cấp bậc, từ cấp 1 khá chung chung (như "động vật có vú") đến cấp 9 rất cụ thể (như "chó chăn cừu Đức").<ref name=":5">Li, F-F. ImageNet. "[https://web.archive.org/web/20130115112543/http://www.image-net.org/papers/ImageNet_2010.pdf Crowdsourcing, benchmarking & other cool things]." ''CMU VASC Semin'' 16 (2010): 18-25.</ref> Ảnh được thu thập từ các công cụ tìm kiếm hình ảnh trực tuyến ([[Google]], [[Flickr]], [[Yahoo]]...) bằng cách tìm kiếm theo từ đồng nghĩa trong nhiều ngôn ngữ. Ảnh có độ phân giải khác nhau và được lưu ở định dạng [[RGB]]; trong thực tế, các mô hình học máy thường chuẩn hóa ảnh về một độ phân giải cố định trước khi xử lý. Mỗi ảnh được gán nhãn đúng một synset. Ngoài nhãn danh mục, một số ảnh còn có hộp giới hạn (''bounding box'') khoanh vùng vị trí của đối tượng trong ảnh.<ref name=":42" /> | ImageNet sử dụng hệ thống phân loại dựa trên [[WordNet]], trong đó mỗi khái niệm (không phải mỗi từ, vì có nhiều từ đồng nghĩa, ví dụ "kitty" và "young cat" đều nghĩa là "mèo con") được gọi là một "tập hợp từ đồng nghĩa" (''synset''). Toàn bộ cơ sở dữ liệu được xây dựng từ 21.841 synset là các [[danh từ]] [[đếm được]] có thể minh họa bằng hình ảnh, lọc từ hơn 100.000 synset trong WordNet 3.0. Các danh mục trong ImageNet trải dài 9 cấp bậc, từ cấp 1 khá chung chung (như "động vật có vú") đến cấp 9 rất cụ thể (như "chó chăn cừu Đức").<ref name=":5">Li, F-F. ImageNet. "[https://web.archive.org/web/20130115112543/http://www.image-net.org/papers/ImageNet_2010.pdf Crowdsourcing, benchmarking & other cool things]." ''CMU VASC Semin'' 16 (2010): 18-25.</ref> Ảnh được thu thập từ các công cụ tìm kiếm hình ảnh trực tuyến ([[Google]], [[Flickr]], [[Yahoo]]...) bằng cách tìm kiếm theo từ đồng nghĩa trong nhiều ngôn ngữ. Ảnh có độ phân giải khác nhau và được lưu ở định dạng [[RGB]]; trong thực tế, các mô hình học máy thường chuẩn hóa ảnh về một độ phân giải cố định trước khi xử lý. Mỗi ảnh được gán nhãn đúng một synset. Ngoài nhãn danh mục, một số ảnh còn có hộp giới hạn (''bounding box'') khoanh vùng vị trí của đối tượng trong ảnh.<ref name=":42" /> | ||
=== Các phiên bản === | |||
Phiên bản đầy đủ ban đầu, gọi là ImageNet-21K, gồm 14.197.122 ảnh chia thành 21.841 danh mục, được phát hành vào mùa thu năm 2011. Không có phân chia huấn luyện/kiểm định/kiểm thử (''train/validation/test'') chính thức cho ImageNet-21K như [[Cơ sở dữ liệu MNIST|MNIST]] hay [[CIFAR]]; một số danh mục chỉ có 1–10 ảnh trong khi nhiều danh mục khác có đến hàng nghìn.<ref name=":3">{{cite arXiv|eprint=2104.10972|class=cs.CV|first1=Tal|last1=Ridnik|first2=Emanuel|last2=Ben-Baruch|title=ImageNet-21K Pretraining for the Masses|date=2021-08-05|last3=Noy|first3=Asaf|last4=Zelnik-Manor|first4=Lihi}}</ref> Tập con được sử dụng phổ biến nhất là ImageNet-1K,được sử dụng cho cuộc thi ILSVRC. ImageNet-1K gồm 1.281.167 ảnh huấn luyện, 50.000 ảnh kiểm định và 100.000 ảnh kiểm thử, chia thành 1.000 danh mục lá — tức là các danh mục không có danh mục con nhỏ hơn bên dưới.<ref name=":22" /> | |||
Ngoài ra, còn có một số biến thể được xây dựng cho các mục đích nghiên cứu cụ thể. ImageNet-C (2019) là phiên bản bị nhiễu có chủ đích, dùng để đánh giá độ bền của mô hình trước các biến dạng thông thường.<ref>{{cite arXiv|eprint=1903.12261|last1=Hendrycks|first1=Dan|last2=Dietterich|first2=Thomas|title=Benchmarking Neural Network Robustness to Common Corruptions and Perturbations|date=2019|class=cs.LG}}</ref> ImageNetV2 (2019) gồm ba tập kiểm thử mới với 10.000 ảnh mỗi tập, được xây dựng theo cùng phương pháp với ImageNet gốc nhằm kiểm tra khả năng tổng quát hóa của mô hình.<ref>{{Cite journal |last1=Recht |first1=Benjamin |last2=Roelofs |first2=Rebecca |last3=Schmidt |first3=Ludwig |last4=Shankar |first4=Vaishaal |date=2019-05-24 |title=Do ImageNet Classifiers Generalize to ImageNet? |url=https://proceedings.mlr.press/v97/recht19a.html |journal=Proceedings of the 36th International Conference on Machine Learning |publisher=PMLR |pages=5389–5400}}</ref> ImageNet-21K-P (2021) là phiên bản đã được lọc và chuẩn hóa của ImageNet-21K, gồm 12.358.688 ảnh từ 11.221 danh mục, tất cả được đổi kích thước về 224×224 pixel.<ref name=":3" /> | |||
{| class="wikitable" | |||
|+Bảng so sánh các phiên bản | |||
!Tên | |||
!Năm | |||
!Số danh mục | |||
!Tập huấn luyện | |||
!Tập kiểm định | |||
!Tập kiểm thử | |||
!Dung lượng | |||
|- | |||
|PASCAL VOC | |||
|2005 | |||
|20 | |||
| - | |||
| - | |||
| - | |||
| - | |||
|- | |||
|ImageNet-1K | |||
|2009 | |||
|1.000 | |||
|1.281.167 | |||
|50.000 | |||
|100.000 | |||
|130 GB | |||
|- | |||
|ImageNet-21K | |||
|2011 | |||
|21.841 | |||
|14.197.122 | |||
| - | |||
| - | |||
|1,31 TB | |||
|- | |||
|ImageNet-C | |||
|2019 | |||
|1.000 | |||
| - | |||
|30.000 | |||
| - | |||
| - | |||
|- | |||
|ImageNetV2 | |||
|2019 | |||
|1.000 | |||
| - | |||
| - | |||
|30.000 | |||
| - | |||
|- | |||
|ImageNet-21K-P | |||
|2021 | |||
|11.221 | |||
|11.797.632 | |||
|561.052 | |||
| - | |||
|250 GB | |||
|} | |||
== Tham khảo == | == Tham khảo == | ||
Phiên bản lúc 14:34, ngày 16 tháng 4 năm 2026

ImageNet là một cơ sở dữ liệu cho nhiệm vụ nhận dạng vật thể (object classification) trong thị giác máy tính.[1] Với 14.197.122 ảnh được dán nhãn thủ công, trong đó 1.034.908 ảnh có các hộp giới hạn cho nhiệm vụ định vị vật thể (object detection).[2][3]
Từ năm 2010 đến năm 2017, cuộc thi Thử thách Nhận dạng Hình ảnh Quy mô Lớn trên tập dữ liệu này (ImageNet Large Scale Visual Recognition Challenge, ILSVRC) đươc tổ chức thường niên.[4] Những mô hình đặt thứ hạng cao trong cuộc thi này đã tạo ra các bước đột phá quan trọng trong thuật toán học sâu nói riêng và lĩnh vực học máy nói chung.
Thông tin chung
ImageNet sử dụng hệ thống phân loại dựa trên WordNet, trong đó mỗi khái niệm (không phải mỗi từ, vì có nhiều từ đồng nghĩa, ví dụ "kitty" và "young cat" đều nghĩa là "mèo con") được gọi là một "tập hợp từ đồng nghĩa" (synset). Toàn bộ cơ sở dữ liệu được xây dựng từ 21.841 synset là các danh từ đếm được có thể minh họa bằng hình ảnh, lọc từ hơn 100.000 synset trong WordNet 3.0. Các danh mục trong ImageNet trải dài 9 cấp bậc, từ cấp 1 khá chung chung (như "động vật có vú") đến cấp 9 rất cụ thể (như "chó chăn cừu Đức").[5] Ảnh được thu thập từ các công cụ tìm kiếm hình ảnh trực tuyến (Google, Flickr, Yahoo...) bằng cách tìm kiếm theo từ đồng nghĩa trong nhiều ngôn ngữ. Ảnh có độ phân giải khác nhau và được lưu ở định dạng RGB; trong thực tế, các mô hình học máy thường chuẩn hóa ảnh về một độ phân giải cố định trước khi xử lý. Mỗi ảnh được gán nhãn đúng một synset. Ngoài nhãn danh mục, một số ảnh còn có hộp giới hạn (bounding box) khoanh vùng vị trí của đối tượng trong ảnh.[6]
Các phiên bản
Phiên bản đầy đủ ban đầu, gọi là ImageNet-21K, gồm 14.197.122 ảnh chia thành 21.841 danh mục, được phát hành vào mùa thu năm 2011. Không có phân chia huấn luyện/kiểm định/kiểm thử (train/validation/test) chính thức cho ImageNet-21K như MNIST hay CIFAR; một số danh mục chỉ có 1–10 ảnh trong khi nhiều danh mục khác có đến hàng nghìn.[7] Tập con được sử dụng phổ biến nhất là ImageNet-1K,được sử dụng cho cuộc thi ILSVRC. ImageNet-1K gồm 1.281.167 ảnh huấn luyện, 50.000 ảnh kiểm định và 100.000 ảnh kiểm thử, chia thành 1.000 danh mục lá — tức là các danh mục không có danh mục con nhỏ hơn bên dưới.[8]
Ngoài ra, còn có một số biến thể được xây dựng cho các mục đích nghiên cứu cụ thể. ImageNet-C (2019) là phiên bản bị nhiễu có chủ đích, dùng để đánh giá độ bền của mô hình trước các biến dạng thông thường.[9] ImageNetV2 (2019) gồm ba tập kiểm thử mới với 10.000 ảnh mỗi tập, được xây dựng theo cùng phương pháp với ImageNet gốc nhằm kiểm tra khả năng tổng quát hóa của mô hình.[10] ImageNet-21K-P (2021) là phiên bản đã được lọc và chuẩn hóa của ImageNet-21K, gồm 12.358.688 ảnh từ 11.221 danh mục, tất cả được đổi kích thước về 224×224 pixel.[7]
| Tên | Năm | Số danh mục | Tập huấn luyện | Tập kiểm định | Tập kiểm thử | Dung lượng |
|---|---|---|---|---|---|---|
| PASCAL VOC | 2005 | 20 | - | - | - | - |
| ImageNet-1K | 2009 | 1.000 | 1.281.167 | 50.000 | 100.000 | 130 GB |
| ImageNet-21K | 2011 | 21.841 | 14.197.122 | - | - | 1,31 TB |
| ImageNet-C | 2019 | 1.000 | - | 30.000 | - | - |
| ImageNetV2 | 2019 | 1.000 | - | - | 30.000 | - |
| ImageNet-21K-P | 2021 | 11.221 | 11.797.632 | 561.052 | - | 250 GB |
Tham khảo
- ^ Deng, Jia; Dong, Wei; Socher, Richard; Li, Li-Jia; Li, Kai; Fei-Fei, Li (tháng 6 năm 2009). "ImageNet: A large-scale hierarchical image database". 2009 IEEE Conference on Computer Vision and Pattern Recognition. tr. 248–255. doi:10.1109/CVPR.2009.5206848.
- ^ "ImageNet". www.image-net.org. Truy cập ngày 16 tháng 4 năm 2026.
- ^ Markoff, John (ngày 19 tháng 11 năm 2012). "Seeking a Better Way to Find Web Images". The New York Times (bằng tiếng Anh). ISSN 0362-4331. Truy cập ngày 16 tháng 4 năm 2026.
- ^ Russakovsky, Olga; Deng, Jia; Su, Hao; Krause, Jonathan; Satheesh, Sanjeev; Ma, Sean; Huang, Zhiheng; Karpathy, Andrej; Khosla, Aditya (ngày 1 tháng 12 năm 2015). "ImageNet Large Scale Visual Recognition Challenge". International Journal of Computer Vision (bằng tiếng Anh). Quyển 115 số 3. tr. 211–252. doi:10.1007/s11263-015-0816-y. ISSN 1573-1405.
- ^ Li, F-F. ImageNet. "Crowdsourcing, benchmarking & other cool things." CMU VASC Semin 16 (2010): 18-25.
- ^ Lỗi chú thích: Thẻ
<ref>không hợp lệ; không có nội dung trong ref có tên:42 - ^ a b Ridnik, Tal; Ben-Baruch, Emanuel; Noy, Asaf; Zelnik-Manor, Lihi (ngày 5 tháng 8 năm 2021). "ImageNet-21K Pretraining for the Masses". arXiv:2104.10972 [cs.CV].
- ^ Lỗi chú thích: Thẻ
<ref>không hợp lệ; không có nội dung trong ref có tên:22 - ^ Hendrycks, Dan; Dietterich, Thomas (2019). "Benchmarking Neural Network Robustness to Common Corruptions and Perturbations". arXiv:1903.12261 [cs.LG].
- ^ Recht, Benjamin; Roelofs, Rebecca; Schmidt, Ludwig; Shankar, Vaishaal (ngày 24 tháng 5 năm 2019). "Do ImageNet Classifiers Generalize to ImageNet?". Proceedings of the 36th International Conference on Machine Learning. PMLR: 5389–5400.