ImageNet

ImageNet là một cơ sở dữ liệu cho nhiệm vụ nhận dạng vật thể (object classification) trong thị giác máy tính.[1] Với 14.197.122 ảnh được dán nhãn thủ công, trong đó 1.034.908 ảnh có các hộp giới hạn cho nhiệm vụ định vị vật thể (object detection).[2][3]
Từ năm 2010 đến năm 2017, cuộc thi Thử thách Nhận dạng Hình ảnh Quy mô Lớn trên tập dữ liệu này (ImageNet Large Scale Visual Recognition Challenge, ILSVRC) đươc tổ chức thường niên.[4] Những mô hình đặt thứ hạng cao trong cuộc thi này đã tạo ra các bước đột phá quan trọng trong thuật toán học sâu nói riêng và lĩnh vực học máy nói chung.
Tệp dữ liệu ImageNet
ImageNet sử dụng hệ thống phân loại dựa trên WordNet, trong đó mỗi khái niệm (không phải mỗi từ, vì có nhiều từ đồng nghĩa, ví dụ "kitty" và "young cat" đều nghĩa là "mèo con") được gọi là một "tập hợp từ đồng nghĩa" (synset). Toàn bộ cơ sở dữ liệu được xây dựng từ 21.841 synset là các danh từ đếm được có thể minh họa bằng hình ảnh, lọc từ hơn 100.000 synset trong WordNet 3.0. Các danh mục trong ImageNet trải dài 9 cấp bậc, từ cấp 1 khá chung chung (như "động vật có vú") đến cấp 9 rất cụ thể (như "chó chăn cừu Đức").[5] Ảnh được thu thập từ các công cụ tìm kiếm hình ảnh trực tuyến (Google, Flickr, Yahoo...) bằng cách tìm kiếm theo từ đồng nghĩa trong nhiều ngôn ngữ. Ảnh có độ phân giải khác nhau và được lưu ở định dạng RGB; trong thực tế, các mô hình học máy thường chuẩn hóa ảnh về một độ phân giải cố định trước khi xử lý. Mỗi ảnh được gán nhãn đúng một synset. Ngoài nhãn danh mục, một số ảnh còn có hộp giới hạn (bounding box) khoanh vùng vị trí của đối tượng trong ảnh.[4]
Các phiên bản
Phiên bản đầy đủ ban đầu, gọi là ImageNet-21K, gồm 14.197.122 ảnh chia thành 21.841 danh mục, được phát hành vào mùa thu năm 2011. Không có phân chia huấn luyện/kiểm định/kiểm thử (train/validation/test) chính thức cho ImageNet-21K như MNIST hay CIFAR; một số danh mục chỉ có 1–10 ảnh trong khi nhiều danh mục khác có đến hàng nghìn.[6] Tập con được sử dụng phổ biến nhất là ImageNet-1K,được sử dụng cho cuộc thi ILSVRC. ImageNet-1K gồm 1.281.167 ảnh huấn luyện, 50.000 ảnh kiểm định và 100.000 ảnh kiểm thử, chia thành 1.000 danh mục lá — tức là các danh mục không có danh mục con nhỏ hơn bên dưới.[2]
Ngoài ra, còn có một số biến thể được xây dựng cho các mục đích nghiên cứu cụ thể. ImageNet-C (2019) là phiên bản bị nhiễu có chủ đích, dùng để đánh giá độ bền của mô hình trước các biến dạng thông thường.[7] ImageNetV2 (2019) gồm ba tập kiểm thử mới với 10.000 ảnh mỗi tập, được xây dựng theo cùng phương pháp với ImageNet gốc nhằm kiểm tra khả năng tổng quát hóa của mô hình.[8] ImageNet-21K-P (2021) là phiên bản đã được lọc và chuẩn hóa của ImageNet-21K, gồm 12.358.688 ảnh từ 11.221 danh mục, tất cả được đổi kích thước về 224×224 pixel.[6]
| Tên | Năm | Số danh mục | Tập huấn luyện | Tập kiểm định | Tập kiểm thử | Dung lượng |
|---|---|---|---|---|---|---|
| PASCAL VOC | 2005 | 20 | - | - | - | - |
| ImageNet-1K | 2009 | 1.000 | 1.281.167 | 50.000 | 100.000 | 130 GB |
| ImageNet-21K | 2011 | 21.841 | 14.197.122 | - | - | 1,31 TB |
| ImageNet-C | 2019 | 1.000 | - | 30.000 | - | - |
| ImageNetV2 | 2019 | 1.000 | - | - | 30.000 | - |
| ImageNet-21K-P | 2021 | 11.221 | 11.797.632 | 561.052 | - | 250 GB |
Sai sót và thiên kiến
Dù được gán nhãn ba lần, ImageNet vẫn có tỷ lệ lỗi đáng kể. Ước tính hơn 6% nhãn trong tập kiểm định ImageNet-1K bị sai.[9] Một nghiên cứu khác cho thấy khoảng 10% nhãn trong ImageNet-1K là mơ hồ hoặc sai; khi được hỏi so sánh giữa nhãn gốc và dự đoán của mô hình hiện đại, người gán nhãn hiện nay thường chọn dự đoán của mô hình hơn là nhãn ban đầu.[10] Ngoài lỗi nhãn, ImageNet còn mang theo thiên kiến từ cấu trúc phân loại của WordNet. Vấn đề này đặc biệt rõ ở nhánh phân loại con người: trong số 2.832 synset thuộc nhánh "person" của WordNet, 1.593 synset bị đánh giá là "có khả năng gây xúc phạm". Trong giai đoạn 2018-2020, ImageNet đã tiến hành lọc lại toàn bộ nhánh này, và kết quả chỉ còn 158 synset được giữ lại.[11] Đến năm 2021, thêm 2.702 danh mục trong nhánh người bị xóa khỏi ImageNet-21K, chỉ còn lại 130 synset.[12] Cùng năm đó, ImageNet-1K được cập nhật bằng cách làm mờ khuôn mặt xuất hiện trong 997 danh mục không phải người; trong tổng số 1.431.093 ảnh của tập này, 243.198 ảnh (17%) chứa ít nhất một khuôn mặt với tổng cộng 562.626 khuôn mặt. Các thử nghiệm cho thấy việc làm mờ khuôn mặt không ảnh hưởng đáng kể đến hiệu suất của mô hình được huấn luyện trên tệp dữ liệu này.[13]
Lịch sử ImageNet
Nhà nghiên cứu AI Fei-Fei Li bắt đầu ấp ủ ý tưởng về ImageNet từ năm 2006. Vào thời điểm đó, phần lớn nghiên cứu AI tập trung vào mô hình và thuật toán; Li muốn mở rộng và cải thiện dữ liệu dùng để huấn luyện các thuật toán đó.[14] Năm 2007, bà gặp giáo sư Christiane Fellbaum tại Đại học Princeton, một trong những tác giả của cơ sở dữ liệu từ vưng WordNet, để thảo luận về dự án. Cuộc gặp này dẫn đến quyết định xây dựng ImageNet từ khoảng 22.000 danh từ của WordNet, kế thừa nhiều đặc điểm của hệ thống đó.[15] Li cũng lấy cảm hứng từ một ước tính năm 1987 cho rằng một người bình thường có thể nhận ra khoảng 30.000 loại vật thể khác nhau.[16]
Với tư cách trợ lý giáo sư tại Đại học Princeton, Li tập hợp một nhóm nghiên cứu để triển khai dự án. Họ sử dụng Amazon Mechanical Turk để phân loại hình ảnh. Quá trình gán nhãn bắt đầu vào tháng 7 năm 2008 và kết thúc vào tháng 4 năm 2010, huy động 49.000 người lao động từ 167 quốc gia để lọc và gán nhãn hơn 160 triệu ảnh ứng viên.[11][15]
Kế hoạch ban đầu dự kiến 10.000 ảnh mỗi danh mục, với 40.000 danh mục, tổng cộng 400 triệu ảnh, mỗi ảnh được xác minh 3 lần. Tuy nhiên, người gán nhãn chỉ có thể phân loại tối đa 2 ảnh/giây - theo tốc độ đó, ước tính cần đến 19 năm gắn nhãn không nghỉ để hoàn thành.[5] Vì quá tốn thời gian và thuê thêm nhân công quá tốn kém, họ chỉ có thể hoàn thành 3,5% dự tính ban đầu với 14 triệu ảnh.[16] Cơ sở dữ liệu được giới thiệu lần đầu dưới dạng áp phích tại Hội nghị về Thị giác Máy tính và Nhận dạng Mẫu (CVPR) năm 2009 tại Florida, với tiêu đề "ImageNet: A Preview of a Large-scale Hierarchical Dataset".[1]
Năm 2009, Alex Berg đề xuất bổ sung nhiệm vụ định vị vật thể. Li tiếp cận ban tổ chức cuộc thi PASCAL Visual Object Classes để hợp tác, dẫn đến sự ra đời của ImageNet Large Scale Visual Recognition Challenge (ILSVRC) từ năm 2010 với 1.000 danh mục và nhiệm vụ định vị đối tượng, so với PASCAL VOC chỉ có 20 danh mục và 19.737 ảnh.[17][15]
Cuộc thi ImageNet ImageNet
Để "phổ cập hóa" ImageNet, Fei-Fei Li đề xuất hợp tác với nhóm PASCAL VOC từ năm 2010, trong đó các nhóm nghiên cứu đánh giá thuật toán của mình trên tệp dữ liệu chung và cạnh tranh đạt độ chính xác cao hơn trên một số nhiệm vụ nhận dạng hình ảnh.[15]
Cuộc thi thường niên này được gọi là ImageNet Large Scale Visual Recognition Challenge (ILSVRC). ILSVRC sử dụng danh sách rút gọn gồm 1.000 danh mục ảnh, trong đó có 90 trong số 120 giống chó được phân loại trong ImageNet đầy đủ.[4]
Cuộc thi đầu tiên năm 2010 có 11 nhóm tham gia. Nhóm thắng cuộc sử dụng máy vector hỗ trợ (SVM) tuyến tính với đặc trưng là lưới dày đặc HoG và LBP, đạt độ chính xác top-5 (tức là nếu một trong 5 câu trả lời mà mô hình tự tin nhất trùng với nhãn thực tế là đã được tính là đúng) là 71,8%. Mô hình được huấn luyện trong 4 ngày trên ba máy 8 nhân.[18] Cuộc thi năm 2011 có ít nhóm tham gia hơn. Nhóm thắng cuộc là XRCE của Florent Perronnin và Jorge Sanchez, sử dụng SVM tuyến tính chạy trên Fisher vector lượng tử hóa, đạt độ chính xác top-5 là 74,2%.[19]
Năm 2012 chứng kiến một cuộc "cách mạng" lớn, khi mạng neuron tích chập sâu AlexNet đạt độ chính xác top-5 là 84,7%.[20] Vị trí thứ hai thuộc về Nhóm Hình học Thị giác thuộc Đại học Oxford, vẫn sử dụng kiến trúc SVM kết hợp SIFT và Fisher vector, thua AlexNet hơn 10 điểm phần trăm. Dù AlexNet chỉ kết hợp các thành phần đã có từ trước như mạng neuron tích chập của LeNet [21] hay hàm kích hoạt ReLU vốn đã được dùng trong mạng thần kinh hồi quy,[22] bước cải thiện định lượng đột biến này đánh dấu sự khởi đầu của làn sóng bùng nổ trí tuệ nhân tạo toàn ngành.[23]
Năm 2013, phần lớn các nhóm xếp hạng cao đều sử dụng mạng nơ-ron tích chập. Nhóm thắng hạng mục định vị đối tượng là OverFeat, một kiến trúc thực hiện đồng thời phân loại và định vị đối tượng.[24] Nhóm thắng hạng mục phân loại là tập hợp nhiều CNN của Clarifai.[4] Đến năm 2014, hơn 50 tổ chức tham gia ILSVRC.[4] Nhóm thắng hạng mục phân loại là GoogLeNet;[25] nhóm thắng hạng mục định vị là VGGNet.[26]
Năm 2015, nhóm thắng cuộc là ResNet của nhóm nghiên cứu từ Microsoft với mạng CNN sâu hơn 100 lớp, đạt tỷ lệ lỗi 3,57% trên tập kiểm thử, vượt qua hiệu suất của con người nhờ kỹ thuật kết nối tắt (residual connection).[27] Tuy nhiên, điều này không có nghĩa rằng chúng đã thực sự tốt hơn con người trong nhiệm vụ này: một trong những người tổ chức cuộc thi, Olga Russakovsky, chỉ ra rằng ILSVRC chỉ giới hạn ở 1.000 danh mục; con người có thể nhận ra nhiều danh mục hơn và còn có khả năng đánh giá ngữ cảnh của ảnh; một điều mà các mô hình chưa làm được.[28] Andrej Karpathy ước tính năm 2014 rằng với nỗ lực tập trung tối đa, một người có thể đạt tỷ lệ lỗi 5,1%; ước tính khác cho rằng giới hạn trên của con người vào khoảng 2,4%.[29]
Năm 2016, nhóm thắng cuộc là CUImage, một mô hình kết hợp gồm 6 mạng: Inception v3, Inception v4, Inception ResNet v2, ResNet 200, Wide ResNet 68 và Wide ResNet 3.[30] Nhóm về nhì là ResNeXt, kết hợp mô-đun Inception với ResNet.[31] Năm 2017, nhóm thắng cuộc là Squeeze-and-Excitation Network (SENet), giảm tỷ lệ lỗi top-5 xuống còn 2,251%.[32] Cùng năm đó, 29 trong số 38 nhóm tham gia đạt độ chính xác trên 95%.[33]
Ban tổ chức tuyên bố 2017 sẽ là kỳ thi cuối cùng vì thách thức đã được giải quyết, đồng thời thông báo sẽ tổ chức một cuộc thi mới về ảnh 3D.[34] Tuy nhiên, cuộc thi đó chưa bao giờ được tổ chức.
Tham khảo ImageNet
- 1 2 Deng, Jia; Dong, Wei; Socher, Richard; Li, Li-Jia; Li, Kai; Fei-Fei, Li (tháng 6 năm 2009). "ImageNet: A large-scale hierarchical image database". 2009 IEEE Conference on Computer Vision and Pattern Recognition. tr. 248–255. doi:10.1109/CVPR.2009.5206848.
- 1 2 "ImageNet". www.image-net.org. Truy cập ngày 16 tháng 4 năm 2026.
- ↑ Markoff, John (ngày 19 tháng 11 năm 2012). "Seeking a Better Way to Find Web Images". The New York Times (bằng tiếng Anh). ISSN 0362-4331. Truy cập ngày 16 tháng 4 năm 2026.
- 1 2 3 4 5 Russakovsky, Olga; Deng, Jia; Su, Hao; Krause, Jonathan; Satheesh, Sanjeev; Ma, Sean; Huang, Zhiheng; Karpathy, Andrej; Khosla, Aditya (ngày 1 tháng 12 năm 2015). "ImageNet Large Scale Visual Recognition Challenge". International Journal of Computer Vision (bằng tiếng Anh). Quyển 115 số 3. tr. 211–252. doi:10.1007/s11263-015-0816-y. ISSN 1573-1405.
- 1 2 Li, F-F. ImageNet. "Crowdsourcing, benchmarking & other cool things." CMU VASC Semin 16 (2010): 18-25.
- 1 2 Ridnik, Tal; Ben-Baruch, Emanuel; Noy, Asaf; Zelnik-Manor, Lihi (ngày 5 tháng 8 năm 2021). "ImageNet-21K Pretraining for the Masses". arXiv:2104.10972 [cs.CV].
- ↑ Hendrycks, Dan; Dietterich, Thomas (2019). "Benchmarking Neural Network Robustness to Common Corruptions and Perturbations". arXiv:1903.12261 [cs.LG].
- ↑ Recht, Benjamin; Roelofs, Rebecca; Schmidt, Ludwig; Shankar, Vaishaal (ngày 24 tháng 5 năm 2019). "Do ImageNet Classifiers Generalize to ImageNet?". Proceedings of the 36th International Conference on Machine Learning. PMLR: 5389–5400.
- ↑ Northcutt, Curtis G.; Athalye, Anish; Mueller, Jonas (ngày 7 tháng 11 năm 2021), Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks, arXiv:2103.14749
- ↑ Beyer, Lucas; Hénaff, Olivier J.; Kolesnikov, Alexander; Zhai, Xiaohua; Oord, Aäron van den (ngày 12 tháng 6 năm 2020), Are we done with ImageNet?, arXiv:2006.07159
- 1 2 Yang, Kaiyu; Qinami, Klint; Fei-Fei, Li; Deng, Jia; Russakovsky, Olga (ngày 27 tháng 1 năm 2020). "Towards fairer datasets: Filtering and balancing the distribution of the people subtree in the ImageNet hierarchy". Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency (bằng tiếng Anh). ACM. tr. 547–558. doi:10.1145/3351095.3375709. ISBN 978-1-4503-6936-7.
- ↑ "An Update to the ImageNet Website and Dataset". www.image-net.org. Truy cập ngày 13 tháng 11 năm 2024.
- ↑ Yang, Kaiyu; Yau, Jacqueline H.; Fei-Fei, Li; Deng, Jia; Russakovsky, Olga (ngày 28 tháng 6 năm 2022). "A Study of Face Obfuscation in ImageNet". Proceedings of the 39th International Conference on Machine Learning. PMLR: 25313–25330.
- ↑ Hempel, Jesse (ngày 13 tháng 11 năm 2018). "Fei-Fei Li's Quest to Make AI Better for Humanity". Wired. Truy cập ngày 5 tháng 5 năm 2019.
- 1 2 3 4 Gershgorn, Dave (ngày 26 tháng 7 năm 2017). "The data that transformed AI research—and possibly the world". Quartz. Atlantic Media Co. Truy cập ngày 26 tháng 7 năm 2017.
- 1 2 Lee, Timothy B. (ngày 11 tháng 11 năm 2024). "How a stubborn computer scientist accidentally launched the deep learning boom". Ars Technica. Truy cập ngày 12 tháng 11 năm 2024.
- ↑ Russakovsky, Olga; Deng, Jia; Su, Hao; Krause, Jonathan; Satheesh, Sanjeev; Ma, Sean; Huang, Zhiheng; Karpathy, Andrej; Khosla, Aditya; Bernstein, Michael; Berg, Alexander C.; Fei-Fei, Li (ngày 1 tháng 12 năm 2015). "ImageNet Large Scale Visual Recognition Challenge". International Journal of Computer Vision. 115 (3): 211–252. arXiv:1409.0575. doi:10.1007/s11263-015-0816-y.
- ↑ Lin, Yuanqing; Lv, Fengjun; Zhu, Shenghuo; Yang, Ming; Cour, Timothee; Yu, Kai; Cao, Liangliang; Huang, Thomas (tháng 6 năm 2011). "Large-scale image classification: Fast feature extraction and SVM training". CVPR 2011. IEEE. tr. 1689–1696. doi:10.1109/cvpr.2011.5995477. ISBN 978-1-4577-0394-2.
- ↑ Perronnin, Florent; Sánchez, Jorge; Mensink, Thomas (2010). "Improving the Fisher Kernel for Large-Scale Image Classification". Computer Vision – ECCV 2010. Lecture Notes in Computer Science (bằng tiếng Anh). Quyển 6314. Berlin, Heidelberg: Springer. tr. 143–156. doi:10.1007/978-3-642-15561-1_11. ISBN 978-3-642-15561-1.
- ↑ "ImageNet Large Scale Visual Recognition Competition 2012 (ILSVRC2012)".
- ↑ Lecun, Y.; Bottou, L.; Bengio, Y.; Haffner, P. (tháng 11 năm 1998). "Gradient-based learning applied to document recognition". Proceedings of the IEEE. Quyển 86 số 11. tr. 2278–2324. doi:10.1109/5.726791. ISSN 1558-2256.
- ↑ Hahnloser, Richard H. R.; Sarpeshkar, Rahul; Mahowald, Misha A.; Douglas, Rodney J.; Seung, H. Sebastian (tháng 6 năm 2000). "Digital selection and analogue amplification coexist in a cortex-inspired silicon circuit". Nature (bằng tiếng Anh). Quyển 405 số 6789. tr. 947–951. doi:10.1038/35016072. ISSN 1476-4687.
- ↑ "From not working to neural networking". The Economist. ngày 25 tháng 6 năm 2016.
- ↑ Sermanet, Pierre; Eigen, David; Zhang, Xiang; Mathieu, Michael; Fergus, Rob; LeCun, Yann (2013). "OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks". arXiv:1312.6229 [cs.CV].
- ↑ Szegedy, Christian; Wei Liu; Yangqing Jia; Sermanet, Pierre; Reed, Scott; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (tháng 6 năm 2015). "Going deeper with convolutions". 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE. tr. 1–9. arXiv:1409.4842. doi:10.1109/CVPR.2015.7298594. ISBN 978-1-4673-6964-0.
- ↑ Simonyan, K., & Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556.
- ↑ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). "Deep Residual Learning for Image Recognition". 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). tr. 770–778. arXiv:1512.03385. doi:10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1.
- ↑ Aron, Jacob (ngày 21 tháng 9 năm 2015). "Forget the Turing test – there are better ways of judging AI". New Scientist. Truy cập ngày 22 tháng 6 năm 2016.
- ↑ Karpathy, Andrej (ngày 2 tháng 9 năm 2014). "What I learned from competing against a ConvNet on ImageNet". Andrej Karpathy blog.
- ↑ "Ilsvrc2016".
- ↑ Xie, Saining; Girshick, Ross; Dollar, Piotr; Tu, Zhuowen; He, Kaiming (2017). Aggregated Residual Transformations for Deep Neural Networks (PDF). Conference on Computer Vision and Pattern Recognition. tr. 1492–1500. arXiv:1611.05431. doi:10.1109/CVPR.2017.634.
- ↑ Hu, Jie; Shen, Li; Albanie, Samuel; Sun, Gang; Wu, Enhua (2017). "Squeeze-and-Excitation Networks". arXiv:1709.01507 [cs.CV].
- ↑ Gershgorn, Dave (ngày 10 tháng 9 năm 2017). "The Quartz guide to artificial intelligence: What is it, why is it important, and should we be afraid?". Quartz. Truy cập ngày 3 tháng 2 năm 2018.
- ↑ "New computer vision challenge wants to teach robots to see in 3D". New Scientist. ngày 7 tháng 4 năm 2017.