Bước tới nội dung

Khác biệt giữa bản sửa đổi của “Thành viên:Qesefe/nháp”

Bách khoa toàn thư mở Wikipedia
Nội dung được xóa Nội dung được thêm vào
Qesefe (thảo luận | đóng góp)
nháp
Qesefe (thảo luận | đóng góp)
nháp
Dòng 1: Dòng 1:
= ImageNet =
= ImageNet =
[[Tập tin:ImageNet error rate history.svg|thế=Tỉ lệ sai số của các phương pháp học máy tốt nhất trong cuộc thi ILSVRC từ năm 2011 đến 2016.|nhỏ|Tỉ lệ sai số của các phương pháp tốt nhất trong cuộc thi ILSVRC từ năm 2011 đến 2016.]]
[[Tập tin:ImageNet error rate history.svg|thế=Tỉ lệ sai số của các phương pháp học máy tốt nhất trong cuộc thi ILSVRC từ năm 2011 đến 2016.|nhỏ|Tỉ lệ sai số của các phương pháp tốt nhất trong cuộc thi ILSVRC từ năm 2011 đến 2016.]]
'''ImageNet''' là một [[cơ sở dữ liệu]] cho nhiệm vụ [[nhận dạng vật thể]] (''object classification'') trong [[thị giác máy tính]].<ref>{{Chú thích tạp chí |last=Deng |first=Jia |last2=Dong |first2=Wei |last3=Socher |first3=Richard |last4=Li |first4=Li-Jia |last5=Li |first5=Kai |last6=Fei-Fei |first6=Li |date=2009-06 |title=ImageNet: A large-scale hierarchical image database |url=https://ieeexplore.ieee.org/abstract/document/5206848/ |magazine=2009 IEEE Conference on Computer Vision and Pattern Recognition |pages=248–255 |doi=10.1109/CVPR.2009.5206848}}</ref> Với 14.197.122 ảnh được dán nhãn thủ công, trong đó 1.034.908 ảnh có các hộp giới hạn cho nhiệm vụ định vị vật thể (''object detection'').<ref>{{Chú thích web |title=ImageNet |url=https://www.image-net.org/index.php |access-date=2026-04-16 |website=www.image-net.org}}</ref><ref>{{Chú thích báo |last=Markoff |first=John |date=2012-11-19 |title=Seeking a Better Way to Find Web Images |url=https://www.nytimes.com/2012/11/20/science/for-web-images-creating-new-technology-to-seek-and-find.html |access-date=2026-04-16 |work=The New York Times |language=en-US |issn=0362-4331}}</ref>
'''ImageNet''' là một [[cơ sở dữ liệu]] cho nhiệm vụ [[nhận dạng vật thể]] (''object classification'') trong [[thị giác máy tính]].<ref name=":0">{{Chú thích tạp chí |last=Deng |first=Jia |last2=Dong |first2=Wei |last3=Socher |first3=Richard |last4=Li |first4=Li-Jia |last5=Li |first5=Kai |last6=Fei-Fei |first6=Li |date=2009-06 |title=ImageNet: A large-scale hierarchical image database |url=https://ieeexplore.ieee.org/abstract/document/5206848/ |magazine=2009 IEEE Conference on Computer Vision and Pattern Recognition |pages=248–255 |doi=10.1109/CVPR.2009.5206848}}</ref> Với 14.197.122 ảnh được dán nhãn thủ công, trong đó 1.034.908 ảnh có các hộp giới hạn cho nhiệm vụ định vị vật thể (''object detection'').<ref>{{Chú thích web |title=ImageNet |url=https://www.image-net.org/index.php |access-date=2026-04-16 |website=www.image-net.org}}</ref><ref>{{Chú thích báo |last=Markoff |first=John |date=2012-11-19 |title=Seeking a Better Way to Find Web Images |url=https://www.nytimes.com/2012/11/20/science/for-web-images-creating-new-technology-to-seek-and-find.html |access-date=2026-04-16 |work=The New York Times |language=en-US |issn=0362-4331}}</ref>


Từ năm 2010 đến năm 2017, cuộc thi Thử thách Nhận dạng Hình ảnh Quy mô Lớn trên tập dữ liệu này (''ImageNet Large Scale Visual Recognition Challenge, ILSVRC'') đươc tổ chức thường niên.<ref>{{Chú thích tạp chí |last=Russakovsky |first=Olga |last2=Deng |first2=Jia |last3=Su |first3=Hao |last4=Krause |first4=Jonathan |last5=Satheesh |first5=Sanjeev |last6=Ma |first6=Sean |last7=Huang |first7=Zhiheng |last8=Karpathy |first8=Andrej |last9=Khosla |first9=Aditya |date=2015-12-01 |title=ImageNet Large Scale Visual Recognition Challenge |url=https://doi.org/10.1007/s11263-015-0816-y |magazine=International Journal of Computer Vision |pages=211–252 |language=en |volume=115 |issue=3 |doi=10.1007/s11263-015-0816-y |issn=1573-1405}}</ref> Những mô hình đặt thứ hạng cao trong cuộc thi này đã tạo ra các bước đột phá quan trọng trong thuật toán [[học sâu]] nói riêng và lĩnh vực [[học máy]] nói chung.
Từ năm 2010 đến năm 2017, cuộc thi Thử thách Nhận dạng Hình ảnh Quy mô Lớn trên tập dữ liệu này (''ImageNet Large Scale Visual Recognition Challenge, ILSVRC'') đươc tổ chức thường niên.<ref>{{Chú thích tạp chí |last=Russakovsky |first=Olga |last2=Deng |first2=Jia |last3=Su |first3=Hao |last4=Krause |first4=Jonathan |last5=Satheesh |first5=Sanjeev |last6=Ma |first6=Sean |last7=Huang |first7=Zhiheng |last8=Karpathy |first8=Andrej |last9=Khosla |first9=Aditya |date=2015-12-01 |title=ImageNet Large Scale Visual Recognition Challenge |url=https://doi.org/10.1007/s11263-015-0816-y |magazine=International Journal of Computer Vision |pages=211–252 |language=en |volume=115 |issue=3 |doi=10.1007/s11263-015-0816-y |issn=1573-1405}}</ref> Những mô hình đặt thứ hạng cao trong cuộc thi này đã tạo ra các bước đột phá quan trọng trong thuật toán [[học sâu]] nói riêng và lĩnh vực [[học máy]] nói chung.


== Lịch sử ==
== Tệp dữ liệu ==
ImageNet sử dụng hệ thống phân loại dựa trên [[WordNet]], trong đó mỗi khái niệm (không phải mỗi từ, vì có nhiều từ đồng nghĩa, ví dụ "kitty" và "young cat" đều nghĩa là "mèo con") được gọi là một "tập hợp từ đồng nghĩa" (''synset''). Toàn bộ cơ sở dữ liệu được xây dựng từ 21.841 synset là các [[danh từ]] [[đếm được]] có thể minh họa bằng hình ảnh, lọc từ hơn 100.000 synset trong WordNet 3.0. Các danh mục trong ImageNet trải dài 9 cấp bậc, từ cấp 1 khá chung chung (như "động vật có vú") đến cấp 9 rất cụ thể (như "chó chăn cừu Đức").<ref>Li, F-F. ImageNet. "[https://web.archive.org/web/20130115112543/http://www.image-net.org/papers/ImageNet_2010.pdf Crowdsourcing, benchmarking & other cool things]." ''CMU VASC Semin'' 16 (2010): 18-25.</ref> Ảnh được thu thập từ các công cụ tìm kiếm hình ảnh trực tuyến ([[Google]], [[Flickr]], [[Yahoo]]...) bằng cách tìm kiếm theo từ đồng nghĩa trong nhiều ngôn ngữ. Ảnh có độ phân giải khác nhau và được lưu ở định dạng [[RGB]]; trong thực tế, các mô hình học máy thường chuẩn hóa ảnh về một độ phân giải cố định trước khi xử lý. Mỗi ảnh được gán nhãn đúng một synset. Ngoài nhãn danh mục, một số ảnh còn có hộp giới hạn (''bounding box'') khoanh vùng vị trí của đối tượng trong ảnh.<ref>{{Cite journal |last1=Russakovsky |first1=Olga |last2=Deng |first2=Jia |last3=Su |first3=Hao |last4=Krause |first4=Jonathan |last5=Satheesh |first5=Sanjeev |last6=Ma |first6=Sean |last7=Huang |first7=Zhiheng |last8=Karpathy |first8=Andrej |last9=Khosla |first9=Aditya |last10=Bernstein |first10=Michael |last11=Berg |first11=Alexander C. |last12=Fei-Fei |first12=Li |date=2015-12-01 |title=ImageNet Large Scale Visual Recognition Challenge |url=https://doi.org/10.1007/s11263-015-0816-y |journal=International Journal of Computer Vision |volume=115 |issue=3 |pages=211–252 |arxiv=1409.0575 |doi=10.1007/s11263-015-0816-y}}</ref>
Nhà nghiên cứu AI [[Fei-Fei Li]] bắt đầu ấp ủ ý tưởng về ImageNet từ năm 2006. Vào thời điểm đó, phần lớn nghiên cứu AI tập trung vào mô hình và thuật toán; Li muốn mở rộng và cải thiện dữ liệu dùng để huấn luyện các thuật toán đó.<ref>{{Cite magazine |last=Hempel |first=Jesse |date=13 November 2018 |title=Fei-Fei Li's Quest to Make AI Better for Humanity |url=https://www.wired.com/story/fei-fei-li-artificial-intelligence-humanity/ |access-date=5 May 2019 |magazine=Wired}}</ref> Năm 2007, bà gặp giáo sư [[Christiane Fellbaum]] tại [[Đại học Princeton]], một trong những tác giả của cơ sở dữ liệu từ vưng [[WordNet]], để thảo luận về dự án. Cuộc gặp này dẫn đến quyết định xây dựng ImageNet từ khoảng 22.000 danh từ của WordNet, kế thừa nhiều đặc điểm của hệ thống đó.<ref>{{cite web |last=Gershgorn |first=Dave |date=26 July 2017 |title=The data that transformed AI research—and possibly the world |url=https://qz.com/1034972/the-data-that-changed-the-direction-of-ai-research-and-possibly-the-world/ |access-date=26 July 2017 |website=Quartz |publisher=Atlantic Media Co.}}</ref> Li cũng lấy cảm hứng từ một ước tính năm 1987 cho rằng một người bình thường có thể nhận ra khoảng 30.000 loại vật thể khác nhau.<ref>{{Cite web |last=Lee |first=Timothy B. |date=2024-11-11 |title=How a stubborn computer scientist accidentally launched the deep learning boom |url=https://arstechnica.com/ai/2024/11/how-a-stubborn-computer-scientist-accidentally-launched-the-deep-learning-boom/ |access-date=2024-11-12 |website=Ars Technica}}</ref>


=== Các phiên bản ===
Với tư cách trợ lý giáo sư tại [[Đại học Princeton]], Li tập hợp một nhóm nghiên cứu để triển khai dự án. Họ sử dụng [[Amazon Mechanical Turk]] để phân loại hình ảnh. Quá trình gán nhãn bắt đầu vào tháng 7 năm 2008 và kết thúc vào tháng 4 năm 2010, huy động 49.000 người lao động từ 167 quốc gia để lọc và gán nhãn hơn 160 triệu ảnh ứng viên.<ref>{{cite web |last1=Yang |first1=Kaiyu |last2=Qinami |first2=Klint |last3=Fei-Fei |first3=Li |last4=Deng |first4=Jia |last5=Russakovsky |first5=Olga |date=2019-09-17 |title=Towards Fairer Datasets: Filtering and Balancing the Distribution of the People Subtree in the ImageNet Hierarchy |url=https://www.image-net.org/update-sep-17-2019.php |website=image-net.org}}</ref><ref>{{cite web |last=Gershgorn |first=Dave |date=26 July 2017 |title=The data that transformed AI research—and possibly the world |url=https://qz.com/1034972/the-data-that-changed-the-direction-of-ai-research-and-possibly-the-world/ |access-date=26 July 2017 |website=Quartz |publisher=Atlantic Media Co.}}</ref> Nhóm có đủ ngân sách để mỗi trong số 14 triệu ảnh được gán nhãn ba lần.<ref>{{Cite web |last=Lee |first=Timothy B. |date=2024-11-11 |title=How a stubborn computer scientist accidentally launched the deep learning boom |url=https://arstechnica.com/ai/2024/11/how-a-stubborn-computer-scientist-accidentally-launched-the-deep-learning-boom/ |access-date=2024-11-12 |website=Ars Technica}}</ref>
Phiên bản đầy đủ ban đầu, gọi là ImageNet-21K, gồm 14.197.122 ảnh chia thành 21.841 danh mục, được phát hành vào mùa thu năm 2011. Không có phân chia huấn luyện/kiểm định/kiểm thử (''train/validation/test'') chính thức cho ImageNet-21K như [[Cơ sở dữ liệu MNIST|MNIST]] hay [[CIFAR]]; một số danh mục chỉ có 1–10 ảnh trong khi nhiều danh mục khác có đến hàng nghìn.<ref>{{cite arXiv|eprint=2104.10972|class=cs.CV|first1=Tal|last1=Ridnik|first2=Emanuel|last2=Ben-Baruch|title=ImageNet-21K Pretraining for the Masses|date=2021-08-05|last3=Noy|first3=Asaf|last4=Zelnik-Manor|first4=Lihi}}</ref> Tập con được sử dụng phổ biến nhất là ImageNet-1K,được sử dụng cho cuộc thi ILSVRC. ImageNet-1K gồm 1.281.167 ảnh huấn luyện, 50.000 ảnh kiểm định và 100.000 ảnh kiểm thử, chia thành 1.000 danh mục lá — tức là các danh mục không có danh mục con nhỏ hơn bên dưới.<ref>{{Cite web |title=ImageNet |url=https://www.image-net.org/download.php |access-date=2022-10-19 |website=www.image-net.org}}</ref>

Ngoài ra, còn có một số biến thể được xây dựng cho các mục đích nghiên cứu cụ thể. ImageNet-C (2019) là phiên bản bị nhiễu có chủ đích, dùng để đánh giá độ bền của mô hình trước các biến dạng thông thường.<ref>{{cite arXiv|eprint=1903.12261|last1=Hendrycks|first1=Dan|last2=Dietterich|first2=Thomas|title=Benchmarking Neural Network Robustness to Common Corruptions and Perturbations|date=2019|class=cs.LG}}</ref> ImageNetV2 (2019) gồm ba tập kiểm thử mới với 10.000 ảnh mỗi tập, được xây dựng theo cùng phương pháp với ImageNet gốc nhằm kiểm tra khả năng tổng quát hóa của mô hình.<ref>{{Cite journal |last1=Recht |first1=Benjamin |last2=Roelofs |first2=Rebecca |last3=Schmidt |first3=Ludwig |last4=Shankar |first4=Vaishaal |date=2019-05-24 |title=Do ImageNet Classifiers Generalize to ImageNet? |url=https://proceedings.mlr.press/v97/recht19a.html |journal=Proceedings of the 36th International Conference on Machine Learning |publisher=PMLR |pages=5389–5400}}</ref> ImageNet-21K-P (2021) là phiên bản đã được lọc và chuẩn hóa của ImageNet-21K, gồm 12.358.688 ảnh từ 11.221 danh mục, tất cả được đổi kích thước về 224×224 pixel.<ref>{{cite arXiv|eprint=2104.10972|class=cs.CV|first1=Tal|last1=Ridnik|first2=Emanuel|last2=Ben-Baruch|title=ImageNet-21K Pretraining for the Masses|date=2021-08-05|last3=Noy|first3=Asaf|last4=Zelnik-Manor|first4=Lihi}}</ref>

{| class="wikitable"
|+ Bảng so sánh các phiên bản
! Tên
! Năm
! Số danh mục
! Tập huấn luyện
! Tập kiểm định
! Tập kiểm thử
! Dung lượng
|-
| PASCAL VOC
| 2005
| 20
| -
| -
| -
| -
|-
| ImageNet-1K
| 2009
| 1.000
| 1.281.167
| 50.000
| 100.000
| 130 GB
|-
| ImageNet-21K
| 2011
| 21.841
| 14.197.122
| -
| -
| 1,31 TB
|-
| ImageNet-C
| 2019
| 1.000
| -
| 30.000
| -
| -
|-
| ImageNetV2
| 2019
| 1.000
| -
| -
| 30.000
| -
|-
| ImageNet-21K-P
| 2021
| 11.221
| 11.797.632
| 561.052
| -
| 250 GB
|}


== Lịch sử ==
Nhà nghiên cứu AI [[Fei-Fei Li]] bắt đầu ấp ủ ý tưởng về ImageNet từ năm 2006. Vào thời điểm đó, phần lớn nghiên cứu AI tập trung vào mô hình và thuật toán; Li muốn mở rộng và cải thiện dữ liệu dùng để huấn luyện các thuật toán đó.<ref>{{Cite magazine |last=Hempel |first=Jesse |date=13 November 2018 |title=Fei-Fei Li's Quest to Make AI Better for Humanity |url=https://www.wired.com/story/fei-fei-li-artificial-intelligence-humanity/ |access-date=5 May 2019 |magazine=Wired}}</ref> Năm 2007, bà gặp giáo sư [[Christiane Fellbaum]] tại [[Đại học Princeton]], một trong những tác giả của cơ sở dữ liệu từ vưng [[WordNet]], để thảo luận về dự án. Cuộc gặp này dẫn đến quyết định xây dựng ImageNet từ khoảng 22.000 danh từ của WordNet, kế thừa nhiều đặc điểm của hệ thống đó.<ref name=":1">{{cite web |last=Gershgorn |first=Dave |date=26 July 2017 |title=The data that transformed AI research—and possibly the world |url=https://qz.com/1034972/the-data-that-changed-the-direction-of-ai-research-and-possibly-the-world/ |access-date=26 July 2017 |website=Quartz |publisher=Atlantic Media Co.}}</ref> Li cũng lấy cảm hứng từ một ước tính năm 1987 cho rằng một người bình thường có thể nhận ra khoảng 30.000 loại vật thể khác nhau.<ref>{{Cite web |last=Lee |first=Timothy B. |date=2024-11-11 |title=How a stubborn computer scientist accidentally launched the deep learning boom |url=https://arstechnica.com/ai/2024/11/how-a-stubborn-computer-scientist-accidentally-launched-the-deep-learning-boom/ |access-date=2024-11-12 |website=Ars Technica}}</ref>


Với tư cách trợ lý giáo sư tại [[Đại học Princeton]], Li tập hợp một nhóm nghiên cứu để triển khai dự án. Họ sử dụng [[Amazon Mechanical Turk]] để phân loại hình ảnh. Quá trình gán nhãn bắt đầu vào tháng 7 năm 2008 và kết thúc vào tháng 4 năm 2010, huy động 49.000 người lao động từ 167 quốc gia để lọc và gán nhãn hơn 160 triệu ảnh ứng viên.<ref>{{cite web |last1=Yang |first1=Kaiyu |last2=Qinami |first2=Klint |last3=Fei-Fei |first3=Li |last4=Deng |first4=Jia |last5=Russakovsky |first5=Olga |date=2019-09-17 |title=Towards Fairer Datasets: Filtering and Balancing the Distribution of the People Subtree in the ImageNet Hierarchy |url=https://www.image-net.org/update-sep-17-2019.php |website=image-net.org}}</ref><ref name=":1" />
Kế hoạch ban đầu dự kiến 10.000 ảnh mỗi danh mục, với 40.000 danh mục, tổng cộng 400 triệu ảnh, mỗi ảnh được xác minh 3 lần. Tuy nhiên, người gán nhãn chỉ có thể phân loại tối đa 2 ảnh/giây - theo tốc độ đó, ước tính cần đến 19 năm gắn nhãn không nghỉ để hoàn thành.<ref>Li, F-F. ImageNet. "[https://web.archive.org/web/20130115112543/http://www.image-net.org/papers/ImageNet_2010.pdf Crowdsourcing, benchmarking & other cool things]." ''CMU VASC Semin'' 16 (2010): 18-25.</ref> Vì vậy, họ chỉ có thể hoàn thành 3,5% dự tính ban đầu.


Kế hoạch ban đầu dự kiến 10.000 ảnh mỗi danh mục, với 40.000 danh mục, tổng cộng 400 triệu ảnh, mỗi ảnh được xác minh 3 lần. Tuy nhiên, người gán nhãn chỉ có thể phân loại tối đa 2 ảnh/giây - theo tốc độ đó, ước tính cần đến 19 năm gắn nhãn không nghỉ để hoàn thành.<ref>Li, F-F. ImageNet. "[https://web.archive.org/web/20130115112543/http://www.image-net.org/papers/ImageNet_2010.pdf Crowdsourcing, benchmarking & other cool things]." ''CMU VASC Semin'' 16 (2010): 18-25.</ref> Vì quá tốn thời gian và thuê thêm nhân công quá tốn kém, họ chỉ có thể hoàn thành 3,5% dự tính ban đầu với 14 triệu ảnh.<ref>{{Cite web |last=Lee |first=Timothy B. |date=2024-11-11 |title=How a stubborn computer scientist accidentally launched the deep learning boom |url=https://arstechnica.com/ai/2024/11/how-a-stubborn-computer-scientist-accidentally-launched-the-deep-learning-boom/ |access-date=2024-11-12 |website=Ars Technica}}</ref> Cơ sở dữ liệu được giới thiệu lần đầu dưới dạng áp phích tại [[Hội nghị về Thị giác Máy tính và Nhận dạng Mẫu]] (CVPR) năm 2009 tại Florida, với tiêu đề "ImageNet: A Preview of a Large-scale Hierarchical Dataset".<ref name=":0" />
Cơ sở dữ liệu được giới thiệu lần đầu dưới dạng áp phích tại [[Hội nghị về Thị giác Máy tính và Nhận dạng Mẫu]] (CVPR) năm 2009 tại Florida, với tiêu đề "ImageNet: A Preview of a Large-scale Hierarchical Dataset".<ref>{{Citation |last1=Deng |first1=Jia |title=2009 conference on Computer Vision and Pattern Recognition |year=2009 |access-date=26 July 2017 |archive-url=https://web.archive.org/web/20210115185228/http://www.image-net.org/papers/imagenet_cvpr09.pdf |archive-date=15 January 2021 |url-status=dead |contribution=ImageNet: A Large-Scale Hierarchical Image Database |contribution-url=http://www.image-net.org/papers/imagenet_cvpr09.pdf |last2=Dong |first2=Wei |last3=Socher |first3=Richard |last4=Li |first4=Li-Jia |last5=Li |first5=Kai |last6=Fei-Fei |first6=Li}}</ref>


Năm 2009, Alex Berg đề xuất bổ sung nhiệm vụ định vị vật thể. Li tiếp cận cuộc thi [http://host.robots.ox.ac.uk/pascal/VOC/ PASCAL Visual Object Classes] để hợp tác, dẫn đến sự ra đời của [[ImageNet Large Scale Visual Recognition Challenge]] (ILSVRC) từ năm 2010 với 1.000 danh mục và nhiệm vụ định vị đối tượng, so với PASCAL VOC chỉ có 20 danh mục và 19.737 ảnh vào năm 2010.<ref>{{Cite journal |last1=Russakovsky |first1=Olga |last2=Deng |first2=Jia |last3=Su |first3=Hao |last4=Krause |first4=Jonathan |last5=Satheesh |first5=Sanjeev |last6=Ma |first6=Sean |last7=Huang |first7=Zhiheng |last8=Karpathy |first8=Andrej |last9=Khosla |first9=Aditya |last10=Bernstein |first10=Michael |last11=Berg |first11=Alexander C. |last12=Fei-Fei |first12=Li |date=2015-12-01 |title=ImageNet Large Scale Visual Recognition Challenge |url=https://doi.org/10.1007/s11263-015-0816-y |journal=International Journal of Computer Vision |volume=115 |issue=3 |pages=211–252 |arxiv=1409.0575 |doi=10.1007/s11263-015-0816-y}}</ref><ref>{{cite web |last=Gershgorn |first=Dave |date=26 July 2017 |title=The data that transformed AI research—and possibly the world |url=https://qz.com/1034972/the-data-that-changed-the-direction-of-ai-research-and-possibly-the-world/ |access-date=26 July 2017 |website=Quartz |publisher=Atlantic Media Co.}}</ref>
Năm 2009, Alex Berg đề xuất bổ sung nhiệm vụ định vị vật thể. Li tiếp cận cuộc thi [http://host.robots.ox.ac.uk/pascal/VOC/ PASCAL Visual Object Classes] để hợp tác, dẫn đến sự ra đời của [[ImageNet Large Scale Visual Recognition Challenge]] (ILSVRC) từ năm 2010 với 1.000 danh mục và nhiệm vụ định vị đối tượng, so với PASCAL VOC chỉ có 20 danh mục và 19.737 ảnh.<ref>{{Cite journal |last1=Russakovsky |first1=Olga |last2=Deng |first2=Jia |last3=Su |first3=Hao |last4=Krause |first4=Jonathan |last5=Satheesh |first5=Sanjeev |last6=Ma |first6=Sean |last7=Huang |first7=Zhiheng |last8=Karpathy |first8=Andrej |last9=Khosla |first9=Aditya |last10=Bernstein |first10=Michael |last11=Berg |first11=Alexander C. |last12=Fei-Fei |first12=Li |date=2015-12-01 |title=ImageNet Large Scale Visual Recognition Challenge |url=https://doi.org/10.1007/s11263-015-0816-y |journal=International Journal of Computer Vision |volume=115 |issue=3 |pages=211–252 |arxiv=1409.0575 |doi=10.1007/s11263-015-0816-y}}</ref><ref name=":1" />


== Tham khảo ==
== Tham khảo ==

Phiên bản lúc 13:55, ngày 16 tháng 4 năm 2026

ImageNet

Tỉ lệ sai số của các phương pháp học máy tốt nhất trong cuộc thi ILSVRC từ năm 2011 đến 2016.
Tỉ lệ sai số của các phương pháp tốt nhất trong cuộc thi ILSVRC từ năm 2011 đến 2016.

ImageNet là một cơ sở dữ liệu cho nhiệm vụ nhận dạng vật thể (object classification) trong thị giác máy tính.[1] Với 14.197.122 ảnh được dán nhãn thủ công, trong đó 1.034.908 ảnh có các hộp giới hạn cho nhiệm vụ định vị vật thể (object detection).[2][3]

Từ năm 2010 đến năm 2017, cuộc thi Thử thách Nhận dạng Hình ảnh Quy mô Lớn trên tập dữ liệu này (ImageNet Large Scale Visual Recognition Challenge, ILSVRC) đươc tổ chức thường niên.[4] Những mô hình đặt thứ hạng cao trong cuộc thi này đã tạo ra các bước đột phá quan trọng trong thuật toán học sâu nói riêng và lĩnh vực học máy nói chung.

Tệp dữ liệu

ImageNet sử dụng hệ thống phân loại dựa trên WordNet, trong đó mỗi khái niệm (không phải mỗi từ, vì có nhiều từ đồng nghĩa, ví dụ "kitty" và "young cat" đều nghĩa là "mèo con") được gọi là một "tập hợp từ đồng nghĩa" (synset). Toàn bộ cơ sở dữ liệu được xây dựng từ 21.841 synset là các danh từ đếm được có thể minh họa bằng hình ảnh, lọc từ hơn 100.000 synset trong WordNet 3.0. Các danh mục trong ImageNet trải dài 9 cấp bậc, từ cấp 1 khá chung chung (như "động vật có vú") đến cấp 9 rất cụ thể (như "chó chăn cừu Đức").[5] Ảnh được thu thập từ các công cụ tìm kiếm hình ảnh trực tuyến (Google, Flickr, Yahoo...) bằng cách tìm kiếm theo từ đồng nghĩa trong nhiều ngôn ngữ. Ảnh có độ phân giải khác nhau và được lưu ở định dạng RGB; trong thực tế, các mô hình học máy thường chuẩn hóa ảnh về một độ phân giải cố định trước khi xử lý. Mỗi ảnh được gán nhãn đúng một synset. Ngoài nhãn danh mục, một số ảnh còn có hộp giới hạn (bounding box) khoanh vùng vị trí của đối tượng trong ảnh.[6]

Các phiên bản

Phiên bản đầy đủ ban đầu, gọi là ImageNet-21K, gồm 14.197.122 ảnh chia thành 21.841 danh mục, được phát hành vào mùa thu năm 2011. Không có phân chia huấn luyện/kiểm định/kiểm thử (train/validation/test) chính thức cho ImageNet-21K như MNIST hay CIFAR; một số danh mục chỉ có 1–10 ảnh trong khi nhiều danh mục khác có đến hàng nghìn.[7] Tập con được sử dụng phổ biến nhất là ImageNet-1K,được sử dụng cho cuộc thi ILSVRC. ImageNet-1K gồm 1.281.167 ảnh huấn luyện, 50.000 ảnh kiểm định và 100.000 ảnh kiểm thử, chia thành 1.000 danh mục lá — tức là các danh mục không có danh mục con nhỏ hơn bên dưới.[8]

Ngoài ra, còn có một số biến thể được xây dựng cho các mục đích nghiên cứu cụ thể. ImageNet-C (2019) là phiên bản bị nhiễu có chủ đích, dùng để đánh giá độ bền của mô hình trước các biến dạng thông thường.[9] ImageNetV2 (2019) gồm ba tập kiểm thử mới với 10.000 ảnh mỗi tập, được xây dựng theo cùng phương pháp với ImageNet gốc nhằm kiểm tra khả năng tổng quát hóa của mô hình.[10] ImageNet-21K-P (2021) là phiên bản đã được lọc và chuẩn hóa của ImageNet-21K, gồm 12.358.688 ảnh từ 11.221 danh mục, tất cả được đổi kích thước về 224×224 pixel.[11]

Bảng so sánh các phiên bản
TênNămSố danh mụcTập huấn luyệnTập kiểm địnhTập kiểm thửDung lượng
PASCAL VOC200520----
ImageNet-1K20091.0001.281.16750.000100.000130 GB
ImageNet-21K201121.84114.197.122--1,31 TB
ImageNet-C20191.000-30.000--
ImageNetV220191.000--30.000-
ImageNet-21K-P202111.22111.797.632561.052-250 GB


Lịch sử

Nhà nghiên cứu AI Fei-Fei Li bắt đầu ấp ủ ý tưởng về ImageNet từ năm 2006. Vào thời điểm đó, phần lớn nghiên cứu AI tập trung vào mô hình và thuật toán; Li muốn mở rộng và cải thiện dữ liệu dùng để huấn luyện các thuật toán đó.[12] Năm 2007, bà gặp giáo sư Christiane Fellbaum tại Đại học Princeton, một trong những tác giả của cơ sở dữ liệu từ vưng WordNet, để thảo luận về dự án. Cuộc gặp này dẫn đến quyết định xây dựng ImageNet từ khoảng 22.000 danh từ của WordNet, kế thừa nhiều đặc điểm của hệ thống đó.[13] Li cũng lấy cảm hứng từ một ước tính năm 1987 cho rằng một người bình thường có thể nhận ra khoảng 30.000 loại vật thể khác nhau.[14]

Với tư cách trợ lý giáo sư tại Đại học Princeton, Li tập hợp một nhóm nghiên cứu để triển khai dự án. Họ sử dụng Amazon Mechanical Turk để phân loại hình ảnh. Quá trình gán nhãn bắt đầu vào tháng 7 năm 2008 và kết thúc vào tháng 4 năm 2010, huy động 49.000 người lao động từ 167 quốc gia để lọc và gán nhãn hơn 160 triệu ảnh ứng viên.[15][13]

Kế hoạch ban đầu dự kiến 10.000 ảnh mỗi danh mục, với 40.000 danh mục, tổng cộng 400 triệu ảnh, mỗi ảnh được xác minh 3 lần. Tuy nhiên, người gán nhãn chỉ có thể phân loại tối đa 2 ảnh/giây - theo tốc độ đó, ước tính cần đến 19 năm gắn nhãn không nghỉ để hoàn thành.[16] Vì quá tốn thời gian và thuê thêm nhân công quá tốn kém, họ chỉ có thể hoàn thành 3,5% dự tính ban đầu với 14 triệu ảnh.[17] Cơ sở dữ liệu được giới thiệu lần đầu dưới dạng áp phích tại Hội nghị về Thị giác Máy tính và Nhận dạng Mẫu (CVPR) năm 2009 tại Florida, với tiêu đề "ImageNet: A Preview of a Large-scale Hierarchical Dataset".[1]

Năm 2009, Alex Berg đề xuất bổ sung nhiệm vụ định vị vật thể. Li tiếp cận cuộc thi PASCAL Visual Object Classes để hợp tác, dẫn đến sự ra đời của ImageNet Large Scale Visual Recognition Challenge (ILSVRC) từ năm 2010 với 1.000 danh mục và nhiệm vụ định vị đối tượng, so với PASCAL VOC chỉ có 20 danh mục và 19.737 ảnh.[18][13]

Tham khảo

  1. ^ a b Deng, Jia; Dong, Wei; Socher, Richard; Li, Li-Jia; Li, Kai; Fei-Fei, Li (tháng 6 năm 2009). "ImageNet: A large-scale hierarchical image database". 2009 IEEE Conference on Computer Vision and Pattern Recognition. tr. 248–255. doi:10.1109/CVPR.2009.5206848.
  2. ^ "ImageNet". www.image-net.org. Truy cập ngày 16 tháng 4 năm 2026.
  3. ^ Markoff, John (ngày 19 tháng 11 năm 2012). "Seeking a Better Way to Find Web Images". The New York Times (bằng tiếng Anh). ISSN 0362-4331. Truy cập ngày 16 tháng 4 năm 2026.
  4. ^ Russakovsky, Olga; Deng, Jia; Su, Hao; Krause, Jonathan; Satheesh, Sanjeev; Ma, Sean; Huang, Zhiheng; Karpathy, Andrej; Khosla, Aditya (ngày 1 tháng 12 năm 2015). "ImageNet Large Scale Visual Recognition Challenge". International Journal of Computer Vision (bằng tiếng Anh). Quyển 115 số 3. tr. 211–252. doi:10.1007/s11263-015-0816-y. ISSN 1573-1405.
  5. ^ Li, F-F. ImageNet. "Crowdsourcing, benchmarking & other cool things." CMU VASC Semin 16 (2010): 18-25.
  6. ^ Russakovsky, Olga; Deng, Jia; Su, Hao; Krause, Jonathan; Satheesh, Sanjeev; Ma, Sean; Huang, Zhiheng; Karpathy, Andrej; Khosla, Aditya; Bernstein, Michael; Berg, Alexander C.; Fei-Fei, Li (ngày 1 tháng 12 năm 2015). "ImageNet Large Scale Visual Recognition Challenge". International Journal of Computer Vision. 115 (3): 211–252. arXiv:1409.0575. doi:10.1007/s11263-015-0816-y.
  7. ^ Ridnik, Tal; Ben-Baruch, Emanuel; Noy, Asaf; Zelnik-Manor, Lihi (ngày 5 tháng 8 năm 2021). "ImageNet-21K Pretraining for the Masses". arXiv:2104.10972 [cs.CV].
  8. ^ "ImageNet". www.image-net.org. Truy cập ngày 19 tháng 10 năm 2022.
  9. ^ Hendrycks, Dan; Dietterich, Thomas (2019). "Benchmarking Neural Network Robustness to Common Corruptions and Perturbations". arXiv:1903.12261 [cs.LG].
  10. ^ Recht, Benjamin; Roelofs, Rebecca; Schmidt, Ludwig; Shankar, Vaishaal (ngày 24 tháng 5 năm 2019). "Do ImageNet Classifiers Generalize to ImageNet?". Proceedings of the 36th International Conference on Machine Learning. PMLR: 5389–5400.
  11. ^ Ridnik, Tal; Ben-Baruch, Emanuel; Noy, Asaf; Zelnik-Manor, Lihi (ngày 5 tháng 8 năm 2021). "ImageNet-21K Pretraining for the Masses". arXiv:2104.10972 [cs.CV].
  12. ^ Hempel, Jesse (ngày 13 tháng 11 năm 2018). "Fei-Fei Li's Quest to Make AI Better for Humanity". Wired. Truy cập ngày 5 tháng 5 năm 2019.
  13. ^ a b c Gershgorn, Dave (ngày 26 tháng 7 năm 2017). "The data that transformed AI research—and possibly the world". Quartz. Atlantic Media Co. Truy cập ngày 26 tháng 7 năm 2017.
  14. ^ Lee, Timothy B. (ngày 11 tháng 11 năm 2024). "How a stubborn computer scientist accidentally launched the deep learning boom". Ars Technica. Truy cập ngày 12 tháng 11 năm 2024.
  15. ^ Yang, Kaiyu; Qinami, Klint; Fei-Fei, Li; Deng, Jia; Russakovsky, Olga (ngày 17 tháng 9 năm 2019). "Towards Fairer Datasets: Filtering and Balancing the Distribution of the People Subtree in the ImageNet Hierarchy". image-net.org.
  16. ^ Li, F-F. ImageNet. "Crowdsourcing, benchmarking & other cool things." CMU VASC Semin 16 (2010): 18-25.
  17. ^ Lee, Timothy B. (ngày 11 tháng 11 năm 2024). "How a stubborn computer scientist accidentally launched the deep learning boom". Ars Technica. Truy cập ngày 12 tháng 11 năm 2024.
  18. ^ Russakovsky, Olga; Deng, Jia; Su, Hao; Krause, Jonathan; Satheesh, Sanjeev; Ma, Sean; Huang, Zhiheng; Karpathy, Andrej; Khosla, Aditya; Bernstein, Michael; Berg, Alexander C.; Fei-Fei, Li (ngày 1 tháng 12 năm 2015). "ImageNet Large Scale Visual Recognition Challenge". International Journal of Computer Vision. 115 (3): 211–252. arXiv:1409.0575. doi:10.1007/s11263-015-0816-y.