Tập dữ liệu

Tập dữ liệu (còn hay gọi là bộ dữ liệu, tiếng Anh: data set) là bộ chứa dữ liệu. Trong trường hợp dữ liệu dạng bảng, một tập dữ liệu tương ứng với một hoặc nhiều bảng trong cơ sở dữ liệu mà trong đó mỗi cột của bảng đại diện cho một biến cụ thể và mỗi dòng tương ứng với một bản ghi của tập dữ liệu đang xét. Tập dữ liệu này liệt kê giá trị cho mỗi biến (ví dụ như chiều cao và trọng lượng của một vật) ứng với mỗi đối tượng được lưu trữ. Tập dữ liệu còn có thể chứa một bộ gồm nhiều tài liệu hoặc tập tin.[2]
Trong lĩnh vực dữ liệu mở, tập dữ liệu là đơn vị được sử dụng để đo lượng thông tin được công bố trong một kho lưu trữ dữ liệu mở công khai. Cổng Dữ liệu châu Âu tổng hợp gần hai triệu tập dữ liệu.[3]
Tính chất
Có một số điểm đặc trưng xác định cấu trúc và tính chất của một tập dữ liệu. Điểm đặc trưng đó có thể là số lượng và kiểu dữ liệu của các thuộc tính hay biến cũng như một số độ đo thống kê áp dụng được cho chúng như độ lệch chuẩn và độ nhọn.[4]
Giá trị trong tập dữ liệu có thể là các số, bao gồm cả số thực hay số nguyên (ví dụ như chiều cao của một người theo đơn vị centimet), hoặc là dữ liệu danh nghĩa (không chứa giá trị số, ví dụ như sắc tộc của một người). Tổng quát hơn, giá trị có thể thuộc bất kỳ kiểu nào mô tả được dưới dạng cấp độ đo lường. Giá trị cho một biến nhất định thường có cùng kiểu dữ liệu. Giá trị thiếu có thể tồn tại trong tập dữ liệu và phải được chỉ thị bằng một cách thức nào đó.
Trong thống kê, tập dữ liệu thường bắt nguồn từ những quan sát thực tế thu được qua lấy mẫu một quần thể thống kê, với mỗi dòng ứng với quan sát trong một phần tử của quần thể đó. Tập dữ liệu còn có thể được tạo sinh qua thuật toán nhằm mục đích kiểm thử một số loại phần mềm nhất định. Một số phần mềm phân tích thống kê hiện đại như SPSS vẫn còn trình bày dữ liệu theo kiểu tập dữ liệu cổ điển. Nếu dữ liệu bị thiếu hoặc có dấu hiệu đáng ngờ thì người ta có thể áp dụng kỹ thuật bổ sung để hoàn thiện tập dữ liệu.[5]
Các tập dữ liệu cổ điển
Một số tập dữ liệu cổ điển đã được sử dụng rộng rãi trong nghiên cứu thống kê:
- Tập dữ liệu hoa Iris – Tập dữ liệu đa biến do Ronald Fisher giới thiệu năm 1936.[1] Có sẵn trong kho lưu trữ học máy của Đại học California-Irvine.[6]
- Cơ sở dữ liệu MNIST – Bộ hình ảnh chữ số viết tay thường dùng để kiểm định các thuật toán phân lớp, phân cụm và xử lý hình ảnh
- Categorical data analysis – Các bộ dữ liệu được sử dụng trong sách giáo khoa An Introduction to Categorical Data Analysis do UCLA Advanced Research Computing phát hành trực tuyến.[7]
- Robust statistics – Các bộ dữ liệu được sử dụng trong Robust Regression and Outlier Detection (Rousseeuw và Leroy, 1968). Có trên trang của Đại học Köln.[8]
- Time series – Dữ liệu sử dụng trong The Analysis of Time Series của Chris Chatfield, đăng trên StatLib.[9]
- Extreme values – Dữ liệu sử dụng trong sách An Introduction to the Statistical Modeling of Extreme Values do tác giả Stuart Coles cung cấp.
- Bayesian Data Analysis – Dữ liệu sử dụng trong sách cùng tên do một trong các tác giả là Andrew Gelman cung cấp (bản lưu trữ).
- Dữ liệu bệnh gan Bupa – Bộ dữ liệu được sử dụng trong một số bài báo về học máy (khai phá dữ liệu).
- Bộ tứ Anscombe – Tập dữ liệu nhỏ minh họa tầm quan trọng của trực quan hóa dữ liệu để tránh ngụy biện thống kê.
Ví dụ
Tải tập dữ liệu trong Python:
$ pip install datasetsfrom datasets import load_datasetdataset = load_dataset("TÊN TẬP DỮ LIỆU")Xem thêm
- Danh sách tập dữ liệu cho nghiên cứu học máy
- Danh sách tập dữ liệu trong xử lý hình ảnh và thị giác máy tính
- Dữ liệu
- Lấy mẫu (thống kê)
- Tính tương tác
- Hệ thống thu thập dữ liệu
Tham khảo
- 1 2 Fisher, R. A. (1936). "The Use of Multiple Measurements in Taxonomic Problems". Annals of Eugenics. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227. ISSN 2050-1420. Truy cập ngày 5 tháng 11 năm 2025.
- ↑ Snijders, C.; Matzat, U.; Reips, U.-D. (2012). "'Big Data': Big gaps of knowledge in the field of Internet" (PDF). International Journal of Internet Science. 7: 1–5. ISSN 1662-5544. Lưu trữ (PDF) bản gốc ngày 20 tháng 8 năm 2025. Truy cập ngày 5 tháng 11 năm 2025.
- ↑ "Datasets". European Data Portal. Ủy ban châu Âu. Truy cập ngày 5 tháng 11 năm 2025.
- ↑ Zytkow, Jan; Rauch, Jan, biên tập (1999). Principles of Data Mining and Knowledge Discovery: Third European Conference Proceedings (PKDD’99), Prague, Czech Republic, September 15-18, 1999. Lecture Notes in Artificial Intelligence. Quyển 1704. Berlin, New York: Springer Science & Business Media. tr. 100. ISBN 978-3-540-66490-1.
- ↑ Ủy ban Thống kê Liên Hợp Quốc; Ủy ban Kinh tế Liên Hợp Quốc châu Âu (2006). Statistical Data Editing, Vol. 3: Impact on data quality (PDF). New York: United Nations Publications. tr. 20. ISBN 978-92-1-116952-2.
- ↑ "Iris". UC Irvine Machine Learning Repository. Lưu trữ bản gốc ngày 9 tháng 9 năm 2025. Truy cập ngày 5 tháng 11 năm 2025.
- ↑ "Textbook Examples: An Introduction to Categorical Data Analysis by Alan Agresti". UCLA Advanced Research Computing. Lưu trữ bản gốc ngày 31 tháng 1 năm 2023. Truy cập ngày 5 tháng 11 năm 2025.
- ↑ "The ROUSSEEUW datasets". Đại học Köln. Bản gốc lưu trữ ngày 7 tháng 2 năm 2005. Truy cập ngày 5 tháng 11 năm 2025.
- ↑ "Datasets Archive". StatLib. Khoa Thống kê, Đại học Carnegie Mellon. Bản gốc lưu trữ ngày 2 tháng 1 năm 2011. Truy cập ngày 5 tháng 11 năm 2025.
Liên kết ngoài
- Data.gov – dữ liệu mở của chính phủ Mỹ
- Humanitarian Data Exchange (HDX) – nền tảng chia sẻ dữ liệu nhân đạo mở do Văn phòng Điều phối các vấn đề nhân đạo của Liên Hợp Quốc quản lý
- NYC Open Data – dữ liệu công khai mở do các cơ quan của thành phố New York và đối tác khác xuất bản
- CTU Relational Dataset Repository
- Research Pipeline – wiki/website liên kết đến các tập dữ liệu thuộc nhiều đề tài khác nhau
- StatLib–JASA Data Archive
- UCI – kho lưu trữ dữ liệu học máy
- UK Government Public Data
- World Bank Open Data – Dữ liệu phát triển toàn cầu miễn phí và truy cập mở của Ngân hàng Thế giới