Bước tới nội dung

Tập dữ liệu

Bách khoa toàn thư mở Wikipedia
Một số biểu đồ minh họa tập dữ liệu hoa Iris của Ronald Fisher (1936)[1]

Tập dữ liệu (còn hay gọi là bộ dữ liệu, tiếng Anh: data set) là bộ chứa dữ liệu. Trong trường hợp dữ liệu dạng bảng, một tập dữ liệu tương ứng với một hoặc nhiều bảng trong cơ sở dữ liệu mà trong đó mỗi cột của bảng đại diện cho một biến cụ thể và mỗi dòng tương ứng với một bản ghi của tập dữ liệu đang xét. Tập dữ liệu này liệt kê giá trị cho mỗi biến (ví dụ như chiều cao và trọng lượng của một vật) ứng với mỗi đối tượng được lưu trữ. Tập dữ liệu còn có thể chứa một bộ gồm nhiều tài liệu hoặc tập tin.[2]

Trong lĩnh vực dữ liệu mở, tập dữ liệu là đơn vị được sử dụng để đo lượng thông tin được công bố trong một kho lưu trữ dữ liệu mở công khai. Cổng Dữ liệu châu Âu tổng hợp gần hai triệu tập dữ liệu.[3]

Tính chất

Có một số điểm đặc trưng xác định cấu trúc và tính chất của một tập dữ liệu. Điểm đặc trưng đó có thể là số lượng và kiểu dữ liệu của các thuộc tính hay biến cũng như một số độ đo thống kê áp dụng được cho chúng như độ lệch chuẩnđộ nhọn.[4]

Giá trị trong tập dữ liệu có thể là các số, bao gồm cả số thực hay số nguyên (ví dụ như chiều cao của một người theo đơn vị centimet), hoặc là dữ liệu danh nghĩa (không chứa giá trị số, ví dụ như sắc tộc của một người). Tổng quát hơn, giá trị có thể thuộc bất kỳ kiểu nào mô tả được dưới dạng cấp độ đo lường. Giá trị cho một biến nhất định thường có cùng kiểu dữ liệu. Giá trị thiếu có thể tồn tại trong tập dữ liệu và phải được chỉ thị bằng một cách thức nào đó.

Trong thống kê, tập dữ liệu thường bắt nguồn từ những quan sát thực tế thu được qua lấy mẫu một quần thể thống kê, với mỗi dòng ứng với quan sát trong một phần tử của quần thể đó. Tập dữ liệu còn có thể được tạo sinh qua thuật toán nhằm mục đích kiểm thử một số loại phần mềm nhất định. Một số phần mềm phân tích thống kê hiện đại như SPSS vẫn còn trình bày dữ liệu theo kiểu tập dữ liệu cổ điển. Nếu dữ liệu bị thiếu hoặc có dấu hiệu đáng ngờ thì người ta có thể áp dụng kỹ thuật bổ sung để hoàn thiện tập dữ liệu.[5]

Các tập dữ liệu cổ điển

Một số tập dữ liệu cổ điển đã được sử dụng rộng rãi trong nghiên cứu thống kê:

Ví dụ

Tải tập dữ liệu trong Python:

$ pip install datasets
from datasets import load_datasetdataset = load_dataset("TÊN TẬP DỮ LIỆU")

Xem thêm

  • Danh sách tập dữ liệu cho nghiên cứu học máy
  • Danh sách tập dữ liệu trong xử lý hình ảnh và thị giác máy tính
  • Dữ liệu
  • Lấy mẫu (thống kê)
  • Tính tương tác
  • Hệ thống thu thập dữ liệu

Tham khảo

  1. 1 2 Fisher, R. A. (1936). "The Use of Multiple Measurements in Taxonomic Problems". Annals of Eugenics. 7 (2): 179–188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227. ISSN 2050-1420. Truy cập ngày 5 tháng 11 năm 2025.
  2. Snijders, C.; Matzat, U.; Reips, U.-D. (2012). "'Big Data': Big gaps of knowledge in the field of Internet" (PDF). International Journal of Internet Science. 7: 1–5. ISSN 1662-5544. Lưu trữ (PDF) bản gốc ngày 20 tháng 8 năm 2025. Truy cập ngày 5 tháng 11 năm 2025.
  3. "Datasets". European Data Portal. Ủy ban châu Âu. Truy cập ngày 5 tháng 11 năm 2025.
  4. Zytkow, Jan; Rauch, Jan, biên tập (1999). Principles of Data Mining and Knowledge Discovery: Third European Conference Proceedings (PKDD’99), Prague, Czech Republic, September 15-18, 1999. Lecture Notes in Artificial Intelligence. Quyển 1704. Berlin, New York: Springer Science & Business Media. tr. 100. ISBN 978-3-540-66490-1.
  5. Ủy ban Thống kê Liên Hợp Quốc; Ủy ban Kinh tế Liên Hợp Quốc châu Âu (2006). Statistical Data Editing, Vol. 3: Impact on data quality (PDF). New York: United Nations Publications. tr. 20. ISBN 978-92-1-116952-2.
  6. "Iris". UC Irvine Machine Learning Repository. Lưu trữ bản gốc ngày 9 tháng 9 năm 2025. Truy cập ngày 5 tháng 11 năm 2025.
  7. "Textbook Examples: An Introduction to Categorical Data Analysis by Alan Agresti". UCLA Advanced Research Computing. Lưu trữ bản gốc ngày 31 tháng 1 năm 2023. Truy cập ngày 5 tháng 11 năm 2025.
  8. "The ROUSSEEUW datasets". Đại học Köln. Bản gốc lưu trữ ngày 7 tháng 2 năm 2005. Truy cập ngày 5 tháng 11 năm 2025.
  9. "Datasets Archive". StatLib. Khoa Thống kê, Đại học Carnegie Mellon. Bản gốc lưu trữ ngày 2 tháng 1 năm 2011. Truy cập ngày 5 tháng 11 năm 2025.

Liên kết ngoài