Phân loại dữ liệu
Phân loại dữ liệu là gì? Phân loại dữ liệu như thế nào? Kiểm tra tính hợp lý của dữ liệu như thế nào?
1. Lý thuyết
Khái niệm:
Việc sắp xếp thông tin theo những tiêu chí nhất định gọi là phân loại dữ liệu.
Cách phân loại dữ liệu:
Dựa trên tiêu chí định tính và định lượng, ta có thể phân loại các dữ liệu thành hai loại:
- Dữ liệu định lượng (số liệu) được biểu diễn bằng số thực và được chia thành hai loại:
+ Loại rời rạc là dữ liệu chỉ nhận hữu hạn giá trị hoặc biểu thị số đếm. Ví dụ: số học sinh, cỡ giày,…
+ Loại liên tục là dữ liệu có thể nhận mọi giá trị trong một khoảng nào đó. Ví dụ: chiều dài, khối lượng,…
- Dữ liệu định tính được biểu diễn bằng từ, chữ cái, kí hiệu,… và được chia thành các loại:
+ Dữ liệu định danh là dữ liệu thể hiện cách gọi tên. Ví dụ: giới tính, màu sắc, nơi ở,…
+ Dữ liệu biểu thị thứ bậc là dữ liệu thể hiện sự hơn kém. Ví dụ: mức độ hài lòng, khối, lớp,…
Kiểm tra tính hợp lí của dữ liệu
Để đánh giá tính hợp lí của dữ liệu, ta cần đưa ra các tiêu chí đánh giá, chẳng hạn như dữ liệu phải:
- Đúng định dạng;
- Nằm trong pham vi dự kiến;
- Phải có tính đại diện đối với vấn đề cần thống kê.
=> Để đánh giá tính hợp lí của dữ liệu, ta có thể dựa vào mối liên hệ toán học đơn giản giữa các số liệu.
2. Ví dụ minh họa
Cho hai dãy dữ liệu như sau:
(1) Số học sinh các lớp 6 trong trường:
35 42 87 38 40 41 38.
(2) Tên món ăn yêu thích của các thành viên trong gia đình:
Bánh chưng, pizza, canh cua, gà rán, rau muống luộc, cá kho, rượu vang.
Trong các dãy dữ liệu trên, dãy (1) là dãy số liệu rời rạc. Giá trị 87 không hợp lý vì theo quy định, mỗi lớp ở bậc THCS thường có không quá 45 học sinh. Thực tế, do điều kiện khó khăn một số lớp có số học sinh nhiều hơn 45 nhưng không lớp nào có 87 học sinh. Do đó 87 là số liệu không hợp lí.
Dãy (2) là dãy dữ liệu không là số, không thể sắp xếp thứ tự. “Rượu vang” là dữ liệu không hợp lí vì đây không phải là tên món ăn mà là tên một loại đồ uống.