Bài 3. Giới thiệu về khoa học dữ liệu (tiếp theo) trang 139, 140 SGK Tin học 12 Cánh diều
Hiện nay người ta nói nhiều đến “Dữ liệu lớn”.
CH tr 139
Hiện nay người ta nói nhiều đến “Dữ liệu lớn”. Em hãy lấy một ví dụ về dữ liệu lớn mà em biết
Phương pháp giải:
Dựa vào kiến thức và tra cứu thêm trên Internet.
Lời giải chi tiết:
Dưới đây là một số ví dụ về dữ liệu lớn:
Mạng xã hội: Dữ liệu từ Facebook, Twitter hay Instagram, bao gồm bài viết, bình luận, hình ảnh và video.
Y tế: Dữ liệu từ các thiết bị theo dõi sức khỏe (wearables), hồ sơ bệnh án điện tử và nghiên cứu gen.
Thương mại điện tử: Dữ liệu từ các giao dịch, hành vi mua sắm của khách hàng, và đánh giá sản phẩm trên các trang web như Amazon.
Giao thông: Dữ liệu từ các cảm biến giao thông, camera giám sát và ứng dụng điều hướng như Google Maps.
IoT (Internet of Things): Dữ liệu từ các thiết bị thông minh như xe hơi tự lái, nhà thông minh và máy móc công nghiệp.
Dự báo thời tiết: Dữ liệu từ các vệ tinh, cảm biến khí tượng và mô hình dự báo.
Ngân hàng và tài chính: Dữ liệu giao dịch, lịch sử tín dụng và hành vi đầu tư.
Những loại dữ liệu này thường có khối lượng lớn, đa dạng và thay đổi nhanh chóng, yêu cầu các phương pháp phân tích đặc biệt.
CH tr 140
Trong môn Toán, nội dung “Thống kê và xác suất” có phần "Phân tích và xử lí dữ liệu" với yêu cầu vận dụng các kiến thức để giải quyết một số bài toán thực tiễn. Em hãy nêu một số vấn đề thực tế có thể giải quyết bằng phân tích và xử lí dữ liệu thống kê. Theo em, đây có phải là phát hiện tri thức không?
Phương pháp giải:
Đây là một ví dụ điển hình về áp dụng và phát hiện tri thức.
Lời giải chi tiết:
Một số ví dụ:
Khảo sát thị trường: Phân tích thói quen tiêu dùng của khách hàng để đưa ra chiến lược marketing hiệu quả.
Giáo dục: Đánh giá hiệu quả của chương trình giảng dạy dựa trên kết quả thi cử và điểm số của học sinh.
Y tế công cộng: Theo dõi và phân tích sự lây lan của dịch bệnh để đưa ra biện pháp phòng chống.
Giao thông: Phân tích dữ liệu giao thông để tối ưu hóa lộ trình và giảm tắc nghẽn.
Tài chính: Dự đoán xu hướng giá cổ phiếu dựa trên dữ liệu lịch sử và biến động thị trường.
Môi trường: Phân tích dữ liệu ô nhiễm không khí để đưa ra cảnh báo và biện pháp khắc phục.
Việc áp dụng kiến thức trong môn Toán, như phân tích và xử lí dữ liệu thống kê, vào giải quyết các vấn đề thực tế là một ví dụ rõ ràng về việc áp dụng tri thức. Điều này thể hiện việc sử dụng kiến thức học thuật và kỹ năng tính toán để hiểu, phân tích và giải quyết các vấn đề cụ thể trong thế giới thực. Do đó, việc giải quyết các vấn đề thực tế bằng phân tích và xử lí dữ liệu thống kê không chỉ là một cách tiếp cận hữu ích mà còn là một ví dụ điển hình về phát hiện và áp dụng tri thức.
CH tr 143 LT
Trong buổi thảo luận nhóm, một số bạn có những phát biểu sau. Em hãy cho biết mỗi phát biểu là đúng hay sai:
a) Dữ liệu lớn có khuôn dạng xác định, ý nghĩa rõ ràng.
b) Phân tích dữ liệu nhằm rút ra các thông tin hữu ích còn tiềm ẩn.
c) Khai phá dữ liệu có mục đích tìm ra dữ liệu mới.
d) Học máy thúc đẩy việc phát triển những phương pháp mới để khai phá dữ liệu.
Phương pháp giải:
Phát biểu a và c sai.
Phát biểu b và d đúng.
Lời giải chi tiết:
a) Sai. Dữ liệu lớn thường có nhiều dạng khác nhau, bao gồm dữ liệu có cấu trúc, dữ liệu bán cấu trúc và dữ liệu phi cấu trúc. Ý nghĩa của dữ liệu lớn không phải lúc nào cũng rõ ràng và cần được phân tích để hiểu rõ hơn.
b) Đúng. Phân tích dữ liệu nhằm rút ra các thông tin hữu ích còn tiềm ẩn từ dữ liệu. Phân tích dữ liệu có thể sử dụng các kỹ thuật thống kê, toán học và khoa học máy tính để xử lý và phân tích dữ liệu.
c) Sai. Khai phá dữ liệu không nhằm mục đích tìm ra dữ liệu mới. Khai phá dữ liệu sử dụng các kỹ thuật học máy để tìm ra các mẫu và xu hướng ẩn trong dữ liệu.
d) Đúng. Học máy thúc đẩy việc phát triển những phương pháp mới để khai phá dữ liệu. Học máy cung cấp các thuật toán mạnh mẽ để xử lý và phân tích dữ liệu lớn, giúp tìm ra các mẫu và xu hướng ẩn mà con người khó có thể phát hiện.
CH tr 143 VD
Trong bài học đã có ví dụ cho từng chữ V, em hãy nêu một ví dụ khác các ví dụ đã nêu trong bài cho một trong năm chữ V về đặc trưng của dữ liệu lớn.
Phương pháp giải:
5 chữ V lần lượt là Volume (Khối lượng), Velocity (Tốc độ), Variety (Tính đa dạng), Veracity (Tính xác thực), Value (Giá trị).
Lời giải chi tiết:
Một ví dụ khác cho đặc trưng "Độ phong phú" (Variety) của dữ liệu lớn có thể là:
Dữ liệu từ hệ thống giám sát an ninh
Mô tả: Dữ liệu này bao gồm video từ camera an ninh, âm thanh từ cảm biến, và thông tin từ các cảm biến chuyển động. Các loại dữ liệu này có cấu trúc khác nhau và cần được phân tích để phát hiện các sự kiện bất thường.
Giải thích: Việc kết hợp nhiều loại dữ liệu khác nhau (hình ảnh, âm thanh, dữ liệu cảm biến) giúp cải thiện khả năng phát hiện và phản ứng với các tình huống an ninh.
CH tr 143 KT1
Dữ liệu lớn có những đặc trưng gì?
Phương pháp giải:
Dữ liệu lớn có 5 đặc trưng được thể hiện bởi 5 chữ V.
Lời giải chi tiết:
1. Khối lượng (Volume)
- Dữ liệu lớn có kích thước khổng lồ, thường tính bằng terabyte, petabyte hoặc exabyte.
- Ví dụ: dữ liệu giao dịch của một công ty thương mại điện tử, dữ liệu y tế của một bệnh viện, v.v.
2. Tốc độ (Velocity)
- Dữ liệu lớn được tạo ra và cập nhật liên tục, gần như theo thời gian thực.
- Ví dụ: dữ liệu từ mạng xã hội, dữ liệu giao dịch chứng khoán, v.v.
3. Đa dạng (Variety)
- Dữ liệu lớn bao gồm nhiều loại dữ liệu khác nhau, như dữ liệu có cấu trúc, dữ liệu bán cấu trúc và dữ liệu phi cấu trúc.
- Ví dụ: dữ liệu văn bản, dữ liệu hình ảnh, dữ liệu video, v.v.
4. Tính xác thực (Veracity)
- Dữ liệu lớn có thể chứa các lỗi và thiếu chính xác.
- Việc đảm bảo tính chính xác của dữ liệu là một thách thức lớn.
5. Giá trị (Value)
- Dữ liệu lớn có tiềm năng mang lại giá trị to lớn cho nhiều lĩnh vực khác nhau.
- Việc phân tích và khai thác dữ liệu hiệu quả có thể giúp doanh nghiệp tăng doanh thu, giảm chi phí, cải thiện hiệu quả hoạt động và đưa ra quyết định sáng suốt.
CH tr 143 KT2
Điều gì thể hiện máy tính là công cụ quan trọng trong khoa học dữ liệu?
Phương pháp giải:
Máy tính là công cụ rất quan trọng trong khoa học dữ liệu bởi nhiều lí do khác nhau.
Lời giải chi tiết:
Máy tính đóng vai trò quan trọng trong khoa học dữ liệu vì những lý do sau:
- Khả năng xử lý dữ liệu khổng lồ
- Khả năng thực hiện các phép tính phức tạp
- Khả năng tự động hóa các quy trình
- Khả năng trực quan hóa dữ liệu
- Khả năng truy cập và lưu trữ dữ liệu
CH tr 143 KT3
Các thuật toán song song thể hiện tính ưu việt ở những điểm nào?
Phương pháp giải:
Ưu điểm của thuật toán song song là: tăng tốc độ, khả năng mở rộng, hiệu quả sử dụng tài nguyên, tính linh hoạt.
Lời giải chi tiết:
Ưu điểm của thuật toán song song:
- Tăng tốc độ: Xử lý dữ liệu nhanh hơn bằng cách thực hiện nhiều nhiệm vụ cùng lúc trên nhiều bộ xử lý.
- Khả năng mở rộng: Dễ dàng mở rộng để xử lý lượng dữ liệu lớn hơn bằng cách sử dụng thêm nhiều bộ xử lý.
- Hiệu quả sử dụng tài nguyên: Tận dụng tối đa tài nguyên phần cứng sẵn có, giúp tăng hiệu quả sử dụng.
- Tính linh hoạt: Áp dụng cho nhiều bài toán khác nhau, từ khoa học tính toán đến ứng dụng web.