Buổi 4: Học không giám sát (Unsupervised Learning)

Buổi thứ 4 này chúng ta cùng tìm hiểu về Unsupervised Learning. Danh sách bài viết các bạn tham gia nhóm ZALO : https://zalo.me/g/vwxtgq183

4.1. Khái niệm về Học không giám sát

Học không giám sát (Unsupervised Learning) là một phương pháp trong học máy, trong đó mô hình học từ dữ liệu mà không cần thông tin về nhãn (labels) của dữ liệu. Mục tiêu của học không giám sát là tìm ra các mẫu, cấu trúc ẩn hoặc nhóm trong dữ liệu mà không cần phải dựa vào các nhãn sẵn có. Điều này đặc biệt hữu ích trong các bài toán mà chúng ta không có sẵn nhãn hoặc không thể gán nhãn cho toàn bộ dữ liệu.

Dữ liệu không giám sát: Dữ liệu trong học không giám sát không được gắn nhãn sẵn. Mô hình học từ dữ liệu đầu vào để phát hiện các mẫu hoặc nhóm tự nhiên.
Mục tiêu: Mục tiêu của học không giám sát là khám phá các đặc điểm ẩn trong dữ liệu, chẳng hạn như nhóm các đối tượng tương tự nhau, giảm số chiều dữ liệu, hay tìm kiếm các bất thường trong dữ liệu.

4.2. Các loại bài toán trong Học không giám sát

Học không giám sát có thể được phân thành các loại bài toán chính sau:

Phân cụm (Clustering): Là bài toán phân chia dữ liệu thành các nhóm sao cho các đối tượng trong cùng nhóm tương tự nhau và khác biệt với các đối tượng trong nhóm khác.
Giảm chiều dữ liệu (Dimensionality Reduction): Là bài toán giảm số chiều của dữ liệu trong khi vẫn giữ lại các thông tin quan trọng. Mục tiêu là đơn giản hóa dữ liệu mà không làm mất đi quá nhiều thông tin.
Phát hiện bất thường (Anomaly Detection): Là bài toán tìm kiếm các mẫu dữ liệu không bình thường hoặc khác biệt so với phần còn lại của dữ liệu, ví dụ như tìm kiếm gian lận trong giao dịch tài chính.

4.3. Các thuật toán học không giám sát phổ biến

Dưới đây là một số thuật toán học không giám sát phổ biến:

Phân cụm K-means:
- Ứng dụng: Phân nhóm khách hàng, phân loại các loại sản phẩm trong bán lẻ, phân tích dữ liệu người dùng.
- Mô tả: Thuật toán K-means phân chia dữ liệu thành K nhóm sao cho sự khác biệt giữa các điểm trong cùng nhóm là nhỏ nhất. K-means sử dụng các trung tâm cụm (centroids) để đại diện cho mỗi nhóm và các điểm trong cụm sẽ được phân loại vào nhóm có trung tâm gần nhất.
- Quá trình:
  1. Chọn số lượng cụm K.
  2. Khởi tạo các trung tâm cụm ngẫu nhiên.
  3. Gán mỗi điểm dữ liệu vào cụm gần nhất.
  4. Cập nhật trung tâm cụm.
  5. Lặp lại cho đến khi các trung tâm cụm không thay đổi.
Phân cụm DBSCAN (Density-Based Spatial Clustering of Applications with Noise):
- Ứng dụng: Phân nhóm các điểm dữ liệu trong không gian có mật độ khác nhau, phát hiện ra các điểm ngoại lai.
- Mô tả: DBSCAN phân cụm dữ liệu dựa trên mật độ các điểm dữ liệu. Các điểm có mật độ cao sẽ được nhóm lại với nhau, còn các điểm có mật độ thấp sẽ được coi là nhiễu (outliers).
- Ưu điểm: Không cần xác định trước số lượng cụm như K-means và có thể phát hiện các nhóm hình dạng phức tạp.
Phân tích thành phần chính (PCA – Principal Component Analysis):
- Ứng dụng: Giảm số chiều trong các bài toán dữ liệu lớn như hình ảnh, âm thanh, phân tích dữ liệu tài chính.
- Mô tả: PCA là một kỹ thuật giảm chiều dữ liệu, giúp xác định các thành phần chính (principal components) mà dữ liệu có thể được chiếu lên đó. Các thành phần này giúp dữ liệu được biểu diễn trong không gian có ít chiều hơn mà vẫn giữ lại phần lớn thông tin.
- Cách thức: PCA tìm các hướng (principal components) trong không gian dữ liệu sao cho các phương sai trong các hướng này là lớn nhất.
Phân tích cụm phân cấp (Hierarchical Clustering):
- Ứng dụng: Phân nhóm tài liệu, nghiên cứu sự tương quan giữa các loài sinh vật.
- Mô tả: Thuật toán phân cụm phân cấp xây dựng một cây phân cấp (dendrogram), trong đó các điểm gần nhau sẽ được gộp lại thành nhóm và cây này tiếp tục được chia nhỏ cho đến khi mỗi điểm dữ liệu trở thành một cụm riêng biệt.

4.4. Quá trình học trong Học không giám sát

Chuẩn bị dữ liệu: Dữ liệu cần phải được xử lý trước khi sử dụng, bao gồm việc chuẩn hóa, làm sạch dữ liệu, xử lý các giá trị thiếu và chuẩn hóa các đặc trưng.
Chọn thuật toán: Lựa chọn thuật toán phù hợp với bài toán cụ thể (phân cụm, giảm chiều, phát hiện bất thường, v.v.).
Huấn luyện mô hình: Mô hình học không giám sát không có quá trình huấn luyện giống như học có giám sát. Thay vào đó, thuật toán sẽ cố gắng tìm các cấu trúc hoặc mẫu ẩn trong dữ liệu mà không cần nhãn.
Đánh giá mô hình: Trong học không giám sát, việc đánh giá mô hình không đơn giản vì không có nhãn thực tế để so sánh. Tuy nhiên, các phương pháp như đánh giá độ tương quan giữa các cụm hoặc các thành phần chính có thể được sử dụng để đánh giá kết quả.

4.5. Ứng dụng của Học không giám sát trong thực tế

Marketing: Phân nhóm khách hàng theo thói quen mua sắm, sở thích hoặc mức độ sử dụng sản phẩm.
Phân tích thị trường: Phân tích các xu hướng, mẫu trong thị trường tài chính mà không cần dữ liệu nhãn.
Phát hiện gian lận: Phát hiện các giao dịch tài chính bất thường, giúp bảo vệ các hệ thống ngân hàng hoặc thương mại điện tử.
Xử lý hình ảnh: Phân nhóm các đối tượng trong ảnh, phát hiện các đặc trưng nổi bật trong bộ dữ liệu hình ảnh lớn.

4.6. Những thách thức trong học không giám sát

Không có nhãn dữ liệu: Việc thiếu thông tin về nhãn khiến việc đánh giá và kiểm tra kết quả trở nên khó khăn hơn.
Xác định số nhóm K: Trong một số thuật toán phân cụm (như K-means), việc chọn số lượng nhóm K là một vấn đề quan trọng và có thể ảnh hưởng lớn đến kết quả.
Khó khăn trong đánh giá: Vì không có nhãn, việc đánh giá chất lượng của mô hình là khó khăn, đặc biệt trong các bài toán phân cụm.

4.7. Kết luận

Học không giám sát là một phương pháp mạnh mẽ trong học máy, đặc biệt hữu ích khi dữ liệu không có nhãn. Việc phát hiện các nhóm, cấu trúc ẩn trong dữ liệu là cơ sở cho nhiều ứng dụng trong thực tế, từ marketing đến phát hiện gian lận. Hiểu rõ các thuật toán học không giám sát sẽ giúp bạn khai thác tối đa thông tin từ dữ liệu mà không cần đến nhãn sẵn có. Trong các buổi học tiếp theo, chúng ta sẽ đi sâu vào các kỹ thuật và ứng dụng nâng cao trong AI.