Buổi 3: Học có giám sát (Supervised Learning)

Hi các em, chúng ta đến với buổi 3 chủ đề Supervised Learning

Nhóm học AI trên Zalo : https://zalo.me/g/vwxtgq183

3.1. Khái niệm về Học có giám sát

Học có giám sát (Supervised Learning) là một phương pháp trong học máy, trong đó mô hình học từ dữ liệu đã được gắn nhãn sẵn (labelled data). Mục tiêu của học có giám sát là tìm ra mối quan hệ giữa đầu vào (input) và đầu ra (output) từ dữ liệu gắn nhãn, qua đó giúp mô hình có thể dự đoán hoặc phân loại các dữ liệu chưa có nhãn.

Dữ liệu có giám sát: Trong học có giám sát, mỗi mẫu dữ liệu trong tập huấn luyện đi kèm với một nhãn (label). Ví dụ, trong bài toán phân loại email là spam hay không spam, mỗi email trong tập huấn luyện sẽ có một nhãn là “spam” hoặc “not spam”.
Mục tiêu: Mô hình học có giám sát sẽ học cách dự đoán nhãn đầu ra dựa trên các đặc trưng của dữ liệu đầu vào, sao cho khi gặp dữ liệu mới không có nhãn, mô hình có thể đưa ra dự đoán chính xác.

3.2. Các loại bài toán trong Học có giám sát

Học có giám sát có thể được phân thành hai loại bài toán chính:

Hồi quy (Regression): Bài toán hồi quy liên quan đến việc dự đoán một giá trị liên tục. Ví dụ, dự đoán giá nhà dựa trên các đặc trưng như diện tích, số phòng ngủ, vị trí, v.v.
Phân loại (Classification): Bài toán phân loại liên quan đến việc phân chia các đối tượng vào các nhóm hoặc lớp khác nhau. Ví dụ, phân loại hình ảnh là mèo hay chó, phân loại email là spam hay không spam.

3.3. Các thuật toán học có giám sát phổ biến

Trong học có giám sát, có nhiều thuật toán khác nhau được sử dụng để giải quyết các bài toán hồi quy và phân loại. Dưới đây là một số thuật toán phổ biến:

Hồi quy tuyến tính (Linear Regression):
- Ứng dụng: Dự đoán giá trị liên tục như giá nhà, doanh thu, nhiệt độ, v.v.
- Mô tả: Hồi quy tuyến tính cố gắng tìm một đường thẳng (hoặc mặt phẳng trong không gian nhiều chiều) sao cho sai số giữa giá trị dự đoán và giá trị thực tế là nhỏ nhất.
- Công thức: y=w1x1+w2x2+⋯+wnxn+by = w_1x_1 + w_2x_2 + \dots + w_nx_n + by=w1x1+w2x2+⋯+wnxn+b
Phân loại Logistic (Logistic Regression):
- Ứng dụng: Phân loại nhị phân như dự đoán bệnh có hoặc không có, dự đoán email là spam hay không.
- Mô tả: Mặc dù tên gọi có chứa từ “hồi quy”, Logistic Regression thực chất là một thuật toán phân loại. Mô hình sử dụng hàm sigmoid để xác định xác suất của một nhãn cụ thể.
Cây quyết định (Decision Trees):
- Ứng dụng: Phân loại và hồi quy, ví dụ phân loại khách hàng tiềm năng trong marketing, phân tích tín dụng.
- Mô tả: Cây quyết định xây dựng một cây nhị phân dựa trên các đặc trưng của dữ liệu. Mỗi nút trong cây đại diện cho một đặc trưng, và các nhánh đại diện cho các quyết định hoặc kết quả.
Máy hỗ trợ véc-tơ (Support Vector Machine – SVM):
- Ứng dụng: Phân loại và hồi quy, ví dụ phân loại văn bản, nhận dạng hình ảnh.
- Mô tả: SVM tìm kiếm một siêu phẳng trong không gian đa chiều để phân chia dữ liệu thành các lớp khác nhau sao cho khoảng cách giữa các điểm của các lớp là lớn nhất.
K-láng giềng gần nhất (K-Nearest Neighbors – KNN):
- Ứng dụng: Phân loại và hồi quy, ví dụ nhận diện chữ viết tay, phân loại người dùng trong các hệ thống khuyến nghị.
- Mô tả: KNN là thuật toán dựa trên sự tương đồng. Khi dự đoán nhãn của một điểm mới, thuật toán sẽ tìm K điểm dữ liệu gần nhất và gán nhãn theo đa số của những điểm này.

3.4. Quá trình huấn luyện mô hình Học có giám sát

Quá trình huấn luyện mô hình trong học có giám sát gồm các bước cơ bản sau:

Chuẩn bị dữ liệu: Dữ liệu huấn luyện cần được chuẩn bị, bao gồm việc xử lý các giá trị thiếu, mã hóa các đặc trưng không phải số (như chuỗi văn bản), và chia dữ liệu thành các tập huấn luyện và kiểm tra.
Chọn thuật toán: Dựa trên bài toán cụ thể, người ta sẽ chọn thuật toán học máy phù hợp (hồi quy, phân loại, v.v.).
Huấn luyện mô hình: Sử dụng dữ liệu huấn luyện để “dạy” mô hình học cách dự đoán đầu ra dựa trên đầu vào. Trong quá trình này, mô hình sẽ điều chỉnh các tham số (như trọng số trong hồi quy tuyến tính) để tối thiểu hóa sai số giữa giá trị dự đoán và giá trị thực tế.
Đánh giá mô hình: Sau khi huấn luyện, mô hình sẽ được kiểm tra trên tập dữ liệu kiểm tra để đánh giá độ chính xác và khả năng tổng quát của mô hình. Các chỉ số như độ chính xác (accuracy), sai số bình phương trung bình (MSE), và độ nhớ (recall) sẽ được tính toán.
Tối ưu hóa mô hình: Dựa trên kết quả đánh giá, mô hình có thể được tối ưu hóa bằng cách điều chỉnh các siêu tham số (hyperparameters) hoặc sử dụng các kỹ thuật như cross-validation.

3.5. Ứng dụng của Học có giám sát trong thực tế

Chẩn đoán y tế: Dự đoán bệnh dựa trên các kết quả xét nghiệm, hình ảnh y tế.
Nhận diện giọng nói: Chuyển đổi giọng nói thành văn bản trong các ứng dụng như trợ lý ảo (Siri, Google Assistant).
Phân loại email: Phân loại email là spam hay không spam.
Phân tích cảm xúc: Phân tích các bài đăng trên mạng xã hội để xác định cảm xúc của người dùng (tích cực, tiêu cực, trung lập).

3.6. Những thách thức trong học có giám sát

Chất lượng dữ liệu: Dữ liệu có chất lượng thấp hoặc thiếu đa dạng có thể ảnh hưởng đến hiệu suất của mô hình.
Overfitting (Quá khớp): Khi mô hình học quá kỹ dữ liệu huấn luyện và không thể tổng quát tốt trên dữ liệu mới.
Không đủ dữ liệu: Trong nhiều trường hợp, việc thiếu đủ dữ liệu để huấn luyện mô hình có thể dẫn đến việc mô hình không học được các đặc trưng quan trọng.

3.7. Kết luận

Học có giám sát là một trong những phương pháp học máy quan trọng nhất và có nhiều ứng dụng thực tiễn. Việc hiểu rõ các thuật toán cơ bản và quá trình huấn luyện mô hình sẽ giúp bạn có cái nhìn sâu sắc về cách xây dựng và triển khai các hệ thống AI trong các bài toán phân loại và hồi quy. Trong các buổi học tiếp theo, chúng ta sẽ đi sâu vào các thuật toán cụ thể và ứng dụng của chúng trong thực tế.