Học máy là cách sử dụng dữ liệu để đưa ra dự đoán hoặc phát hiện mẫu mà không cần viết tay mọi quy tắc. Trong học có giám sát, dữ liệu huấn luyện có chứa đáp án đúng. Trong học không giám sát, dữ liệu không có đáp án đó, nên mục tiêu là tìm ra cấu trúc như các nhóm hoặc các hướng biến thiên chính.

Đó là ý tưởng cốt lõi đằng sau hầu hết kiến thức cơ bản về học máy. Bạn bắt đầu với dữ liệu, chọn một mô hình, huấn luyện nó trên các ví dụ, rồi kiểm tra xem nó có hoạt động tốt trên dữ liệu mới hay không, thay vì chỉ trên dữ liệu mà nó đã thấy.

Học Máy Làm Gì

Một mô hình học máy ánh xạ đầu vào thành đầu ra hoặc các mẫu. Đầu vào có thể là diện tích nhà, điểm thi, hoạt động của khách hàng hoặc giá trị pixel trong một bức ảnh. Đầu ra phụ thuộc vào bài toán:

  • dự đoán một con số, chẳng hạn như giá
  • dự đoán một nhãn, chẳng hạn thư rác hay không phải thư rác
  • nhóm các mục tương tự mà không cần nhãn
  • xếp hạng hoặc gợi ý các lựa chọn có khả năng phù hợp

Điều khiến đây được gọi là "học" là các tham số của mô hình được điều chỉnh từ dữ liệu thay vì được lập trình viên cố định hoàn toàn.

Học Có Giám Sát Và Học Không Giám Sát

Học Có Giám Sát: Dự Đoán Mục Tiêu Đã Biết

Học có giám sát sử dụng các ví dụ có dạng (x,y)(x, y), trong đó xx là đầu vào và yy là mục tiêu đã biết.

Nếu yy là số, bài toán thường được gọi là hồi quy. Nếu yy là một loại hay một nhóm, bài toán thường được gọi là phân loại.

Các thuật toán học có giám sát phổ biến gồm hồi quy tuyến tính, hồi quy logistic, cây quyết định, rừng ngẫu nhiên, máy vector hỗ trợ và mạng nơ-ron. Không có phương pháp nào là tốt nhất trong mọi tình huống. Lựa chọn đúng phụ thuộc vào kích thước dữ liệu, mức độ nhiễu, loại đặc trưng và mức độ dễ diễn giải mà bạn cần.

Học Không Giám Sát: Tìm Cấu Trúc Không Cần Nhãn

Học không giám sát sử dụng đầu vào xx mà không có nhãn mục tiêu.

Ở đây, mục tiêu thường là khám phá cấu trúc vốn đã có trong dữ liệu. Một phương pháp phân cụm như k-means cố gắng nhóm các quan sát tương tự lại với nhau. Một phương pháp giảm chiều như phân tích thành phần chính cố gắng tóm tắt sự biến thiên bằng ít hướng hơn.

Học không giám sát có thể hữu ích cho khám phá dữ liệu, nén, phát hiện bất thường hoặc tiền xử lý. Kết quả của nó phụ thuộc rất nhiều vào cách dữ liệu được biểu diễn và khái niệm độ tương tự được tích hợp trong phương pháp.

Một Mô Hình Tư Duy Đơn Giản

Hãy nghĩ về học máy như việc khớp đường cong hoặc khớp mẫu trong điều kiện bất định.

Bạn chọn một họ mô hình, chẳng hạn như đường thẳng, cây quyết định hoặc mạng nơ-ron nhiều lớp. Sau đó, quá trình huấn luyện điều chỉnh mô hình để các dự đoán của nó khớp với dữ liệu huấn luyện tốt nhất có thể theo một hàm mất mát. Nếu mô hình tổng quát hóa tốt, nó cũng sẽ hoạt động tốt trên dữ liệu mới mà trước đó nó chưa từng thấy.

Điều kiện cuối cùng đó rất quan trọng. Một mô hình chỉ ghi nhớ tập huấn luyện thường không hữu ích.

Ví Dụ Cụ Thể: Dự Đoán Tiền Thuê Bằng Hồi Quy Tuyến Tính

Giả sử bạn muốn dự đoán tiền thuê căn hộ từ diện tích sàn. Một mô hình học có giám sát đơn giản là

y^=b0+b1x\hat{y} = b_0 + b_1x

trong đó xx là diện tích, y^\hat{y} là tiền thuê dự đoán, b0b_0 là hệ số chặn và b1b_1 là hệ số góc.

Giả sử một mô hình đã khớp cho kết quả

y^=500+2x\hat{y} = 500 + 2x

với tiền thuê được đo bằng đô la và diện tích được đo bằng feet vuông.

Nếu một căn hộ có x=700x = 700, dự đoán là

y^=500+2(700)=1900\hat{y} = 500 + 2(700) = 1900

Vậy mô hình dự đoán tiền thuê là 19001900.

Có ba chi tiết quan trọng ở đây. Mô hình đã học từ các ví dụ có nhãn về diện tích và tiền thuê. Dự đoán là một ước lượng, không phải sự đảm bảo. Công thức này chỉ hợp lý nếu mối quan hệ gần tuyến tính là một xấp xỉ hợp lý trong khoảng giá trị mà bạn quan tâm.

Ví dụ này được cố ý làm đơn giản, nhưng nó nắm được vòng lặp chính của học có giám sát: dùng dữ liệu có nhãn, khớp tham số và dự đoán mục tiêu cho một đầu vào mới.

Các Thuật Toán Học Máy Chính Và Khi Nào Nên Dùng

Hồi Quy Tuyến Tính

Dùng khi mục tiêu là dự đoán một giá trị số và xấp xỉ bằng đường thẳng là một mô hình khởi đầu hợp lý.

Hồi Quy Logistic

Dùng cho bài toán phân loại khi bạn muốn một mô hình cơ sở tương đối đơn giản, dễ diễn giải để dự đoán các nhóm như có hoặc không.

Cây Quyết Định Và Rừng Ngẫu Nhiên

Dùng khi mối quan hệ là phi tuyến hoặc có tương tác giữa các biến, đặc biệt với dữ liệu dạng bảng. Rừng ngẫu nhiên thường đánh đổi một phần khả năng diễn giải để có độ ổn định dự đoán mạnh hơn.

Phân Cụm K-Means

Dùng trong học không giám sát để nhóm các quan sát thành kk cụm. Phương pháp này hoạt động tốt nhất khi khái niệm tâm cụm có ý nghĩa đối với các đặc trưng bạn sử dụng.

Mạng Nơ-Ron

Dùng khi mối quan hệ giữa đầu vào và đầu ra rất phức tạp, đặc biệt trong các bài toán về ảnh, tiếng nói và ngôn ngữ. Chúng thường cần nhiều dữ liệu và tinh chỉnh hơn so với các mô hình đơn giản hơn.

Những Sai Lầm Thường Gặp Trong Kiến Thức Cơ Bản Về Học Máy

Nhầm Lẫn Giữa Dự Đoán Và Giải Thích

Một mô hình có thể dự đoán tốt nhưng vẫn không giải thích được nguyên nhân thật sự của mẫu đó.

Bỏ Qua Sự Khác Biệt Giữa Huấn Luyện Và Kiểm Tra

Độ chính xác cao trên dữ liệu huấn luyện không có nghĩa là mô hình sẽ hoạt động tốt trên dữ liệu mới. Khả năng tổng quát hóa phải được kiểm tra trên dữ liệu riêng biệt.

Dùng Sai Thước Đo

Độ chính xác có thể gây hiểu lầm trong các bài toán phân loại mất cân bằng. Với một số bài toán, precision, recall, sai số tuyệt đối trung bình hoặc một thước đo khác có thể quan trọng hơn.

Xem Tên Thuật Toán Như Một Sự Bảo Đảm

"Mạng nơ-ron" hay "rừng ngẫu nhiên" không phải là lời hứa về chất lượng. Chất lượng dữ liệu, thiết kế đặc trưng, đánh giá và cách đặt bài toán quan trọng ít nhất cũng ngang với tên thuật toán.

Khi Nào Học Máy Hữu Ích

Học máy hữu ích khi mẫu quá phức tạp để mô tả bằng một bộ quy tắc cố định nhỏ, nhưng vẫn có đủ dữ liệu để học từ ví dụ. Các ứng dụng phổ biến gồm hệ gợi ý, phát hiện gian lận, công cụ hỗ trợ ảnh y khoa, xếp hạng, dự báo và phân loại tài liệu.

Nó không phải lúc nào cũng là công cụ phù hợp. Nếu quy tắc đơn giản, ổn định và đã biết đầy đủ, một công thức thông thường hoặc chương trình xác định có thể tốt hơn.

Thử Một Bài Toán Tương Tự

Hãy lấy một tập dữ liệu nhỏ và đặt hai câu hỏi: "Đầu vào là gì?" và "Mục tiêu là gì?" Nếu bạn trả lời được cả hai, hãy thử một mô hình có giám sát như hồi quy tuyến tính hoặc phân loại. Nếu không, hãy khám phá xem dữ liệu có tự nhiên hình thành các nhóm bằng một phương pháp không giám sát hay không.

Nếu muốn tiến thêm một bước, hãy giải một bài toán tương tự bằng một mô hình đơn giản trước, rồi so sánh với một mô hình linh hoạt hơn. Đó thường là cách học tốt hơn so với việc nhảy thẳng vào thuật toán tiên tiến nhất.

Cần trợ giúp giải bài?

Tải câu hỏi lên và nhận lời giải từng bước đã được xác minh trong vài giây.

Mở GPAI Solver →