Machine learning adalah cara menggunakan data untuk membuat prediksi atau menemukan pola tanpa menulis setiap aturan secara manual. Dalam pembelajaran terawasi, data pelatihan menyertakan jawaban yang benar. Dalam pembelajaran tak terawasi, data tidak menyertakan jawaban itu, sehingga tujuannya adalah menemukan struktur seperti kelompok atau arah utama variasi.
Itulah gagasan inti di balik sebagian besar dasar machine learning. Anda mulai dengan data, memilih model, melatihnya pada contoh, lalu memeriksa apakah model bekerja pada data baru, bukan hanya pada data yang sudah pernah dilihat.
Apa yang Dilakukan Machine Learning
Model machine learning memetakan input ke output atau pola. Input bisa berupa luas rumah, nilai ujian, aktivitas pelanggan, atau nilai piksel pada gambar. Output bergantung pada tugasnya:
- memprediksi angka, seperti harga
- memprediksi label, seperti spam atau bukan spam
- mengelompokkan item serupa tanpa label
- memberi peringkat atau merekomendasikan pilihan yang mungkin
Yang membuat ini disebut "belajar" adalah parameter model disesuaikan dari data, bukan sepenuhnya ditetapkan oleh programmer.
Pembelajaran Terawasi vs Pembelajaran Tak Terawasi
Pembelajaran Terawasi: Memprediksi Target yang Diketahui
Pembelajaran terawasi menggunakan contoh berbentuk , dengan sebagai input dan sebagai target yang diketahui.
Jika bernilai numerik, tugas ini sering disebut regresi. Jika berupa kategori, tugas ini biasanya disebut klasifikasi.
Algoritma terawasi yang umum mencakup regresi linear, regresi logistik, decision tree, random forest, support vector machine, dan neural network. Tidak ada satu metode yang terbaik untuk semua situasi. Pilihan yang tepat bergantung pada ukuran data, tingkat noise, jenis fitur, dan seberapa besar interpretabilitas yang Anda butuhkan.
Pembelajaran Tak Terawasi: Menemukan Struktur Tanpa Label
Pembelajaran tak terawasi menggunakan input tanpa label target.
Di sini tujuannya biasanya adalah menemukan struktur yang memang sudah ada dalam data. Metode clustering seperti k-means mencoba mengelompokkan observasi yang mirip. Metode reduksi dimensi seperti principal component analysis mencoba merangkum variasi dengan lebih sedikit arah.
Pembelajaran tak terawasi dapat berguna untuk eksplorasi, kompresi, deteksi anomali, atau prapemrosesan. Hasilnya sangat bergantung pada bagaimana data direpresentasikan dan konsep kemiripan apa yang dibangun ke dalam metode tersebut.
Model Mental Sederhana
Bayangkan machine learning sebagai pencocokan kurva atau pencocokan pola dalam kondisi tidak pasti.
Anda memilih keluarga model, seperti garis lurus, decision tree, atau neural network berlapis. Pelatihan kemudian menyesuaikan model agar prediksinya semirip mungkin dengan data pelatihan menurut suatu loss function. Jika model melakukan generalisasi dengan baik, model juga akan bekerja baik pada data baru yang belum pernah dilihat sebelumnya.
Kondisi terakhir itu penting. Model yang hanya menghafal data pelatihan biasanya tidak berguna.
Contoh Sederhana: Memprediksi Sewa dengan Regresi Linear
Misalkan Anda ingin memprediksi sewa apartemen dari luas lantai. Model terawasi yang sederhana adalah
dengan adalah luas, adalah prediksi sewa, adalah intersep, dan adalah kemiringan.
Misalkan model hasil pelatihan memberikan
dengan sewa diukur dalam dolar dan luas diukur dalam kaki persegi.
Jika sebuah apartemen memiliki , maka prediksinya adalah
Jadi model memprediksi sewa sebesar .
Ada tiga hal penting di sini. Model belajar dari contoh berlabel berupa luas dan sewa. Prediksi adalah perkiraan, bukan jaminan. Rumus ini hanya masuk akal jika hubungan yang kira-kira linear merupakan pendekatan yang wajar pada rentang yang Anda pedulikan.
Contoh ini sengaja dibuat sederhana, tetapi sudah menangkap alur utama pembelajaran terawasi: gunakan data berlabel, sesuaikan parameter, lalu prediksi target untuk input baru.
Algoritma Machine Learning Utama dan Kapan Menggunakannya
Regresi Linear
Gunakan saat tujuannya adalah memprediksi nilai numerik dan pendekatan garis lurus merupakan model awal yang masuk akal.
Regresi Logistik
Gunakan untuk klasifikasi ketika Anda menginginkan baseline yang relatif sederhana dan mudah diinterpretasikan untuk memprediksi kategori seperti ya atau tidak.
Decision Tree dan Random Forest
Gunakan saat hubungan bersifat nonlinier atau melibatkan interaksi, terutama pada data tabular. Random forest biasanya menukar sebagian interpretabilitas dengan stabilitas prediksi yang lebih kuat.
Clustering K-Means
Gunakan dalam pembelajaran tak terawasi untuk mengelompokkan observasi ke dalam cluster. Metode ini bekerja paling baik ketika gagasan tentang pusat cluster memang bermakna untuk fitur yang Anda gunakan.
Neural Network
Gunakan saat hubungan antara input dan output sangat kompleks, terutama pada tugas gambar, suara, dan bahasa. Metode ini sering membutuhkan lebih banyak data dan penyesuaian dibanding model yang lebih sederhana.
Kesalahan Umum dalam Dasar Machine Learning
Mencampuradukkan Prediksi dengan Penjelasan
Model bisa memprediksi dengan baik tetapi tetap gagal menjelaskan penyebab sebenarnya dari pola tersebut.
Mengabaikan Perbedaan antara Pelatihan dan Pengujian
Akurasi tinggi pada data pelatihan tidak berarti model akan bekerja baik pada data baru. Generalisasi harus diperiksa pada data yang terpisah.
Menggunakan Metrik yang Salah
Akurasi bisa menyesatkan pada masalah klasifikasi yang tidak seimbang. Untuk beberapa tugas, precision, recall, mean absolute error, atau metrik lain mungkin lebih penting.
Menganggap Nama Algoritma sebagai Jaminan
"Neural network" atau "random forest" bukan jaminan kualitas. Kualitas data, perancangan fitur, evaluasi, dan perumusan masalah setidaknya sama pentingnya dengan nama algoritmanya.
Kapan Machine Learning Berguna
Machine learning berguna ketika polanya terlalu rumit untuk ditangani dengan sekumpulan aturan tetap yang kecil, tetapi tersedia cukup data untuk belajar dari contoh. Penggunaan umum mencakup sistem rekomendasi, deteksi penipuan, alat bantu citra medis, pemeringkatan, peramalan, dan klasifikasi dokumen.
Namun, machine learning tidak selalu menjadi alat yang tepat. Jika aturannya sederhana, stabil, dan sepenuhnya diketahui, rumus biasa atau program deterministik mungkin lebih baik.
Coba Soal Serupa
Ambil satu dataset kecil lalu ajukan dua pertanyaan: "Apa inputnya?" dan "Apa targetnya?" Jika Anda bisa menjawab keduanya, cobalah model terawasi seperti regresi linear atau klasifikasi. Jika tidak, telusuri apakah data secara alami membentuk kelompok dengan metode tak terawasi.
Jika Anda ingin melangkah sedikit lebih jauh, selesaikan dulu masalah serupa dengan model sederhana, lalu bandingkan dengan model yang lebih fleksibel. Itu biasanya cara belajar yang lebih baik daripada langsung melompat ke algoritma yang paling canggih.
Butuh bantuan mengerjakan soal?
Unggah pertanyaanmu dan dapatkan solusi terverifikasi langkah demi langkah dalam hitungan detik.
Buka GPAI Solver →