Machine Learning — Terawasi, Tak Terawasi & Algoritma Utama

Machine learning adalah cara menggunakan data untuk membuat prediksi atau menemukan pola tanpa menulis setiap aturan secara manual. Dalam pembelajaran terawasi, data pelatihan menyertakan jawaban yang benar. Dalam pembelajaran tak terawasi, data tidak menyertakan jawaban itu, sehingga tujuannya adalah menemukan struktur seperti kelompok atau arah utama variasi.

Itulah gagasan inti di balik sebagian besar dasar machine learning. Anda mulai dengan data, memilih model, melatihnya pada contoh, lalu memeriksa apakah model bekerja pada data baru, bukan hanya pada data yang sudah pernah dilihat.

Apa yang Dilakukan Machine Learning

Model machine learning memetakan input ke output atau pola. Input bisa berupa luas rumah, nilai ujian, aktivitas pelanggan, atau nilai piksel pada gambar. Output bergantung pada tugasnya:

memprediksi angka, seperti harga
memprediksi label, seperti spam atau bukan spam
mengelompokkan item serupa tanpa label
memberi peringkat atau merekomendasikan pilihan yang mungkin

Yang membuat ini disebut "belajar" adalah parameter model disesuaikan dari data, bukan sepenuhnya ditetapkan oleh programmer.

Pembelajaran Terawasi vs Pembelajaran Tak Terawasi

Pembelajaran Terawasi: Memprediksi Target yang Diketahui

Pembelajaran terawasi menggunakan contoh berbentuk $(x, y)$ , dengan $x$ sebagai input dan $y$ sebagai target yang diketahui.

Jika $y$ bernilai numerik, tugas ini sering disebut regresi. Jika $y$ berupa kategori, tugas ini biasanya disebut klasifikasi.

Algoritma terawasi yang umum mencakup regresi linear, regresi logistik, decision tree, random forest, support vector machine, dan neural network. Tidak ada satu metode yang terbaik untuk semua situasi. Pilihan yang tepat bergantung pada ukuran data, tingkat noise, jenis fitur, dan seberapa besar interpretabilitas yang Anda butuhkan.

Pembelajaran Tak Terawasi: Menemukan Struktur Tanpa Label

Pembelajaran tak terawasi menggunakan input $x$ tanpa label target.

Di sini tujuannya biasanya adalah menemukan struktur yang memang sudah ada dalam data. Metode clustering seperti k-means mencoba mengelompokkan observasi yang mirip. Metode reduksi dimensi seperti principal component analysis mencoba merangkum variasi dengan lebih sedikit arah.

Pembelajaran tak terawasi dapat berguna untuk eksplorasi, kompresi, deteksi anomali, atau prapemrosesan. Hasilnya sangat bergantung pada bagaimana data direpresentasikan dan konsep kemiripan apa yang dibangun ke dalam metode tersebut.

Model Mental Sederhana

Bayangkan machine learning sebagai pencocokan kurva atau pencocokan pola dalam kondisi tidak pasti.

Anda memilih keluarga model, seperti garis lurus, decision tree, atau neural network berlapis. Pelatihan kemudian menyesuaikan model agar prediksinya semirip mungkin dengan data pelatihan menurut suatu loss function. Jika model melakukan generalisasi dengan baik, model juga akan bekerja baik pada data baru yang belum pernah dilihat sebelumnya.

Kondisi terakhir itu penting. Model yang hanya menghafal data pelatihan biasanya tidak berguna.

Contoh Sederhana: Memprediksi Sewa dengan Regresi Linear

Misalkan Anda ingin memprediksi sewa apartemen dari luas lantai. Model terawasi yang sederhana adalah

\hat{y} = b_0 + b_1x

dengan $x$ adalah luas, $\hat{y}$ adalah prediksi sewa, $b_0$ adalah intersep, dan $b_1$ adalah kemiringan.

Misalkan model hasil pelatihan memberikan

\hat{y} = 500 + 2x

dengan sewa diukur dalam dolar dan luas diukur dalam kaki persegi.

Jika sebuah apartemen memiliki $x = 700$ , maka prediksinya adalah

\hat{y} = 500 + 2(700) = 1900

Jadi model memprediksi sewa sebesar $1900$ .

Ada tiga hal penting di sini. Model belajar dari contoh berlabel berupa luas dan sewa. Prediksi adalah perkiraan, bukan jaminan. Rumus ini hanya masuk akal jika hubungan yang kira-kira linear merupakan pendekatan yang wajar pada rentang yang Anda pedulikan.

Contoh ini sengaja dibuat sederhana, tetapi sudah menangkap alur utama pembelajaran terawasi: gunakan data berlabel, sesuaikan parameter, lalu prediksi target untuk input baru.

Algoritma Machine Learning Utama dan Kapan Menggunakannya

Regresi Linear

Gunakan saat tujuannya adalah memprediksi nilai numerik dan pendekatan garis lurus merupakan model awal yang masuk akal.

Regresi Logistik

Gunakan untuk klasifikasi ketika Anda menginginkan baseline yang relatif sederhana dan mudah diinterpretasikan untuk memprediksi kategori seperti ya atau tidak.

Decision Tree dan Random Forest

Gunakan saat hubungan bersifat nonlinier atau melibatkan interaksi, terutama pada data tabular. Random forest biasanya menukar sebagian interpretabilitas dengan stabilitas prediksi yang lebih kuat.

Clustering K-Means

Gunakan dalam pembelajaran tak terawasi untuk mengelompokkan observasi ke dalam $k$ cluster. Metode ini bekerja paling baik ketika gagasan tentang pusat cluster memang bermakna untuk fitur yang Anda gunakan.

Neural Network

Gunakan saat hubungan antara input dan output sangat kompleks, terutama pada tugas gambar, suara, dan bahasa. Metode ini sering membutuhkan lebih banyak data dan penyesuaian dibanding model yang lebih sederhana.

Kesalahan Umum dalam Dasar Machine Learning

Mencampuradukkan Prediksi dengan Penjelasan

Model bisa memprediksi dengan baik tetapi tetap gagal menjelaskan penyebab sebenarnya dari pola tersebut.

Mengabaikan Perbedaan antara Pelatihan dan Pengujian

Akurasi tinggi pada data pelatihan tidak berarti model akan bekerja baik pada data baru. Generalisasi harus diperiksa pada data yang terpisah.

Menggunakan Metrik yang Salah

Akurasi bisa menyesatkan pada masalah klasifikasi yang tidak seimbang. Untuk beberapa tugas, precision, recall, mean absolute error, atau metrik lain mungkin lebih penting.

Menganggap Nama Algoritma sebagai Jaminan

"Neural network" atau "random forest" bukan jaminan kualitas. Kualitas data, perancangan fitur, evaluasi, dan perumusan masalah setidaknya sama pentingnya dengan nama algoritmanya.

Kapan Machine Learning Berguna

Machine learning berguna ketika polanya terlalu rumit untuk ditangani dengan sekumpulan aturan tetap yang kecil, tetapi tersedia cukup data untuk belajar dari contoh. Penggunaan umum mencakup sistem rekomendasi, deteksi penipuan, alat bantu citra medis, pemeringkatan, peramalan, dan klasifikasi dokumen.

Namun, machine learning tidak selalu menjadi alat yang tepat. Jika aturannya sederhana, stabil, dan sepenuhnya diketahui, rumus biasa atau program deterministik mungkin lebih baik.

Coba Soal Serupa

Ambil satu dataset kecil lalu ajukan dua pertanyaan: "Apa inputnya?" dan "Apa targetnya?" Jika Anda bisa menjawab keduanya, cobalah model terawasi seperti regresi linear atau klasifikasi. Jika tidak, telusuri apakah data secara alami membentuk kelompok dengan metode tak terawasi.

Jika Anda ingin melangkah sedikit lebih jauh, selesaikan dulu masalah serupa dengan model sederhana, lalu bandingkan dengan model yang lebih fleksibel. Itu biasanya cara belajar yang lebih baik daripada langsung melompat ke algoritma yang paling canggih.

Pertanyaan yang sering diajukan

Apakah machine learning sama dengan kecerdasan buatan?: Tidak persis. Machine learning adalah bagian besar dari AI modern, tetapi AI lebih luas dan juga mencakup sistem berbasis aturan, pencarian, perencanaan, dan pendekatan lainnya.
Apakah machine learning selalu membutuhkan data dalam jumlah sangat besar?: Tidak. Beberapa model bekerja baik pada dataset yang tidak terlalu besar, tetapi jumlah data yang dibutuhkan bergantung pada masalah, tingkat noise, dan kompleksitas model.
Apakah model machine learning menjelaskan mengapa sesuatu terjadi?: Tidak dengan sendirinya. Model dapat menangkap pola yang membantu prediksi, tetapi prediksi berbeda dari bukti kausal.

Butuh bantuan mengerjakan soal?

Unggah pertanyaanmu dan dapatkan solusi terverifikasi langkah demi langkah dalam hitungan detik.

Buka GPAI Solver →