Proyek ini membahas penerapan machine learning dengan pendekatan supervised learning, menggunakan algoritma K-Nearest Neighbors (KNN). KNN adalah algoritma yang digunakan untuk klasifikasi dan regresi, namun lebih sering digunakan untuk klasifikasi. Algoritma ini bekerja dengan mengklasifikasikan data baru berdasarkan kemiripan dengan data dalam dataset yang sudah ada.
- KNN bekerja dengan mengklasifikasikan data baru berdasarkan tetangga terdekat di dataset (data training).
- Proses kerja KNN:
- Simpan semua data training.
- Hitung jarak antara data baru dengan semua data dalam set training.
- Pilih k tetangga terdekat.
- Klasifikasi dilakukan berdasarkan mayoritas kelas tetangga terdekat (untuk klasifikasi) atau rata-rata nilai tetangga (untuk regresi).
- k kecil: Sensitif terhadap noise dan bisa menyebabkan overfitting.
- k besar: Mengurangi sensitivitas terhadap noise tapi bisa menyebabkan underfitting.
- Pemilihan nilai k yang tepat dilakukan melalui cross-validation.
- Algoritma yang sederhana dan intuitif.
- Tidak memerlukan fase eksplisit pelatihan.
- Mudah diimplementasikan untuk klasifikasi multi-kelas.
- Lambat untuk dataset yang besar.
- Sensitif terhadap skala fitur (perlu normalisasi atau standardisasi).
- Membutuhkan memori besar untuk menyimpan seluruh dataset.
Dalam studi kasus ini, dataset Iris yang tersedia di scikit-learn digunakan untuk mengklasifikasikan spesies bunga iris (setosa, versicolor, virginica) berdasarkan panjang dan lebar sepal serta petal. Dataset berisi 150 sampel dengan 4 fitur: panjang sepal, lebar sepal, panjang petal, dan lebar petal.
Tugas: Membuat program machine learning menggunakan KNN untuk mengklasifikasikan spesies bunga iris dengan bahasa Python.
Dataset Iris dapat diunduh dari http://archive.ics.uci.edu. Dataset ini berisi pengamatan bunga iris yang dilakukan oleh ahli botani Anderson.
- Python 3.x
- Libraries:
- Scikit-learn
- Pandas
- NumPy
- Matplotlib
- Clone repository ini:
git clone https://github.com/yourusername/knn-iris-classification.git
- Masuk ke direktori proyek:
cd knn-iris-classification
- Install library yang diperlukan:
pip install scikit-learn pandas numpy matplotlib
- Jalankan skrip KNN:
python knn_iris.py
- Program akan melakukan klasifikasi pada dataset Iris dan menampilkan hasilnya.
- Proyek ini menyertakan visualisasi sederhana untuk menggambarkan cara kerja KNN, seperti bagaimana data baru diklasifikasikan berdasarkan tetangga terdekat.
- Proyek ini dilisensikan di bawah MIT License.
@Copyright Veendy 2024