Top tips adalah kolom mingguan yang menyoroti tren terkini di dunia teknologi dan memberikan cara-cara untuk mengeksplorasi tren tersebut. Minggu ini, kita akan membahas risiko machine learning yang harus diwaspadai.
Machine learning (ML) adalah teknologi yang menakjubkan. Bayangkan, kita kini sudah berhasil mengembangkan model AI yang mampu belajar dan memperbaiki diri seiring waktu.
Tentu saja, kita perlu berterima kasih pada kemampuan pengambilan keputusan dan pengenalan pola (pattern recognition) dari ML. Berkat kedua kemampuan tersebut, ML kini menempati peran penting dalam lanskap teknologi global. Berbagai perusahaan di beragam industri telah merasakan manfaat atau setidaknya mengantisipasi manfaat potensial dari penerapan teknologi ini.
Namun, tidak semuanya berjalan mulus. Sama seperti bentuk teknologi lainnya, kehadiran ML juga membawa risiko tersendiri. Berikut ini adalah empat risiko machine learning yang paling penting.
1. Data buruk atau bias
Mungkin ini terdengar klise, tetapi model ML sangat bergantung pada data yang digunakan. Data input yang dimasukkan ke dalam model saat fase training menentukan keakuratan output saat deployment.
Sehingga, data input haruslah berkualitas tinggi. Data harus akurat, bebas error, bervariasi, beragam, dan bebas noise (contohnya data tidak relevan yang tidak bisa diinterpretasikan dengan baik oleh model ML). Data yang tidak akurat dan menyesatkan, terutama dalam fase training, dapat menyebabkan model ML menjadi rusak secara fundamental. Bahkan, model ML tersebut dinilai tidak dapat memenuhi tujuan yang diinginkan.
Dengan selalu memverifikasi integrasi data training, Anda dapat menciptakan model ML yang menghasilkan output akurat dan tidak bias.
2. Overfitting
Overfitting merupakan situasi di mana model ML bekerja sangat baik pada data training, namun tidak bisa menghasilkan output yang tepat ketika berhadapan dengan data nyata. Hal ini terjadi karena model mendeteksi pola tambahan dalam data training yang sebenarnya bukan bagian dari pola utama yang ingin dikenali. Pola tambahan ini menyebabkan kemampuan prediksi pada model ML menjadi terganggu.
Misalnya, sebuah model ML dilatih untuk mengenali gambar meja. Namun, jika banyak gambar dalam data training juga mengandung kursi, model bisa keliru menganggap keberadaan kursi sebagai faktor utama dalam klasifikasi. Akibatnya, model mungkin kesulitan mengenali gambar meja jika tidak ada kursi di sekitarnya.
Untuk mencegah overfitting, Anda perlu memastikan bahwa data yang Anda gunakan bervariasi dan tidak mengandung noise (data yang tidak relevan). Hal ini penting untuk menghindari kesalahan interpretasi dalam proses klasifikasi.
3. Adversarial machine learning
Adversarial machine learning merujuk pada tipe serangan yang menganggu fungsi ML dengan memanipulasi data input atau mengambil akses tidak sah ke model tersebut. Tujuan utamanya adalah melemahkan kemampuan model, sehingga menghasilkan prediksi yang salah dan tidak akurat.
Tiga tipe utama dari serangan adversarial machine learning adalah:
-
Data poisoning: Tipe ini biasanya dilakukan di fase training, di mana penyerang memasukkan data yang salah ke training dataset.
-
Evasion: Serangan evasion dilakukan selama fase inferensi, ketika model ML sudah diterapkan dan digunakan pada data dunia nyata. Dalam serangan ini, data yang telah dimanipulasi dengan sedikit noise dimasukkan untuk menyebabkan kesalahan klasifikasi.
-
Inversion: Serangan inversion melibatkan penggunaan output dari model ML untuk melatih model lain yang dapat menebak kembali data input aslinya. Serangan ini sangat mengkhawatirkan karena banyak data input sering kali bersifat sangat sensitif.
4. Privasi data
Risiko machine learning selanjutnya adalah privasi data. Beberapa model ML dilatih menggunakan data pribadi yang sangat sensitif (misalnya data keuangan atau kesehatan pribadi). Perusahaan yang menggunakan data-data tersebut harus mematuhi regulasi pelindungan data seperti GDPR dan HIPAA.
Selain itu, seperti yang sudah didiskusikan di poin sebelumnya, kita juga dapat mereplikasi training data pada model ML menggunakan teknik inversion. Salah satu cara mengatasi serangan inversion adalah dengan menambahkan noise pada data, namun sayangnya hal ini bisa mengurangi akurasi model.
Untungnya, para peneliti di MIT telah mengembangkan framework pelindungan data yang dikenal sebagai Probably Approximately Correct (PAC) Privacy. Framework ini memungkinkan developer untuk menentukan jumlah noise sesedikit mungkin yang bisa ditambahkan agar data tetap terlindungi tanpa mengorbankan performa. Namun, karena framework ini masih baru, efektivitasnya masih perlu dibuktikan.
Masa depan ML hadir dengan banyak risiko
Machine learning masih dalam tahap awal. Organisasi masih bereksperimen dan mengeksplor bagaimana ML dapat dikembangkan lebih lanjut. Risiko yang telah disebutkan sebelumnya hanyalah permukaan dari permasalahan yang ada. Seiring perkembangan ML, akan ada lebih banyak ancaman yang muncul.
Oleh karena itu, organisasi tak hanya perlu meningkatkan kapabilitas ML, tetapi juga memperkuat keamanannya. Dengan demikian, ML dapat melindungi dari ancaman saat ini maupun di masa depan.