Beberapa tahun terakhir ini, jumlah data yang dihasilkan dan dimasukkan ke sistem AI semakin meningkat. Peningkatan volume data ini dimanfaatkan oleh penyerang dengan mencemari data input pada training dataset, sehingga AI menghasilkan output yang salah atau bahkan mengandung informasi berbahaya. Menariknya, dalam sebuah konferensi di Shanghai, Nicholas Carlini, seorang research scientist di Google Brain, mengungkapkan bahwa data poisoning dapat dilakukan secara efisien hanya dengan memodifikasi 0.1% dari dataset.
Penemuan ini menyoroti pentingnya menerapkan langkah-langkah untuk mengamankan data dari manipulasi dan modifikasi oleh threat actor. Oleh sebab itu, dalam artikel blog ini, kami akan membahas berbagai strategi yang dapat Anda gunakan untuk mencegah terjadinya data poisoning.
Apa itu data poisoning?
Apa itu data poisoning? Data poisoning adalah jenis serangan adversarial yang memanipulasi training dataset dengan menyisipkan data yang telah dicemari. Dengan menambahkan data palsu atau manipulatif ke training dataset, penyerang dapat memegang kendali dan memengaruhi perilaku model Machine Learning (ML) yang sudah dilatih agar memberikan hasil yang salah.
Bagaimana serangan data poisoning dilakukan?
Jika tool AI dilatih menggunakan dataset yang salah, AI tidak akan tahu apa yang perlu diketahui. Sebab, sistem akan menganggap dataset tersebut sebagai input yang benar dan mengintegrasikannya ke aturan sistem. Hal ini membuka peluang bagi penyerang untuk merusak data dan menyebarkannya ke seluruh sistem.
Lebih jelasnya, mari kita lihat beberapa tahap serangan data poisoning berikut ini:
1. Idealnya, model ML yang dilatih oleh engineer terpercaya akan menggunakan dataset yang valid. Hal ini disukai oleh penyerang, sebab mereka bertujuan untuk memastikan model ML tetap bekerja dengan baik meskipun telah disusupi data palsu. Dengan demikian, penyerang dapat lebih mudah memasukkan dataset yang sudah dirusak ke depannya.
2. Penyerang menganalisis cara model ML membuat keputusan dan prediksi untuk mengidentifikasi kelemahannya. Identifikasi kelemahan ini membantu penyerang mengetahui kemungkinan titik data yang dapat dimanipulasi untuk membuat model ML menghasilkan output yang salah.
3. Setelah mengidentifikasi titik kelemahan, penyerang akan membuat sampel data adversarial yang menyerupai dataset asli. Sampel data ini membuat model ML menghasilkan prediksi yang salah ketika dimasukkan ke training dataset.
4. Penyerang menyisipkan data tercemar ke training dataset secara langsung, atau mereka mengintervensi proses pengumpulan data untuk menyisipkan data secara tidak langsung. Penyisipan langsung ini dapat dilakukan dengan meretas database dan server data.
5. Setelah menyisipkan data yang telah dicemari, model ML akan dilatih ulang menggunakan dataset baru yang berisi data palsu. Saat proses training berlangsung, model ML akan beradaptasi dengan data yang tercemar, sehingga berdampak negatif pada kinerjanya.
6. Setelah model ML telah sepenuhnya tercemar, model tersebut diterapkan dalam skenario dunia nyata di mana ia berinteraksi dengan dataset baru. Perilaku model yang bias kemudian dieksploitasi oleh penyerang untuk mencapai tujuan jahat mereka.
Strategi mitigasi untuk menghindari data poisoning
IUntuk memastikan serangan data poisoning termitigasi dengan baik, kita harus memastikan agar informasi sensitif tidak bocor. Hal ini penting karena kebocoran data bisa menjadi pintu masuk bagi penyerang untuk mencemari dataset. Itulah mengapa, penting sekali untuk menjaga agar informasi terlindungi di setiap titik yang rentan.
Untuk melindungi data sensitif, Cyber Maturity Model Certification (CMMC) yang dikeluarkan oleh Departemen Pertahanan AS mengeluarkan empat prinsip penting terkait keamanan siber, yaitu pelindungan jaringan, pelindungan endpoint, pelindungan fasilitas, dan pelindungan SDM.
Tabel di bawah ini merinci fungsi-fungsi yang perlu dimonitor untuk memastikan data penting selalu terlindungi:
Tipe pelindungan |
Fungsi yang harus dimonitor |
Pelindungan jaringan |
Pantau traffic jaringan untuk menemukan koneksi yang tidak biasa. Terapkan dan perbarui firewall secara berkala. Selain itu, pantau kebijakan firewall untuk mendeteksi modifikasi yang tidak sah. Cek IP address dan URL yang mencurigakan pada traffic jaringan secara berkala, dan blokir segera jika ditemukan. Monitor seluruh kegagalan autentikasi dan percobaan eskalasi privilege. |
Pelindungan fasilitas |
Perkuat keamanan fisik sistem organisasi Anda. Perlindungan ini penting untuk memantau siapa saja yang memiliki akses terhadap workspace dan jaringan Anda. |
Pelindungan endpoint |
Endpoint mencakup perangkat fisik seperti komputer desktop, virtual machine, perangkat seluler, dan server. Perlindungan endpoint dilakukan dengan memantau seluruh aktivitas pada perangkat-perangkat tersebut untuk mencari anomali. Anomali yang dimaksud dapat berupa:
|
Pelindungan SDM |
Pemberian pelatihan kepada setiap orang yang menggunakan program ML. Penerapan kebijakan password yang kuat kepada pengguna dalam jaringan. Edukasi kepada karyawan tentang ciri-ciri percobaan serangan phishing. |
Kita harus selalu ingat bahwa kontaminasi data adalah masalah besar pada ML dan cybersecurity. Oleh sebab itu, organisasi yang menggunakan sistem ML harus selalu waspada terhadap serangan data poisoning dan menerapkan langkah keamanan yang ketat untuk melindungi data dan model ML mereka. Beberapa best practice untuk menemukan dan menggagalkan data poisoning antara lain dengan melakukan monitoring model ML, validasi data secara berkala, dan deteksi anomali.
Salah satu cara untuk mencegah input berbahaya adalah dengan mendeteksi anomali. Keamanan dan integritas sistem komputer, jaringan, serta aplikasi Anda bergantung pada hal ini. ManageEngine Log360 merupakan solusi SIEM terpadu dengan kemampuan deteksi anomali yang memungkinkan Anda untuk:
-
Mendeteksi perilaku pengguna dan entitas yang berbahaya, misalnya login pada waktu yang tidak wajar, upaya login berulang kali yang gagal, dan penghapusan file dari host yang tidak biasa digunakan oleh pengguna tertentu.
-
Mendapatkan visibilitas yang lebih besar terhadap ancaman dengan menggunakan penilaian risiko berdasarkan skor untuk pengguna dan entitas.
-
Mengidentifikasi Indicators of Compromise (IoCs) dan Indicators of Attack (IoAs), yang mampu mengungkap ancaman-ancaman besar seperti ancaman internal, account compromise, anomali data, dan exfiltrasi data.
-
Menemukan perubahan pada database menggunakan laporan audit Data Definition Language dan Data Manipulation Language.
Selain itu, penting juga untuk mengecek perubahan yang terjadi di data operasional dan kinerja. Sering kali, training data mentah yang mencakup gambar, audio, dan teks disimpan dalam cloud object storage. Cloud dipilih karena lebih terjangkau, mudah diakses, dan menawarkan skalabilitas yang lebih baik dibandingkan solusi penyimpanan on-premise. Dengan bantuan solusi SIEM terpadu yang terintegrasi dengan fitur Cloud Access Security Broker (CASB), security analyst dapat:
-
Mendapatkan visibilitas pada semua aktivitas cloud.
-
Melakukan monitoring identitas pada cloud.
-
Mendapatkan fitur perlindungan ancaman pada cloud.
-
Melakukan manajemen compliance (kepatuhan regulasi) pada cloud.
Selain itu, untuk melakukan serangan tersebut, penyerang juga perlu memahami cara kerja modelnya. Mereka memerlukan mekanisme kontrol akses yang kuat. Itulah mengapa, penting sekali untuk memblokir akses mereka ke kontrol akses tersebut. Log360 memiliki correlation engine canggih yang dapat menggabungkan berbagai peristiwa pada jaringan Anda secara real time dan menentukan apakah ada kemungkinan ancaman atau tidak.
Security analyst dapat menggunakan strategi yang telah dijelaskan di atas untuk menghindari serangan seperti ini.
Apakah Anda sedang mencari cara untuk melindungi informasi penting perusahaan Anda dari penyalahgunaan? Daftarkan diri Anda untuk memperoleh demo ManageEngine Log360 yang dipersonalisasi. Log360 merupakan solusi SIEM yang komprehensif dan mampu membantu Anda untuk mendeteksi, memprioritaskan, menginvestigasi, dan merespons ancaman keamanan dengan baik.
Anda dapat mengeksplor Log360 dengan versi trial 30 hari yang memiliki fungsi penuh. Coba sekarang!