Database Networking Teknologi Ahmad Rudiansyah 4 years ago20/08/2022

Meningkatkan Produktivitas dan Efisiensi ML Menggunakan Data Sintetis

ACT Communications – Data telah menjadi sumber daya paling berharga bagi banyak organisasi. Pembelajaran mesin (ML) bergeser dari teknologi pinggiran yang digunakan secara eksklusif oleh inovator top menjadi andalan bisnis modern, menjadikan data sebagai alat yang sangat diperlukan. Namun, banyak proyek data dan pembelajaran mesin berjuang untuk mencapai potensi penuhnya.

Bisnis bergulat dengan proyek ML yang memberikan hasil yang tidak akurat, sebagian besar karena masalah dengan data itu sendiri. Sementara sebagian besar bisnis saat ini memahami perlunya memanfaatkan data melalui pembelajaran mesin, hanya sedikit yang menyadari bagaimana praktik data mereka menghambat hasil ini. Menggunakan data sintetis dapat membantu mengatasi banyak kekurangan saat ini.

Apa Itu Data Sintetis?

Seperti namanya, synthetic data atau data sintetis adalah informasi yang dihasilkan secara artifisial. Ini mengikuti aturan yang sama dan mencerminkan konsep dan tren dunia nyata, tetapi tidak berasal dari sumber dunia nyata. Seperti data asli, data juga bisa datang dalam berbagai bentuk, dari teks biasa hingga informasi tabular hingga media visual atau audio.

Data sintetis terbagi menjadi tiga kategori utama:

Data sepenuhnya sintetis
Data sintetis sebagian
Data hibrid

Data yang sepenuhnya sintetis mengacu pada kumpulan data yang 100% buatan. Ini mungkin didasarkan pada kumpulan data asli tetapi tidak mengandung informasi atau konteks dunia nyata. Data sintetis sebagian adalah informasi asli dengan beberapa bidang diganti dengan pengganti sintetis, biasanya untuk mengurangi risiko pelanggaran data. Seperti yang Anda duga, data hibrid mengacu pada kumpulan data yang menggunakan campuran data asli dan sintetis.

Manfaat Data Sintetis

Perusahaan teknologi terkemuka seperti Google dan Amazon menggunakan data sintetis dalam aplikasi ML mereka, dan semakin banyak organisasi yang bermigrasi dengan cara itu. Tentu saja, popularitas saja bukanlah alasan yang cukup untuk merangkul sebuah tren, jadi inilah beberapa keuntungan menggunakan data sintetis.

Penghapusan Bias

Meskipun mungkin tampak berlawanan dengan intuisi, terkadang menggunakan data dunia nyata menghasilkan hasil yang kurang akurat daripada informasi sintetis. Itu bermuara pada salah satu tantangan ML yang paling signifikan: bias.

Kumpulan data asli rentan terhadap bias manusia. Bias implisit historis dan mendalam dapat meresap ke dalam informasi dunia nyata melalui cara orang mengumpulkan, merekam, dan mengaturnya tanpa disadari oleh para ilmuwan data. Masalah ini begitu meluas sehingga penelitian menunjukkan hingga 38,6% data dalam database AI populer bias.

Kuantitas Data

Data sintetis juga dapat mempermudah memperoleh informasi yang cukup untuk melatih model ML yang efektif. Algoritme ML yang andal biasanya memerlukan kumpulan data yang ekstensif, tetapi tidak setiap perusahaan memiliki akses siap ke data yang cukup relevan. Data sintetis memberikan jalan keluar untuk masalah itu, karena bisnis dapat menghasilkan banyak data tanpa proses pengumpulan yang panjang.

Hal ini dapat terjadi dengan salah satu dari dua cara. Pertama, tim dapat menggunakan kumpulan data sintetis sepenuhnya. Atau, mereka dapat menggunakan teknik seperti oversampling minoritas sintetis, yang membuat data dummy berdasarkan informasi nyata untuk mengisi bagian yang kosong dalam kumpulan data asli tersebut.

Strategi ini sangat berguna untuk bisnis atau aplikasi ML dengan data dunia nyata yang terbatas. Kurangnya ketersediaan informasi tidak lagi menjadi penghalang untuk implementasi ML yang efektif.

Efisiensi Proyek

Demikian pula, data sintetis juga dapat membantu tim menyelesaikan proyek ML dalam waktu yang lebih singkat. Menurut sebuah studi tahun 2020, sepertiga perusahaan mengatakan mereka membutuhkan waktu antara satu hingga tiga bulan untuk menerapkan model ML. 24% lainnya membutuhkan waktu lebih lama, dan angka-angka ini bahkan tidak termasuk waktu pelatihan dan pengumpulan data.

Dengan waktu penyebaran rata-rata yang begitu lama, bisnis harus merampingkan pengumpulan data dan pelatihan sebanyak mungkin untuk meminimalkan biaya proyek. Data sintetis adalah jawaban yang ideal, karena dapat memberikan informasi yang cukup dalam waktu singkat.

Data sintetis berarti tim tidak perlu menghabiskan banyak uang untuk pengumpulan dan pengorganisasian data. Bergantung pada bagaimana mereka membuatnya, mereka juga dapat membuatnya dalam format yang sudah terstandarisasi, juga menyederhanakan persiapan. Efisiensi ini dapat membuat proyek ML menjadi investasi yang lebih hemat biaya.

Keamanan

Keuntungan lain dari data sintetis di ML adalah bagaimana hal itu mengurangi risiko pelanggaran data. Karena proyek ML biasanya menyimpan sejumlah besar data di satu tempat, proyek tersebut dapat membawa risiko keamanan siber yang signifikan. Data sintetis menurunkan kekhawatiran tersebut dengan mengganti informasi sensitif.

Jika proyek ML menggunakan data dunia nyata, terutama informasi pengenal pribadi (PII), pelanggaran bisa sangat merusak. Perusahaan dapat menghadapi kerugian bisnis dan hukum yang hilang selain biaya remediasi. Sebaliknya, jika data sintetis bocor, itu bukan masalah yang mendesak karena tidak mengungkapkan PII dunia nyata.

Mempertimbangkan bagaimana biaya pelanggaran data telah mencapai titik tertinggi sepanjang masa sebesar $ 4,34 juta pada tahun 2022, keamanan ini merupakan keuntungan penting. Ini sangat penting untuk aplikasi ML yang menangani informasi sensitif seperti PII.

Cara Memanfaatkan Data Sintetis di ML

Data sintetis memiliki banyak keuntungan bagi pengembang ML. Namun, seperti sumber daya lainnya, kemanjurannya tergantung pada bagaimana tim menggunakannya. Dengan mengingat hal itu, berikut adalah beberapa praktik terbaik data sintetis.

Pahami Kapan Menggunakan Data Sintetis

Pertimbangan pertama dan bisa dibilang paling penting untuk data sintetis adalah menentukan kapan itu pilihan yang paling tepat. Meskipun kumpulan data sintetis memberikan banyak manfaat dibandingkan data asli, itu tidak selalu dibutuhkan oleh tim.

Perusahaan harus meninjau tujuan ML mereka untuk melihat apakah penting untuk memiliki informasi dunia nyata. Secara umum, data sintetis sangat ideal untuk menguji skenario “bagaimana jika”, ketika data dunia nyata terbatas atau tidak seimbang, atau privasi menjadi perhatian utama. Atau, data asli mungkin lebih cocok untuk kembar digital, ketika outlier sangat penting, atau ketika informasi dunia nyata sudah tersedia.

Dalam beberapa kasus, mungkin lebih baik menggunakan kumpulan data hybrid. Tim harus menentukan tujuan dan batasan mereka untuk memahami strategi mana yang terbaik untuk proyek ML spesifik mereka.

Bersihkan dan Siapkan Data Sebelum Pembuatan

Penting juga untuk tidak mengabaikan persiapan dan pembersihan data, bahkan dengan informasi sintetis. Data berkualitas buruk rata-rata merugikan bisnis $15 juta per tahun, dan 60% perusahaan bahkan tidak tahu berapa biaya data buruk yang mereka keluarkan. Untuk menghindari biaya ini, tim harus menyiapkan data sintetis mereka sebelum menggunakannya.

Meskipun data sintetis dapat dihasilkan dalam format yang sudah terstandarisasi, kesalahan masih dapat terjadi. Tim harus meninjau kumpulan data ini untuk memastikannya bersih dan teratur sebelum menggunakannya untuk memaksimalkan informasi sintetis mereka.

Mendasarkan data sintetis pada informasi asli berkualitas tinggi dapat membantu. Semakin baik sumbernya, semakin baik informasi tiruannya, sehingga mengurangi waktu pembersihan dan persiapan.

Tentukan Metode Generasi Terbaik

Bisnis juga harus memahami bahwa metode pembuatan data yang berbeda memiliki kekuatan dan kelemahan yang berbeda-beda. Membandingkan ini untuk menemukan opsi terbaik sama pentingnya dengan memutuskan antara data sintetis dan asli.

Variational autoencoder (VAEs) dapat menghasilkan kumpulan data kompleks secara efisien dan mudah diterapkan, tetapi mereka berjuang untuk memberikan kualitas yang konsisten di semua jenis dengan kumpulan data asli yang kompleks. Atau, jaringan permusuhan generatif (GAN) bekerja dengan baik dengan kumpulan data asli yang tidak terstruktur atau kompleks tetapi lebih menantang untuk dilatih dan diimplementasikan.

Terkadang, mungkin lebih baik untuk mengalihdayakan pembuatan kumpulan data sintetis. Opsi ini berkembang, dengan lebih dari 70 vendor menyediakan data sintetis pada tahun 2021. Tim harus meninjau keahlian internal, anggaran, dan kebutuhan mereka untuk menentukan cara terbaik ke depan.

Data Sintetis Dapat Membuka Potensi Proyek ML

Menggunakan ML secara maksimal membutuhkan set data yang besar, andal, dan aman. Dalam banyak kasus, data sintetis dapat membantu menyediakan hal tersebut sambil meminimalkan komplikasi dengan informasi asli.

Pengembang ML harus mempertimbangkan bagaimana data sintetis dapat meningkatkan proyek mereka. Memanfaatkan sumber daya ini dapat menghasilkan akurasi, efisiensi, keamanan, dan keuntungan finansial yang cukup besar. Hal ini, pada gilirannya, akan menjadikan ML sebagai upaya yang lebih bermanfaat bagi banyak perusahaan.