Pemelajaran semi terawasi

Pemelajaran semi terawasi (bahasa Inggris: semi-supervised learning) adalah sebuah paradigma dalam pemelajaran mesin yang menjadi lebih relevan dan signifikan dengan munculnya model bahasa besar (LLM), terutama karena LLM membutuhkan jumlah data yang besar untuk melatihnya. Paradigma ini ditandai dengan penggunaan kombinasi antara sejumlah kecil data yang dilabeli manual dan sejumlah besar data tanpa label (digunakan secara eksklusif dalam pemelajaran tak terawasi). Dengan kata lain, nilai keluaran yang diinginkan hanya diberikan untuk sebagian kecil data pelatihan, sedangkan data yang tersisa tidak berlabel atau berlabel tanpa presisi. Secara intuitif, konsep ini dapat diibaratkan sebagai ujian. Dengan data yang berlabel, seperti soal contoh yang dikerjakan oleh guru sebagai bantuan dalam menyelesaikan rangkaian masalah lainnya. Dalam konteks transduktif, masalah yang belum terselesaikan ini berperan sebagai pertanyaan dalam ujian. Dalam konteks induktif, masalah ini menjadi latihan sejenis yang akan muncul dalam ujian. Secara teknis, masalah ini dapat dilihat sebagai klasterisasi dan kemudian memberi label pada klaster dengan data yang berlabel, mendorong batas keputusan menjauh dari wilayah berkepadatan tinggi, atau mempelajari manifold satu dimensi yang mendasari di mana data berada.