Artificial Intelligence ( AI ) tipe inferensi OpenAI dari ChatGPT yang baru-baru ini dirilis ‘o3’ dan ‘o4 mini’ secara teknis lebih efisien daripada generasi sebelumnya, tetapi fenomena halusinasi dikatakan menjadi lebih parah daripada sebelumnya.
Pada tanggal (19/04/2025), outlet media TI Amerika TechCrunch mengutip hasil tolok ukur internal ChatGPT OpenAI , evaluasi ‘Person QA’, dan melaporkan bahwa model o3 menyebabkan halusinasi pada 33% pertanyaan. Angka ini lebih dari dua kali lipat pendahulunya, o1 (16%) dan o3 mini (14,8%).
Secara khusus, o4 mini menunjukkan tingkat halusinasi sebesar 48%, menunjukkan hasil yang lebih tidak stabil daripada model yang ada, termasuk model non-inferensial ‘ GPT -4 o’ .
Halusinasi mengacu pada kesalahan di mana AI menciptakan informasi yang sebenarnya tidak ada sebagai fakta. Ia menghasilkan jawaban yang masuk akal secara kontekstual berdasarkan sejumlah besar data, tetapi terkadang ia menciptakan informasi yang berbeda dari fakta sebenarnya.
Contoh representatif dari fenomena halusinasi adalah ‘insiden pelemparan MacBook Pro oleh Raja Sejong yang Agung.’
Pada awal tahun 2023, ketika seorang pengguna meminta penjelasan tentang insiden di mana Raja Sejong melempar MacBook Pro miliknya, tanggapannya adalah, “Itu adalah insiden di mana Raja Sejong menjadi marah kepada orang yang bertanggung jawab atas draf pertama Hunminjeongeum dan melemparkan dia beserta MacBook Pro miliknya ke seberang ruangan.”
Industri ini juga bereaksi bahwa hasil ini tidak biasa, karena tingkat halusinasi telah sedikit membaik pada setiap model AI baru yang dirilis sejauh ini.
OpenAI belum mengetahui penyebab pasti dari fenomena ini . Namun, dalam laporan teknis tentang o3 dan o4 mini, dianalisis bahwa “ketika model merespons lebih banyak permintaan pengguna daripada sebelumnya, informasi yang salah tampak meningkat seiring dengan informasi yang akurat.”
Sumber : TechCrunch