Model kecerdasan buatan (AI) terus berkembang pesat, memicu persaingan ketat di antara para pengembang. Salah satu perusahaan yang tengah menjadi sorotan adalah DeepSeek, yang baru-baru ini meluncurkan model AI penalaran R1 terbaru. Model ini menunjukkan performa yang baik dalam berbagai tolok ukur matematika dan pengodean. Namun, di balik kesuksesannya, muncul berbagai kontroversi terkait sumber data pelatihan model tersebut.
Tuduhan penggunaan data dari model AI kompetitor telah membayangi DeepSeek sejak beberapa waktu lalu. Hal ini menimbulkan pertanyaan besar tentang etika dan praktik pengembangan AI yang fair.
Dugaan Pengambilan Data dari Google Gemini
Beberapa peneliti AI mencurigai DeepSeek memanfaatkan data dari model AI Gemini milik Google untuk melatih model R1-0528. Sam Paech, seorang pengembang asal Australia yang fokus pada evaluasi “kecerdasan emosional” AI, bahkan mengklaim memiliki bukti yang mendukung dugaan tersebut.
Paech menyatakan bahwa gaya bahasa dan pilihan kata pada respons R1-0528 sangat mirip dengan keluaran Gemini 2.5 Pro. Meskipun bukan bukti yang mutlak, hal ini semakin memperkuat kecurigaan mengenai praktik DeepSeek.
Pengembang lain yang menciptakan evaluasi kebebasan berbicara AI, SpeechMap, juga mengamati kesamaan pola “pikiran” antara R1-0528 dan Gemini. Kesamaan ini menunjukkan adanya kemungkinan penggunaan data dari model Google.
Riwayat Kontroversi DeepSeek dan Reaksi Para Pemain Besar
Ini bukanlah kali pertama DeepSeek dituduh menggunakan data dari model AI pesaing. Sebelumnya, model DeepSeek V3 sempat teridentifikasi sebagai ChatGPT, menimbulkan spekulasi penggunaan log percakapan ChatGPT sebagai data pelatihan.
Pada awal 2025, OpenAI menemukan bukti bahwa DeepSeek menggunakan teknik distilasi, yaitu meniru keluaran model yang lebih kuat untuk melatih model mereka sendiri. Metode ini, meskipun tidak ilegal, melanggar ketentuan layanan OpenAI.
Microsoft, sebagai investor besar OpenAI, juga mendeteksi aktivitas mencurigakan berupa pengambilan data dalam jumlah besar melalui akun pengembang OpenAI yang diduga terhubung dengan DeepSeek. Hal ini menunjukkan betapa seriusnya masalah ini.
Langkah Pencegahan dari Google dan Anthropic
Menanggapi meningkatnya kekhawatiran akan pengambilan data secara tidak sah, Google dan Anthropic telah mengambil langkah-langkah pencegahan. Google mulai meringkas jejak berpikir model Gemini untuk mencegah penyalahgunaan data oleh pesaing.
Anthropic, pengembang model AI Claude, juga mengumumkan langkah serupa. Mereka akan meringkas jejak berpikir model Claude untuk melindungi keunggulan kompetitif dan mencegah praktik ilegal.
OpenAI sendiri telah memperketat akses ke model-model canggih mereka dengan mewajibkan verifikasi identitas resmi. Langkah ini bertujuan untuk mencegah penyalahgunaan dan melindungi data mereka.
Peristiwa ini menyoroti perlunya regulasi yang lebih ketat dalam pengembangan AI dan perlindungan hak kekayaan intelektual. Persaingan yang sehat dan etis menjadi kunci keberlanjutan industri AI.
Ke depan, transparansi dan etika dalam pengembangan AI akan menjadi aspek krusial dalam membangun kepercayaan publik dan memastikan perkembangan teknologi yang bertanggung jawab. Pemantauan dan regulasi yang lebih ketat diperlukan untuk mencegah praktik-praktik yang merugikan dan memastikan persaingan yang adil.