Sebagian Besar Tim Masih Berpura-pura Membangun dengan AI

26 Maret 2026

Ada sebuah angka yang terus muncul di setiap laporan AI saat ini: 11%.

Itulah proporsi organisasi yang menggunakan agentic AI di produksi, menurut Gartner. Sementara itu, 30% sedang "menjelajahi" dan 38% sedang "memiloting". Semua orang punya demo. Hampir tidak ada yang sudah benar-benar meluncurkan sesuatu.

Kami telah menghabiskan setahun terakhir mengintegrasikan AI ke dalam produk nyata, termasuk alat open source kami sendiri seperti tanam, sebuah CMS self-hosted dengan AI ghostwriting yang dibangun di atas Firebase Genkit, dan genkitx-deepseek, plugin Genkit kami untuk model DeepSeek. Jadi ketika kami membaca laporan tren tentang ke mana AI akan menuju, kami cenderung menyaringnya melalui lensa yang berbeda.

Ini sudah bukan soal autocomplete sejak lama

Pergeseran nyata di tahun 2026 bukan bahwa model menjadi lebih pintar. Melainkan bahwa mereka kini dapat bernalar melalui alur kerja multi-langkah: memanggil alat, menginterpretasikan hasil, mengulang kembali, dan menyelesaikan tugas tanpa manusia yang mengawasi setiap langkah.

Gartner memprediksi bahwa 40% aplikasi enterprise akan mencakup agen AI yang spesifik tugas pada akhir tahun, naik dari kurang dari 5% dua belas bulan lalu. Kami melihat hal ini dalam pekerjaan kami sendiri. Klien berhenti bertanya "haruskah kami menambahkan AI?" sekitar pertengahan tahun lalu. Pertanyaannya sekarang adalah "di mana tepatnya agen harus menyerahkan kendali kepada manusia?" Itu jauh lebih sulit untuk dijawab dengan baik.

Karena inilah masalahnya: tantangan rekayasa bukan pada prompt engineering atau pemilihan model. Ini adalah desain sistem. Di mana Anda menarik garis antara apa yang diputuskan agen sendiri dan apa yang masih perlu dikonfirmasi manusia? Apa yang terjadi ketika alur kerja gagal di tengah jalan? Bagaimana Anda mendapatkan visibilitas nyata ke dalam rantai panggilan model yang tersebar di beberapa layanan? Ini adalah masalah arsitektur. Tim yang masuk dengan berpikir mereka memecahkan masalah AI biasanya berakhir stuck dan frustrasi.

Yang lebih kecil dan lebih fokus sedang menang

Satu pergeseran yang kurang dibicarakan: model yang lebih kecil dan bertujuan khusus secara konsisten mengungguli generalis besar untuk kasus penggunaan produksi tertentu.

Jika Anda membangun fitur dengan satu pekerjaan yang jelas (mengklasifikasikan tiket dukungan, mengekstrak data terstruktur dari input yang berantakan, merangkum transkrip), model yang terfokus akan lebih cepat, lebih murah, dan lebih andal daripada mengarahkan semuanya melalui model terbesar yang dapat Anda akses. Kami membangun genkitx-deepseek sebagian karena ini. Model DeepSeek jauh melampaui kelasnya untuk tugas kode dan penalaran dengan sebagian kecil biayanya. Ketika Anda mengoptimalkan latensi dan biaya di lingkungan produksi nyata, selisih itu menumpuk dengan cepat.

Pertanyaan yang layak diajukan bukan model mana yang mendapat skor terbaik dalam benchmark. Melainkan model mana yang paling cocok untuk pekerjaan spesifik ini, dalam anggaran latensi ini, pada titik harga ini. Itu pertanyaan yang berbeda.

Anda masih membutuhkan kode deterministik di sekitarnya

Tim yang membangun fitur AI paling andal saat ini tidak menjalankan semuanya melalui language model dan berharap yang terbaik. Mereka menggabungkan LLM dengan sistem terstruktur dan deterministik: lapisan retrieval, logika validasi, kode yang tidak berhalusinasi.

Kami melakukan ini di tanam. Fitur AI ghostwriting bukan kotak hitam di mana konten begitu saja muncul. Model menghasilkan draf, tetapi logika penerbitan, validasi skema, dan tinjauan pengguna semuanya ditangani oleh kode yang berperilaku dapat diprediksi. Batasan itu disengaja, dan itulah yang membuat fitur cukup dapat dipercaya untuk dihadapkan kepada pengguna. Begitu Anda membiarkan model memiliki seluruh pipeline dari ujung ke ujung, hal-hal menjadi tidak dapat diprediksi dengan cara yang sulit di-debug.

Apa yang kami lihat salah

Pola yang paling sering kami lihat adalah tim yang membangun berdasarkan jadwal hype. Kesenjangan antara "ini terlihat bagus dalam demo" dan "ini bertahan untuk ribuan pengguna nyata" lebih besar dari yang dianggarkan hampir semua orang, dan menutupnya membutuhkan waktu lebih lama dari yang diharapkan.

Fitur AI yang berhasil diluncurkan dengan baik di proyek kami memiliki satu kesamaan: ruang lingkup yang ketat dan terdefinisi dengan baik. Semakin luas otomasi, semakin sulit untuk diuji, dipantau, dan dipulihkan ketika ada yang rusak. Memulai dengan sempit bukan kompromi. Itu cara yang lebih cerdas untuk masuk. Dan sebelum Anda menghabiskan waktu merancang apa yang dilakukan AI, ada baiknya menghabiskan setidaknya waktu sebanyak itu untuk merancang apa yang terjadi ketika AI salah, lambat, atau tidak yakin. Tim yang melewatkan percakapan itu cenderung mengetahuinya dengan cara yang sulit, biasanya di produksi.

Ke mana menurut kami semuanya menuju

2026 terasa seperti tahun di mana AI berhenti menjadi fitur dan mulai lebih dekat ke infrastruktur. Tim yang memperlakukannya dengan disiplin yang sama yang akan mereka bawa ke migrasi database atau kontrak API adalah yang membangun sesuatu yang akan bertahan. Sisanya masih mengiterasi demo.

Kami telah membangun di atas Firebase, Genkit, Flutter, dan Google Cloud jauh sebelum semua ini mendapat label "agentic". Fondasi itu tidak berubah. Yang berubah adalah seberapa banyak pekerjaan yang dulunya membutuhkan perhatian manusia yang konstan kini dapat didelegasikan dengan hati-hati, dan seberapa banyak penilaian yang masih diperlukan untuk memutuskan apa yang layak didelegasikan.

Jika Anda sedang mencari tahu di mana AI cocok dalam produk Anda, kami senang untuk memikirkannya bersama Anda.