Beranda Hiburan DeepSeek V4 Menunjukkan Bahwa Perlombaan AI Selanjutnya tentang Efisiensi

DeepSeek V4 Menunjukkan Bahwa Perlombaan AI Selanjutnya tentang Efisiensi

6
0

DeepSeek V4, pembaruan yang sangat dinantikan dari DeepSeek, tiba pada saat yang sangat kompetitif, ketika Open AI GPT 5.5 dan Anthropic Opus 4.7 baru-baru ini diluncurkan satu demi satu. Perlombaan model AI ini tampaknya mencapai tingkat baru. Sebagai penggemar alat open source yang unik, DeepSeek mengesankan para pengembang dengan efisiensinya yang lebih rendah daripada skala mentah.

Rilis pratinjau ini termasuk dua model Mixture-of-Experts dengan jendela konteks satu juta token: DeepSeek-V4-Pro, dengan total parameter sebanyak 1,6 triliun dan parameter yang diaktifkan sebanyak 49 miliar, dan DeepSeek-V4-Flash, dengan total parameter sebanyak 284 miliar dan parameter yang diaktifkan sebanyak 13 miliar.

Agen konteks panjang, asisten pemrograman, alat penelitian, dan kopilot perusahaan semuanya menghadapi bottleneck yang sama: setiap token yang baru dihasilkan mungkin perlu merujuk kembali ke sejarah dokumen, kode, panggilan alat, dan penalaran yang semakin bertumbuh. Laporan teknis DeepSeek menunjukkan bahwa model V4-nya mengatasi masalah ini melalui kompresi arsitektural daripada hanya meminta pengguna membayar lebih banyak untuk komputasi.

Inovasi Inti: Kompresi Memori Tanpa Kehilangan Penalaran

Perubahan arsitektural paling penting dari DeepSeek V4 adalah desain perhatian hibrida yang menggabungkan Compressed Sparse Attention (CSA) dengan Heavily Compressed Attention (HCA). Ini berarti bahwa model tidak menyimpan dan memindai setiap token sebelumnya dengan cara yang mahal. CSA mengompresi kelompok entri kunci-nilai dan kemudian memilih blok yang paling relevan yang terkompresi. HCA lebih agresif dalam kompresi, memungkinkan perhatian yang padat atas aliran memori yang jauh lebih pendek.

Hal ini penting karena perhatian adalah salah satu faktor biaya utama dalam AI konteks panjang. Saat panjang konteks bertambah, perhatian konvensional menjadi semakin mahal dalam kedua komputasi dan memori. Desain perhatian hibrida DeepSeek memperlakukan konteks panjang sebagai masalah rekayasa hierarki memori. Beberapa informasi memerlukan perhatian lokal yang halus. Beberapa bisa dikompresi. Dengan menggabungkan mode-mode ini, V4 mengubah konteks satu juta token menjadi kemampuan yang lebih praktis. Pada awal tahun ini, peneliti DeepSeek menerbitkan sebuah makalah yang mengusulkan Engram, sebuah modul memori bersyarat yang meningkatkan efisiensi penalaran dengan secara struktural memisahkan pengambilan pengetahuan statis dari komputasi dinamis.

Mengapa Ini Dapat Mendorong Inovasi AI Lebih Banyak

Biaya inferensi yang lebih rendah mengubah siapa yang dapat bereksperimen. Ketika penalaran konteks panjang menjadi lebih murah, lebih banyak pengembang dapat membangun agen yang membaca repositori penuh, menganalisis catatan hukum panjang, membandingkan pengajuan keuangan multi-dokumen, atau beroperasi selama sesi penggunaan alat yang diperpanjang. Hal ini memperluas ruang desain di luar rangsangan chatbot.

Bagi startup, DeepSeek V4 menurunkan biaya mencoba aplikasi yang ambisius. Bagi perusahaan, itu membuat alur kerja konteks besar menjadi lebih realistis. Bagi pengembang open-source, itu menyediakan resep teknis: gabungkan sparsitas MoE, kompresi konteks panjang, inferensi presisi rendah, kernel kustom, dan paska-pelatihan untuk tugas-tugas agensial.

Pesan Perangkat Keras: Model AI Kini Memberitahu Chip Menjadi Apa

DeepSeek V4 juga mencolok karena laporan teknis memberikan saran eksplisit tentang desain perangkat keras. Tim berpendapat bahwa perangkat keras masa depan harus dioptimalkan untuk rasio antara komputasi dan komunikasi, daripada sekadar meningkatkan bandwidth secara buta.

Reuters juga melaporkan bahwa DeepSeek V4 telah diadaptasi untuk berjalan pada chip Ascend Huawei, dan bahwa Huawei mengatakan klaster supernode berbasis Ascend 950-nya sepenuhnya mendukung seri V4. Hal ini membuat V4 menjadi bagian dari kisah perangkat keras yang lebih besar. Perlombaan AI bergerak dari bobot model ke desain co-full-stack, di mana models, kernel, sistem memori, antarmuka, dan chip ber-evolusi bersama.

Kecerdasan Lebih Murah Memperluas Pasar

Konsekuensi paling penting dari DeepSeek V4 mungkin menjadi ekonomi. Ketika biaya penalaran konteks panjang turun, kasus penggunaan AI yang sebelumnya terlihat terlalu mahal menjadi lebih masuk akal. Agen kode penuh, asisten penelitian berjangka panjang, alur kerja hukum yang banyak dokumen, alat kewajiban keuangan, sistem tinjauan literatur ilmiah, dan agen pengetahuan perusahaan semua mendapat manfaat dari memori yang lebih murah dan inferensi yang lebih murah.

Ini berarti bahwa DeepSeek V4 meredefinisikan perlombaan AI. Jika DeepSeek dapat menyampaikan model open yang kuat dengan kebutuhan memori dan komputasi yang lebih rendah, pemimpin berbasis tertutup akan menghadapi tekanan lebih besar untuk membenarkan harga premium. Kompetitor open-source akan menghadapi tekanan untuk menyamai teknik efisiensi V4.