Devin telah menetapkan kecanggihan baru pada tolok ukur pengkodean SWE-benchSWE-bench adalah tolok ukur untuk mengevaluasi model bahasa besar pada masalah perangkat lunak dunia nyata yang dikumpulkan dari GitHub.

Perkenalkan Devin, insinyur perangkat lunak AI yang sepenuhnya otonom pertama di dunia. Devin adalah rekan satu tim yang tak kenal lelah dan terampil, siap untuk membangun bersama Anda atau menyelesaikan tugas secara mandiri untuk Anda tinjau. Dengan Devin, para insinyur dapat fokus pada masalah yang lebih menarik dan tim teknik dapat berupaya mencapai tujuan yang lebih ambisius.

Kemampuan Devin

Dengan kemajuan dalam penalaran dan perencanaan jangka panjang, Devin dapat merencanakan dan melaksanakan tugas teknis rumit yang memerlukan ribuan keputusan. Devin dapat mengingat konteks yang relevan di setiap langkah, belajar seiring waktu, dan memperbaiki kesalahan. Team telah melengkapi Devin dengan alat pengembang umum termasuk shell, editor kode, dan browser dalam lingkungan komputasi sandbox—semua yang dibutuhkan manusia untuk melakukan pekerjaan mereka. Terakhir, Devin diberikan kemampuan untuk berkolaborasi secara aktif dengan pengguna. Devin melaporkan kemajuannya secara real time, menerima masukan, dan bekerja sama dengan Anda melalui pilihan desain sesuai kebutuhan.

Berikut ini contoh apa yang dapat dilakukan Devin:

  • Devin dapat mempelajari cara menggunakan teknologi asing.
    Setelah membaca postingan blog, Devin menjalankan ControlNet di Modal untuk menghasilkan gambar dengan pesan tersembunyi untuk Sara.
  • Devin dapat membangun dan menerapkan aplikasi secara end to end.
    Devin membuat website interaktif yang mensimulasikan Game of Life! Ini secara bertahap menambahkan fitur yang diminta oleh pengguna dan kemudian menyebarkan aplikasi ke Netlify.
  • Devin dapat secara mandiri menemukan dan memperbaiki bug di basis kode.
    Devin membantu Andrew memelihara dan men-debug buku pemrograman kompetitif sumber terbuka miliknya.
  • Devin dapat melatih dan menyempurnakan model AI-nya sendiri.
    ‍Devin menyiapkan penyesuaian untuk model bahasa besar hanya dengan memberikan tautan ke repositori penelitian di GitHub.
  • Devin dapat mengatasi bug dan permintaan fitur di repositori open source. Hanya dengan adanya tautan ke masalah GitHub, Devin melakukan semua penyiapan dan pengumpulan konteks yang diperlukan.
  • Devin dapat berkontribusi pada repositori produksi yang matang. ‍
    Contoh ini adalah bagian dari benchmark SWE-bench. Devin memecahkan bug dengan penghitungan logaritma di sistem aljabar Python sympy. Devin menyiapkan lingkungan kode, mereproduksi bug, dan mengkodekan serta menguji perbaikannya sendiri.
  • Devin diberi pekerjaan nyata di Upwork dan Devin juga bisa melakukannya!
    ‍Di sini, Devin menulis dan men-debug kode untuk menjalankan model visi komputer. Devin mengambil sampel data yang dihasilkan dan menyusun laporan di akhir.

Unjuk Kerja Devin

Devin di SWE-bench, sebuah tolok ukur menantang yang meminta agen untuk menyelesaikan masalah GitHub dunia nyata yang ditemukan dalam proyek sumber terbuka seperti Django dan scikit-learn. Devin menyelesaikan 13,86%* masalah secara menyeluruh, jauh melebihi penyelesaian mutakhir sebelumnya sebesar 1,96%. Bahkan ketika diberikan file yang tepat untuk diedit, model terbaik sebelumnya hanya dapat menyelesaikan 4,80% masalah.

Keywords: Sustainable Development Goals (SDG) 9, Industry, Inovation.