Perbandingan performa beberapa model AI pada berbagai benchmark evaluasi.

Benchmark tersebut melibatkan berbagai tugas seperti:
1. MMLU (Small Models):
Model terbaik adalah phi-4 dengan skor 84.8.
MMLU (Massive Multitask Language Understanding) adalah benchmark yang menguji kemampuan model dalam menjawab pertanyaan dari berbagai domain, seperti sains, sejarah, dan matematika. Skor ini mencerminkan seberapa baik model memahami dan merespons tugas lintas domain.

2. GPQA (Small Models):
Model terbaik adalah phi-4 dengan skor 56.1.
GPQA (General-Purpose Question Answering) mengukur kemampuan model dalam menjawab pertanyaan berbasis pengetahuan umum. Skor ini menunjukkan bahwa phi-4 lebih unggul dibandingkan model lain dalam menjawab pertanyaan secara akurat.

3. MATH (Small Models):
Model terbaik adalah phi-4 dengan skor 80.4.
Benchmark MATH menguji kemampuan model dalam menyelesaikan soal matematika tingkat tinggi, termasuk aljabar, geometri, dan kalkulus. Skor ini mengindikasikan bahwa phi-4 sangat akurat dalam menyelesaikan masalah matematika.

4. HumanEval (Small Models):
Model terbaik adalah phi-4 dengan skor 82.6.
HumanEval adalah benchmark untuk mengukur kemampuan model dalam menyelesaikan tugas pemrograman dengan memberikan solusi kode yang benar. Skor ini menunjukkan akurasi tinggi phi-4 dalam menghasilkan kode yang benar dan sesuai spesifikasi.

5. MGSM (Small Models):
Model terbaik adalah phi-4 dengan skor 80.6.
MGSM (Math Grade School Math) mengukur kemampuan model dalam menyelesaikan soal matematika setingkat sekolah dasar. Skor ini menunjukkan bahwa phi-4 unggul dalam memahami dan menyelesaikan soal yang berbasis logika dan matematika sederhana.

6. SimpleQA (Small Models):
Model terbaik adalah phi-4 dengan skor 75.5.
SimpleQA menguji kemampuan model untuk menjawab pertanyaan sederhana berbasis teks. Skor ini mengindikasikan bahwa phi-4 memiliki pemahaman teks yang sangat baik untuk tugas ini.

7. DROP (Small Models):
Model terbaik adalah phi-4 dengan skor 75.5.
DROP (Discrete Reasoning Over Paragraphs) adalah benchmark yang mengukur kemampuan model dalam menjawab pertanyaan yang memerlukan penalaran numerik dan logis berdasarkan teks paragraf. Skor ini menunjukkan bahwa phi-4 unggul dalam penalaran berbasis data numerik dari teks.

Selengkapnya.