MMLU

У сфері штучного інтелекту, визначення масштабного багатозадачного розуміння мови (ВМБРМ або MMLU від Шаблон:Lang-en) є засобом оцінки можливостей великих мовних моделей (LLM).

Бенчмарк

В нього близько 16 тис. питань множинного вибору серед яких такі предмети як математика філософія юриспруденція та медицина. Це один із найбільш часто використовуваних тестів для порівняння можливостей великих мовних моделей із понад 100 мільйонами завантажень станом на липень 2024 року^[1]^[2].

MMLU був випущений Деном Хендріксом та командою дослідників у 2020 році^[3] і був розроблений, щоб бути складнішим, ніж існуючі на той час тести, такі як Загальне оцінювання розуміння мови (GLUE), на якому нові мовні моделі досягали кращих результатів, ніж людина. На момент випуску MMLU більшість існуючих мовних моделей працювали приблизно на рівні випадковостей (25%), а найефективніша модель GPT-3 досягла 43,9% точності^[3]. Розробники MMLU підрахували, що людські експерти досягають приблизно 89,8% точності^[3]. Станом на 2024 рік деякі з найпотужніших мовних моделей, такі як Claude 3 і GPT-4, як повідомлялося, досягли приблизно 85%^[4].

Приклади

Наступні приклади взято із завдань «Абстрактна алгебра» та «Міжнародне право» відповідно^[3]. Правильні відповіді виділені жирним шрифтом:

Знайти всіх
$c$
в
$ℤ_{3}$
такий, що
$ℤ_{3} [x] / (x^{2} + c)$
це поле.
(A) 0 (B) 1 (C) 2 (D) 3

Чи буде застереження щодо визначення тортур у МПГПП прийнятним у сучасній практиці?
(A) Це застереження є прийнятним, якщо законодавство країни, що робить застереження, використовує інше визначення
(B) Це застереження є неприйнятним, оскільки суперечить об'єкту та меті МПГПП
(C) Це неприйнятне застереження, оскільки визначення катувань у МПГПП відповідає міжнародному звичаєвому праву

(D) Це застереження є прийнятним, оскільки за загальним міжнародним правом держави мають право робити застереження до договорів

Список літератури

Шаблон:Reflist

Шаблон:Ізольована стаття

↑ Помилка цитування: Неправильний виклик тегу <ref>: для виносок під назвою nyt не вказано текст
↑ Помилка цитування: Неправильний виклик тегу <ref>: для виносок під назвою huggingface не вказано текст
↑ ^3,0 ^3,1 ^3,2 ^3,3 Помилка цитування: Неправильний виклик тегу <ref>: для виносок під назвою paper не вказано текст
↑ Помилка цитування: Неправильний виклик тегу <ref>: для виносок під назвою claude3 не вказано текст

[nyt-1] Помилка цитування: Неправильний виклик тегу <ref>: для виносок під назвою nyt не вказано текст

[huggingface-2] Помилка цитування: Неправильний виклик тегу <ref>: для виносок під назвою huggingface не вказано текст

[paper-3] 3,0 ^3,1 ^3,2 ^3,3 Помилка цитування: Неправильний виклик тегу <ref>: для виносок під назвою paper не вказано текст

[claude3-4] Помилка цитування: Неправильний виклик тегу <ref>: для виносок під назвою claude3 не вказано текст

[1]

[2]

[3]

[4]

MMLU

Бенчмарк

Приклади

Список літератури

Навігаційне меню

Пошук