MathGPT от Mathpresso: новый рекорд в области математики

MathGPT от Mathpresso: новый рекорд в области математики
фото: из открытых источников

Mathpresso, разработчик ведущей в Азии образовательной платформы на базе AI, заявила о достижении своей большой языковой моделью MathGPT нового глобального рекорда в математике, опередив модели OpenAI и Microsoft.

Согласно отчетам, MathGPT заняла лидирующую позицию в тестах, оценивающих математические навыки, таких как MATH (12,5 тыс. сложных математических задач) и GSM8K (8,5 тыс. задач по математике для начальной школы), превзойдя модель ToRA 13B от Microsoft, которая установила предыдущий рекорд.

В бенчмарке MATH MathGPT превосходит производительность GPT-4 от OpenAI. Qanda и Upstage начали разработку MathGPT в рамках стратегического сотрудничества с KT в ноябре 2023 года. Qanda предоставила Upstage данные для обучения, такие как уровень обучения, контекст и взаимодействие, собранные из ежедневного поиска 10 млн задач.

В сентябре 2023 года Mathpresso также получила инвестиции от KT в размере $8 млн для развития LLM. Upstage обучила его на своем собственном специализированном решении для предотвращения галлюцинаций и доработала языковую модель на основе естественного языка для обеспечения логических выводов.

ChatGPT обучается на основе больших текстовых данных, а не на основе данных, специфичных для определенной области, таких как экспертные знания. В результате в нем проявляется феномен галлюцинации, когда нейронная сеть генерирует ответы, которые могут убедительно передавать неверную информацию. Это создает серьезную проблему, особенно в образовательных контекстах, где точность и достоверность информации критически важны. Заметно, что ChatGPT показал низкую точность, особенно в математических областях.

В заявлении Qanda говорится, что они продолжат улучшать точность и производительность MathGPT и в конечном итоге интегрируют его с их обучающим интерфейсом для создания AI Tutor, помощника в виде ИИ-репетитора.

Qanda поддерживается такими крупными организациями, как Google, TikTok и Softbank Ventures Asia. Приложение распознает текст и математические уравнения с фотографий. Ежедневно в Qanda загружается около 10 млн фотографий со всего мира.

Источник: Mt