
фото: Андрей Рудаков/Bloomberg
Менее двух недель назад малоизвестная китайская компания DeepSeek выпустила свою новейшую модель искусственного интеллекта (ИИ), вызвавшую шок во всем мире.
DeepSeek заявила в технической статье, загруженной на GitHub, что её модель R1 с открытым кодом достигла сопоставимых или лучших результатов, чем модели ведущих технологических компаний — ChatGPT от OpenAI, Llama от Meta и Claude от Anthropic. Особенно удивительно, что модель показала такие результаты, будучи обученной и запущенной за гораздо меньшую стоимость.
Реакция рынка на эту новость была резкой: DeepSeek быстро стал самым загружаемым бесплатным приложением в App Store Apple, а совокупная рыночная капитализация ведущих американских технологических компаний снизилась на триллион долларов.
Компания Nvidia, производитель высокопроизводительных графических процессоров H100, якобы необходимых для обучения ИИ, потеряла 589 миллиардов долларов в рыночной оценке — крупнейшая суточная потеря в истории США. DeepSeek же заявила, что обучала свою модель без этих чипов, используя менее мощные решения от Nvidia. Это вызвало панику среди американских технологических гигантов: в OpenAI даже предположили, что DeepSeek мог позаимствовать части их моделей.
По мнению экспертов, ключ к прорыву DeepSeek — это эффективность.
«Тот факт, что DeepSeek удалось создать мощную модель за меньшие деньги, с меньшими вычислительными затратами и за более короткое время, доказывает, что индустрия ИИ могла упустить возможность разрабатывать более умные и компактные решения», — заявил Кристиан Хаммонд, профессор компьютерных наук Северо-Западного университета.
DeepSeek использует метод «смешивания экспертов», который разбивает модель на специализированные подмодели. В отличие от традиционных систем, где нагрузка распределяется равномерно, в DeepSeek задачи динамически передаются между подмоделями, оптимизируя работу.
«Хотя модель V3 имеет 671 миллиард параметров, для обработки каждого конкретного запроса активируются лишь 37 миллиардов», — поясняет Амбудж Тевари, профессор статистики и компьютерных наук Мичиганского университета.
Эффективность распространяется и на обучение модели. Из-за экспортных ограничений США доступ Китая к передовым чипам H100 от Nvidia ограничен, поэтому DeepSeek использовал менее мощные H800, что вынудило компанию внедрить новые методы оптимизации вычислений.
По мнению специалистов, популярность DeepSeek может позитивно повлиять на индустрию, снизив барьер входа для исследователей и компаний. Это также может стимулировать конкуренцию на рынке чипов, где Nvidia доминирует в области ИИ.
Однако снижение стоимости и доступность технологий передового ИИ несут и потенциальные риски.
«Более дешёвые и эффективные методы разработки ИИ могут ускорить научный прогресс, но также создадут новые вызовы в регулировании и безопасности», — отмечает Томас Као, профессор технологической политики Университета Тафтса.
Вопросы регулирования и контроля над технологиями DeepSeek теперь выходят на международный уровень, становясь не только технологической, но и политической темой обсуждения.
Источник: Live Science
Комментарии
Чтобы оставить комментарий зарегистрируйтесь или войдите
Авторизация через