Содержание
Пан Ян, соучредитель SiliconFlow, выступил с речью под названием «ИИ Инфра: Для кого и зачем?» на «Сессии Реального времени ИИ Инфра» Convo AI & RTE 2025. Есть 8 ключевых инсайтов в области ИИ Инфра.
Кратко
8 ключевых инсайтов из выступления Пан Яна об AI Infrastructure:
Inference В первую очередь — Переход к вычислениям inference обусловлен экспоненциальным ростом клиентов ИИ и потребностей в вычислениях.
Возможности open-source — Модели open-source догоняют с разрывом в 3–5 месяцев, с потенциальными прорывами в мультимодальных областях.
Призыв к MaaS — Одноплатформенные решения, предоставляющие один API доступ к множеству моделей.
Три основные вызовы MaaS — Проблемы доступности, вариации производительности и иллюзия снижения затрат.
Сделай трудное, но правильное — стремление SiliconFlow к предоставлению более быстрых, качественных и экономичных услуг ИИ Инфра.
Четыре сценария ИИ 2025 — Генерация контента, Агентный ИИ (Год Агента), Кодирование и мультимодальные приложения.
ИИ — это Работа, а не инструмент — Парадигмальный сдвиг Дженсена Хуанга, который акцентирует внимание на создании для агентов, а не для людей.
ИИ Инфра — Нет пузыря — Реальность рынка показывает огромный неудовлетворенный спрос, доказав, что нет пузыря, а есть нехватка предложения.
Inference в первую очередь
SiliconFlow предсказал, что «в будущем подавляющая часть вычислительной мощности будет использована для inference, а не для обучения» в 2023 году. Эта тенденция становится реальностью в 2025 году, главным образом благодаря двум факторам: экспоненциальному росту числа и использования клиентов ИИ, и экспоненциальному росту объемов вычислений, необходимых для выполнения одной задачи.
Возможности моделей open-source
Модели open-source стремительно догоняют закрытые модели с динамическим разрывом в 3–5 месяцев. В настоящее время экосистема open-source для LLMs близка к передовому уровню (SOTA), тогда как для мультимодальных моделей, таких как Image, Audio и Video, все еще существуют значительные возможности для прорывов.
Призыв к Модель как услуга (MaaS)
В этом году мы наблюдали частое обновление моделей, разнообразные спецификации, различные архитектуры и множество модальностей, ни одна компания не может самостоятельно развернуть и поддерживать все модели. Поэтому одноплатформенное MaaS решение, способное интегрировать различные модели, стало незаменимым входом для разработчиков. Именно это направление, на которое SiliconFlow продолжает концентрироваться, позволяя пользователям быстро испытать различные модели только с одним API.
MaaS платформы столкнулись с тремя основными вызовами
Проблемы доступности и надежности: Возникли проблемы, такие как недостаток ресурсов и ошибки 429/503.
Производительность и качество варьируются существенно: та же самая модель open-source, представленная различными поставщиками услуг, демонстрирует значительные различия в фактической производительности, что отражает различие уровней квантования и оптимизации модели, напрямую влияя на окончательные возможности модели.
Иллюзия снижения затрат: Хотя стоимость одной модели может снизиться в десять раз ежегодно, пользователи всегда ищут последние и самые мощные модели передового уровня (SOTA), тогда как цены вызова этих моделей остаются относительно стабильными. Между тем, количество tokens, потребляемых для выполнения задачи, увеличивается экспоненциально, что приводит к отсутствию значительного уменьшения фактических затрат на приложения.
Сделай трудное, но правильное
SiliconFlow всегда глубоко погружен в область ИИ Инфра, глубоко понимая сопряженные вызовы и неустанно стремясь продвигать внедрение решений для предоставления пользователям более быстрых, производительных и экономичных услуг ИИ Инфра.
Четыре высококонсенсусных сценария ИИ к 2025
Генерация контента: создание статьи, предоставление обслуживания клиентам через чат или создание базы знаний, всё вращается вокруг языка.
Агентный ИИ: Этот год был назван годом Агента. Хотя существую различные понимания концепции Агента, произошли некоторые изменения. Например, Manus прилагает значительные усилия к продвижению определения Агента.
Кодирование: Первое, что сделали выпущенные в этом году основные модели — это гармонизация с возможностями Агента и Кодирования. Индустрия в целом согласна, что Агент и Кодирование — это области, которые потребляют больше всего token.
Мультимодальность: Особенно в китайской интернет-среде, потребление моделей мультимодальностью значительно превышает другие формы.
«ИИ — это Работа, а не инструмент»
Дженсен Хуанг предложил, что «ИИ — это Работа, а не инструмент», что по сути является сдвигом парадигмы. ИИ будет активно использовать инструменты для выполнения задач, а не пассивно реагировать на инструкции. Это вызовет сдвиг парадигмы: создание для агентов, а не для людей. Люди всё больше будут предавать задачи агентам, всё меньше напрямую управляя на интерфейсах программного обеспечения.
ИИ Инфра — Нет пузыря
Вся индустрия инфраструктуры ИИ свободна от пузырей, и фактически находится в состоянии «далеко от нехватки» предложения. Крупнейшие технологические компании мира планируют приобрести инфраструктуру стоимостью сотни миллиардов долларов, которая еще не была поставлена. В настоящее время основными узкими местами в индустрии являются неспособность производить чипы и нехватка энергии. Спрос значительно превышает возможности предложения, доказывая подлинность рынка и огромный потенциал.


