Компания Stability AI выпустила подготовительную версию Stable Diffusion 3.0 — флагманской модели искусственного ума последующего поколения для генерации изображений по текстовому описанию. Stable Diffusion 3.0 будет доступна в различных версиях на базе нейросетей размером от 800 миллиона до 8 миллиардов характеристик.
В течение последнего года компания Stability AI всегда улучшала и выпускала несколько нейросетей, любая из которых демонстрировала возрастающий уровень трудности и свойства. Выпуск SDXL в июле сильно улучшил базисную модель Stable Diffusion, и сейчас компания собирается отправиться сильно далее.
Новенькая модель Stable Diffusion 3.0 призвана обеспечить улучшенное качество отображения и наилучшую эффективность при разработке изображений из сложных подсказок. Новенькая нейросеть обеспечит сильно наилучшую типографику, чем прошлые версии Stable Diffusion, обеспечивая больше четкое написание текста снутри сгенерированных изображений. В прошедшем типографика была слабенькой стороной Stable Diffusion, фактически, как и многих других ИИ-художников.
Stable Diffusion 3.0 — это не легко новенькая версия модели прежней Stability AI, ведь она базирована на новейшей архитектуре. «Stable Diffusion 3 – это диффузионная модель-трансформер, архитектура нового типа, которая подобна той, что употребляется в представленной не так давно модели OpenAI Sora, — поведал VentureBeat Эмад Мостак (Emad Mostaque), главный начальник Stability AI. — Это реальный наследник уникальной Stable Diffusion».
Stability AI экспериментирует с несколькими типами подходов к созданию изображений. Раньше в этом месяце компания выпустила подготовительную версию Stable Cascade, которая употребляет архитектуру Würstchen для увеличения производительности и точности. Stable Diffusion 3.0 употребляет другой подход, используя диффузионные модели-трансформеры. «Прежде у Stable Diffusion не было трансформера», — произнес Мостак.
Трансформеры лежат в базе большей части современных нейросетей, запустивших революцию в области искусственного ума. Они обширно употребляются в качестве базы моделей генерации текста. Генерация изображений в главном находилась в сфере диффузионных моделей. В исследовательской работе, в какой во всех деталях описываются диффузионные трансформеры (DiT), разъясняется, что это новенькая архитектура для диффузионных моделей, которая подменяет обширно применяемую магистраль U-Net трансформером, работающим на укрытых участках изображения. Использование DiT позволяет больше продуктивно применять вычислительные мощности и превосходить другие подходы к диффузной генерации изображений.
Еще одна принципиальная новинка, которой пользуется Stable Diffusion 3.0 — это утверждение потоков. В исследовательской работе по сравнению потоков разъясняется, что это новый прием обучения нейросетей при помощи «непрерывных нормализующих потоков» (Conditional Flow Matching — CNF) для моделирования сложных рассредотачиваний данных. По воззрению исследователей, применение CFM с хорошими способами транспортировки приводит к больше резвому обучению, больше действенному отбору образцов и увеличению производительности по сопоставлению с диффузионными способами.
Усовершенствованная типографика в Stable Diffusion 3.0 является результатом нескольких улучшений, которые Stability AI встроил в новейшую модель. Как объяснил Мостак, высококачественная генерация текстов на изображения стала вероятной благодаря использованию диффузионной модели-трансформера и дополнительных кодировщиков текста. При помощи Stable Diffusion 3.0 стало вероятным производить на изображениях полные предложения со связным стилем написания текста.
Но Stable Diffusion 3.0 сначала показывается как разработка искусственного ума для преобразования текста в изображение, она станет основой для еще большего. В последние месяцы Stability AI также создаст нейросети для сотворения 3D-изображений и видео.
«Мы создаем открытые модели, которые можно применять где угодно и приспособить к хоть каким потребностям, — произнес Мостак. — Это серия моделей различных размеров, которая послужит основой для разработки наших зрительных моделей последующего поколения, включая видео, 3D и почти все иное».#!MARKER#!