Интересные обсуждения

темы заинтересовавшие velkin

Научите заранее, без натурных экспериментов, оценивать применимость того или иного железа к работе на нем локальной LLM, возможности и производительность получаемого ИИ.

Вот я сейчас пытаюсь понять, какой ноутбук купить: то ли с RTX 5070 8 GB ($2600), то ли с RTX 5070Ti 12 GB ($4100). Пытаюсь понять, даст ли переплата $1500 какие-то значимые преимущества конкретно для меня.

Пишут, что на первом вроде как идут модели 7B-8B, на втором — 14B. Плюс на 12 Гб остается больше памяти для контекста.

А дальше в статьях, обсуждениях и ответах ИИ все очень мутно: "на 12 Гб качество кода будет лучше", "вы сможете работать с кодом более серьезно", "потянет большие проекты" и т.п. Все это очень неконкретно.

Использовать ИИ для генерации всего кода я [пока] не планирую. Сперва поручил бы ему анализировать мой, искать возможные ошибки, неоптимальности, уязвимости и т.п., локально переделывать места, на которые укажу.

Вот в одном из текущих проектов на C++ около ~50 kLOC, причем никакие библиотеки там не используются, включая std — только Win32 API и Kernel API. Сможет локальная LLM на 8 Гб его переварить, составить файлы описаний структуры, зависимостей по использованию, по объектам синхронизации, по уровням приоритетов ядра (IRQL)? И, если я спрошу что-нибудь вроде "а если я в эту функцию добавлю захват вот этого объекта синхронизации, не случится ли где-нибудь дедлока?", дать ответ, которому можно будет доверять?

Также хотел бы запрячь ИИ для генерации кода GUI на WinAPI. Сможет он на таком железе делать окна, состоящие из десятка областей, в каждой из которых по десятку элементов управления (кнопок, списков, переключателей, движков и т.п.), и все это свободно растягивается, перемещается и т.п., и чтоб я, при надобности, мог руками что-то добавить/поменять? Если сможет, то с какой скоростью, и сколько итераций обычно требуется для получения рабочего варианта?

Еще хочу, чтоб оно писало на определенном диалекте C++ (например, MS VC++ 15.x) и в определенном стиле, который сам задам. Это возможно?

В общем, как, имея примерный набор ожиданий, можно оценить, какие модели и какое железо для него потребны? А то, может, и 8 Гб по уши хватит, а может, и от 12 никакого толку не будет.

19.06.2026 152 комментария

комментировать обсудить в форуме

VladD2 Как заранее оценить применимость/производительность желе

19.06.2026 07:07

Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Вот я сейчас пытаюсь понять, какой ноутбук купить: то ли с RTX 5070 8 GB ($2600), то ли с RTX 5070Ti 12 GB ($4100). Пытаюсь понять, даст ли переплата $1500 какие-то значимые преимущества конкретно для меня.

Тут все очень прост. Лучше не покупать ноуты вообще. В ноутах видюхи зажаты пониженным тепло-пакетом и не могут дать тех же скоростей.

Далее ни RTX 5070 8 GB, ни RTX 5070Ti 12 GB для локальных LLM не пригодны из-за малого размера памяти.

Вменяемую ЛЛМ-ку можно получит исключительно от 20-24 Гб VRAM. Причем даже наличие 24 Гб не позволит загружать вменяемые ЛЛМ в приличном качестве. Ты будешь вынужден запускать сильно квантованные версии или дебилов на 8-9b, которые только на поиграть сойдут.

Если рассчитывать на одну карту, то тут просто нет выбора. Это 5090! Ну или покупка хаков вроде 4090 с 48 Гб (перепаянные китайцами или заказывать перепайку у наших российских, умельцев). Думаю, что у тебя и заказать перепайку будет негде.

И купить ноут с честной 5090 невозможно! По этому ноут просто бесполезен для ЛЛМ. Разе что Эпловский с унифицированной памятью.

По этому тебе просто не из чего выбирать. Просто отказывайся от ноута для ЛЛМ и покупай просто комп. Там уже вариантов масса.

Это и одна честная 5090 с 32 Гб и архитектурой Blackwell, способной запускать на одной 5090 приличные модели.
И возможность поставить 2 карточки за "копейки" (2 * 3090), и возможность купить китайскую 4090 с 48 Гб.

ЕМ>Пишут, что на первом вроде как идут модели 7B-8B, на втором — 14B. Плюс на 12 Гб остается больше памяти для контекста.

Идут, идут. Но в натяжку, херово и эти модели ни на что не способны. А учитывая, что их можно и на процессоре успешно запускать, смысл в этом всем исчезает.

ЕМ>А дальше в статьях, обсуждениях и ответах ИИ все очень мутно: "на 12 Гб качество кода будет лучше", "вы сможете работать с кодом более серьезно", "потянет большие проекты" и т.п. Все это очень неконкретно.

Не будет никакого качества кода ни на 12, ни (тем более) 10 Гб. И даже на 24 это будет компромисс.

ЕМ>Использовать ИИ для генерации всего кода я [пока] не планирую. Сперва поручил бы ему анализировать мой, искать возможные ошибки, неоптимальности, уязвимости и т.п., локально переделывать места, на которые укажу.

Искать ошибки еще труднее чем сгенерить код. Сгенерить говнокод не так уж и сложно. Но если ты решишь с продакшон-кодом работать моделью на 8б, то быстро поймешь, что это никуда не годится.

Сейчас есть офигительные модели Qwen3.6-27b/35b. Вот они уже могут и баги искать, и код анализировать, и писать код. Все что ниже — шлак.

ЕМ>Вот в одном из текущих проектов на C++ около ~50 kLOC, причем никакие библиотеки там не используются, включая std — только Win32 API и Kernel API. Сможет локальная LLM на 8 Гб его переварить, составить файлы описаний структуры, зависимостей по использованию, по объектам синхронизации, по уровням приоритетов ядра (IRQL)? И, если я спрошу что-нибудь вроде "а если я в эту функцию добавлю захват вот этого объекта синхронизации, не случится ли где-нибудь дедлока?", дать ответ, которому можно будет доверять?

Нет. 50 kLOC — это где-то 350К до 450К токенов. Ни одна локальная ЛЛМ такого контекста не имеет. Лучшая (как раз те самые квены3.6) имеет 256К контекстного окна и уже за 210 начинает плыть. Так что реальная работа не должна сильно превышать окно в 200К токенов.

Но модели и не нужно сжирать весь код целиком. Обычно ты решаешь отдельны задачи. Как показывает практика они укладываются в те самые 200К-240К контекста. Если постараться, можно и в 128К влезать. Ты просто разбиваешь задачи на подзадачи и получаешь рабочий код.

Но нужно понимать, что контекстное окно стоит дорого. Чем меньше модель тем меньше и окно. Но все равно под него будет тратиться гигабайты VRAM. По этому идея впихнуть это в 12 Гб опять же провальная.

ЕМ>Также хотел бы запрячь ИИ для генерации кода GUI на WinAPI. Сможет он на таком железе делать окна, состоящие из десятка областей, в каждой из которых по десятку элементов управления (кнопок, списков, переключателей, движков и т.п.), и все это свободно растягивается, перемещается и т.п., и чтоб я, при надобности, мог руками что-то добавить/поменять? Если сможет, то с какой скоростью, и сколько итераций обычно требуется для получения рабочего варианта?

Не сможет. Ну или сможет бред нагенерить, который ты потом будешь руками дольше допиливать, чем с нуля написать.

ЕМ>Еще хочу, чтоб оно писало на определенном диалекте C++ (например, MS VC++ 15.x) и в определенном стиле, который сам задам. Это возможно?

Qwen3.6-27b/35b без проблем на нем пишет. Даже проект для VS 2022 без проблем создаст и скомпилирует.

ЕМ>В общем, как, имея примерный набор ожиданий, можно оценить, какие модели и какое железо для него потребны? А то, может, и 8 Гб по уши хватит, а может, и от 12 никакого толку не будет.

Примерно тебя ожидает фиаско. Надо понимать, что кроме ЛЛМ у тебя еще на карте будет висеть Винда, которая отожрет еще 2-3 Гб VRAM. Если повезет найти ноут со встройкой и дискретной картой одновременно, можно гуй на встройку вывести.

Но реально твой план никуда не годен. Выбрасывай его и покупай обычный комп. ЛЛМ носить с собой нет смысла. Ты можешь использовать её с ноута, а саму ЛЛМ расположить дома в холодном месте.

Ну или не валяй дурака и просто купи подписку на облачный сервис.

Метрика / Бенчмарк	Qwen3.5-122B-A10B (MoE, 122B)	Qwen3.6-35B-A3B (MoE, 35B)	Qwen3.5-397B-A17B (MoE, 397B)	DeepSeek-V4-Flash (MoE, 284B / Max Think)
SWE-bench Verified (Фикс реальных багов)	72.0%	73.4%	76.2%	79.0%
SWE-bench Multilingual (Баги на C++, C# и др.)	67.2%	67.2%	69.3%	76.2%
SWE-bench Pro (Задачи повышенной сложности)	49.5%	49.5%	50.9%	55.4%
Terminal-Bench 2.0 (Работа в CLI-терминале)	41.6%	51.5%	52.5%	64.8%
Claw-Eval Avg (Интеграция в агентные среды)	65.4%	68.7%	70.7%	72.1%
NL2Repo (Сборка структуры кода из ТЗ)	20.5%	29.4%	32.2%	34.9%
QwenClawBench / Toolathlon (Вызовы tool use)	47.7%	52.6%	51.8%	51.4%

Модель	Формат / Вес	Железо (GPU / Конфигурация стенда)	Prompt Processing, т/с	Generation (TG), т/с	Технический вердикт и утилизация памяти
Qwen3.6-35B-A3B	Q8_0 (~38 ГБ)	1 × RTX 4090 48GB (Перепайка)	~7 500	~140	Ультимативный идеал. Модель в одном чипе, ПСП 1 ТБ/с. Код пишется мгновенно.
Qwen3.6-35B-A3B	Q8_0 (~38 ГБ)	RTX 4090 + RTX 3090Ti (48 ГБ VRAM)	~7 000	~130	Реальный тест автора. Отличный рабочий сетап. Скорость генерации феноменальная.
Qwen3.6-35B-A3B	Q8_0 (~38 ГБ)	2 × RTX 4090 (48 ГБ VRAM)	~7 200	~135	Чуть быстрее за счет одинаковых чипов Ada, но разница с 3090Ti минимальна.
Qwen3.6-35B-A3B	Q8_0 (~38 ГБ)	2 × RTX 3090Ti (48 ГБ VRAM)	~5 400	~100	Превосходный риг. Скорость генерации все еще выше психологического барьера в 90 т/с.
Qwen3.6-35B-A3B	Q8_0 (~38 ГБ)	2 × RTX 3090 (48 ГБ VRAM)	~5 200	~95	Народный б/у вариант. Отлично тянет локального агента в честном Q8.
Qwen3.6-35B-A3B	NVFP4 (~18 ГБ)	1 × RTX 5090 (32 ГБ GDDR7)	~14 200	~155	Космическая скорость PP за счет аппаратного NVFP4 в Blackwell. Но под KV-cache мало места.
Qwen3.6-35B-A3B	FP8 (~36 ГБ)	2 × RTX 5090 (64 ГБ GDDR7 / Блэквелл)	~16 500	~190	Избыточный монстр. Скорость дикая, но переплата по сравнению с прошлым поколением огромна.
Qwen3.6-35B-A3B	Q4_K_M (~22 ГБ)	AMD Strix Halo (96/128 ГБ LPDDR5X)	~1 800	~55	Потолок для ноутбучных "комбайнов". Медленнее дискретных видеокарт. Для работы душно.
Qwen3.6-35B-A3B	Q4_K_M (~22 ГБ)	NVIDIA RTX Spark (128 ГБ LPDDR5X)	~1 400	~38	Маркетинговая игрушка. Узкая шина памяти LPDDR5X жестко душит инференс.
DeepSeek-V4-Flash	NVFP4 (~150 ГБ)	AMD Strix Halo (128 ГБ версия + Своп)	~90	~4	Нереализуемо для работы. Модель заводится с диким оффлоадом. 4 токена/сек — это смерть для агента.
DeepSeek-V4-Flash	NVFP4 (~150 ГБ)	NVIDIA RTX Spark (128 ГБ LPDDR5X)	--	--	Не запустится на одной ноде. Чистый вес FP4-модели превышает весь физический объем распаянной памяти SoC.
DeepSeek-V4-Flash	NVFP4 (~150 ГБ)	NVIDIA RTX Spark Dual-Node (256 ГБ)	~2 100	~28	Слишком медленно. Спаренный ARM-комбайн тянет веса целиком в памяти, но ПСП шины выдает жалкие 28 т/с.
DeepSeek-V4-Flash	NVFP4 (~150 ГБ)	3 × RTX 5090 (96 ГБ VRAM Blackwell)	~6 100	~70	Минимум, чтобы запустить эту махину целиком в VRAM в FP4. Стоимость рига запредельная.

Интересные обсуждения

темы заинтересовавшие velkin

Как заранее оценить производительность железа для LLM

ТАБЛИЦА 1. Качество работы моделей в автономных агентных сценариях

ТАБЛИЦА 2. Скорость инференса на локальном железе (Prompt Processing / Generation)

Ryzen AI Max+ 395: сопоставима ли встроенная графика с видеокартой RTX 4070 для ноутбуков?

Strix Halo получила четырехканальный интерфейс памяти.

Быстрее, чем RTX 4090, в приложениях искусственного интеллекта?