Интересные обсуждения

темы заинтересовавшие velkin

Как заранее оценить производительность железа для LLM

Евгений Музыченко Евгений Музыченко
Научите заранее, без натурных экспериментов, оценивать применимость того или иного железа к работе на нем локальной LLM, возможности и производительность получаемого ИИ.

Вот я сейчас пытаюсь понять, какой ноутбук купить: то ли с RTX 5070 8 GB ($2600), то ли с RTX 5070Ti 12 GB ($4100). Пытаюсь понять, даст ли переплата $1500 какие-то значимые преимущества конкретно для меня.

Пишут, что на первом вроде как идут модели 7B-8B, на втором — 14B. Плюс на 12 Гб остается больше памяти для контекста.

А дальше в статьях, обсуждениях и ответах ИИ все очень мутно: "на 12 Гб качество кода будет лучше", "вы сможете работать с кодом более серьезно", "потянет большие проекты" и т.п. Все это очень неконкретно.

Использовать ИИ для генерации всего кода я [пока] не планирую. Сперва поручил бы ему анализировать мой, искать возможные ошибки, неоптимальности, уязвимости и т.п., локально переделывать места, на которые укажу.

Вот в одном из текущих проектов на C++ около ~50 kLOC, причем никакие библиотеки там не используются, включая std — только Win32 API и Kernel API. Сможет локальная LLM на 8 Гб его переварить, составить файлы описаний структуры, зависимостей по использованию, по объектам синхронизации, по уровням приоритетов ядра (IRQL)? И, если я спрошу что-нибудь вроде "а если я в эту функцию добавлю захват вот этого объекта синхронизации, не случится ли где-нибудь дедлока?", дать ответ, которому можно будет доверять?

Также хотел бы запрячь ИИ для генерации кода GUI на WinAPI. Сможет он на таком железе делать окна, состоящие из десятка областей, в каждой из которых по десятку элементов управления (кнопок, списков, переключателей, движков и т.п.), и все это свободно растягивается, перемещается и т.п., и чтоб я, при надобности, мог руками что-то добавить/поменять? Если сможет, то с какой скоростью, и сколько итераций обычно требуется для получения рабочего варианта?

Еще хочу, чтоб оно писало на определенном диалекте C++ (например, MS VC++ 15.x) и в определенном стиле, который сам задам. Это возможно?

В общем, как, имея примерный набор ожиданий, можно оценить, какие модели и какое железо для него потребны? А то, может, и 8 Гб по уши хватит, а может, и от 12 никакого толку не будет.
VladD2
VladD2 Как заранее оценить применимость/производительность желе
19.06.2026 07:07
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Вот я сейчас пытаюсь понять, какой ноутбук купить: то ли с RTX 5070 8 GB ($2600), то ли с RTX 5070Ti 12 GB ($4100). Пытаюсь понять, даст ли переплата $1500 какие-то значимые преимущества конкретно для меня.


Тут все очень прост. Лучше не покупать ноуты вообще. В ноутах видюхи зажаты пониженным тепло-пакетом и не могут дать тех же скоростей.

Далее ни RTX 5070 8 GB, ни RTX 5070Ti 12 GB для локальных LLM не пригодны из-за малого размера памяти.

Вменяемую ЛЛМ-ку можно получит исключительно от 20-24 Гб VRAM. Причем даже наличие 24 Гб не позволит загружать вменяемые ЛЛМ в приличном качестве. Ты будешь вынужден запускать сильно квантованные версии или дебилов на 8-9b, которые только на поиграть сойдут.

Если рассчитывать на одну карту, то тут просто нет выбора. Это 5090! Ну или покупка хаков вроде 4090 с 48 Гб (перепаянные китайцами или заказывать перепайку у наших российских, умельцев). Думаю, что у тебя и заказать перепайку будет негде.

И купить ноут с честной 5090 невозможно! По этому ноут просто бесполезен для ЛЛМ. Разе что Эпловский с унифицированной памятью.

По этому тебе просто не из чего выбирать. Просто отказывайся от ноута для ЛЛМ и покупай просто комп. Там уже вариантов масса.

Это и одна честная 5090 с 32 Гб и архитектурой Blackwell, способной запускать на одной 5090 приличные модели.
И возможность поставить 2 карточки за "копейки" (2 * 3090), и возможность купить китайскую 4090 с 48 Гб.

ЕМ>Пишут, что на первом вроде как идут модели 7B-8B, на втором — 14B. Плюс на 12 Гб остается больше памяти для контекста.


Идут, идут. Но в натяжку, херово и эти модели ни на что не способны. А учитывая, что их можно и на процессоре успешно запускать, смысл в этом всем исчезает.

ЕМ>А дальше в статьях, обсуждениях и ответах ИИ все очень мутно: "на 12 Гб качество кода будет лучше", "вы сможете работать с кодом более серьезно", "потянет большие проекты" и т.п. Все это очень неконкретно.


Не будет никакого качества кода ни на 12, ни (тем более) 10 Гб. И даже на 24 это будет компромисс.

ЕМ>Использовать ИИ для генерации всего кода я [пока] не планирую. Сперва поручил бы ему анализировать мой, искать возможные ошибки, неоптимальности, уязвимости и т.п., локально переделывать места, на которые укажу.


Искать ошибки еще труднее чем сгенерить код. Сгенерить говнокод не так уж и сложно. Но если ты решишь с продакшон-кодом работать моделью на 8б, то быстро поймешь, что это никуда не годится.

Сейчас есть офигительные модели Qwen3.6-27b/35b. Вот они уже могут и баги искать, и код анализировать, и писать код. Все что ниже — шлак.

ЕМ>Вот в одном из текущих проектов на C++ около ~50 kLOC, причем никакие библиотеки там не используются, включая std — только Win32 API и Kernel API. Сможет локальная LLM на 8 Гб его переварить, составить файлы описаний структуры, зависимостей по использованию, по объектам синхронизации, по уровням приоритетов ядра (IRQL)? И, если я спрошу что-нибудь вроде "а если я в эту функцию добавлю захват вот этого объекта синхронизации, не случится ли где-нибудь дедлока?", дать ответ, которому можно будет доверять?


Нет. 50 kLOC — это где-то 350К до 450К токенов. Ни одна локальная ЛЛМ такого контекста не имеет. Лучшая (как раз те самые квены3.6) имеет 256К контекстного окна и уже за 210 начинает плыть. Так что реальная работа не должна сильно превышать окно в 200К токенов.

Но модели и не нужно сжирать весь код целиком. Обычно ты решаешь отдельны задачи. Как показывает практика они укладываются в те самые 200К-240К контекста. Если постараться, можно и в 128К влезать. Ты просто разбиваешь задачи на подзадачи и получаешь рабочий код.

Но нужно понимать, что контекстное окно стоит дорого. Чем меньше модель тем меньше и окно. Но все равно под него будет тратиться гигабайты VRAM. По этому идея впихнуть это в 12 Гб опять же провальная.

ЕМ>Также хотел бы запрячь ИИ для генерации кода GUI на WinAPI. Сможет он на таком железе делать окна, состоящие из десятка областей, в каждой из которых по десятку элементов управления (кнопок, списков, переключателей, движков и т.п.), и все это свободно растягивается, перемещается и т.п., и чтоб я, при надобности, мог руками что-то добавить/поменять? Если сможет, то с какой скоростью, и сколько итераций обычно требуется для получения рабочего варианта?


Не сможет. Ну или сможет бред нагенерить, который ты потом будешь руками дольше допиливать, чем с нуля написать.

ЕМ>Еще хочу, чтоб оно писало на определенном диалекте C++ (например, MS VC++ 15.x) и в определенном стиле, который сам задам. Это возможно?


Qwen3.6-27b/35b без проблем на нем пишет. Даже проект для VS 2022 без проблем создаст и скомпилирует.

ЕМ>В общем, как, имея примерный набор ожиданий, можно оценить, какие модели и какое железо для него потребны? А то, может, и 8 Гб по уши хватит, а может, и от 12 никакого толку не будет.


Примерно тебя ожидает фиаско. Надо понимать, что кроме ЛЛМ у тебя еще на карте будет висеть Винда, которая отожрет еще 2-3 Гб VRAM. Если повезет найти ноут со встройкой и дискретной картой одновременно, можно гуй на встройку вывести.

Но реально твой план никуда не годен. Выбрасывай его и покупай обычный комп. ЛЛМ носить с собой нет смысла. Ты можешь использовать её с ноута, а саму ЛЛМ расположить дома в холодном месте.

Ну или не валяй дурака и просто купи подписку на облачный сервис.
Евгений Музыченко
Евгений Музыченко Как заранее оценить применимость/производительность железа для LLM?
19.06.2026 07:56
Здравствуйте, VladD2, Вы писали:

VD>Лучше не покупать ноуты вообще.


Ну да, и легковые автомобили не покупать — сразу грузовики.

Я в курсе, что Вы экспериментируете с LLM весьма широко, поэтому любые конфигурации, значительно меньшие Ваших, автоматически воспринимаете, как заведомо бесполезные. Но мне хотелось бы понять, что вообще не взлетит никак, ибо технически невозможно, а что может и взлететь, пусть и не так круто, как оно летает на мощном железе.

Ноут мне не для ИИ, а для работы. "Дискретным" видеоадаптером я вообще никогда не пользуюсь, но каждый раз вынужден за него платить, ибо мощных ноутов с большим экраном без них почему-то не делают. Вот и возникла мысль хоть как-то эту переплату утилизировать.

VD>ни RTX 5070 8 GB, ни RTX 5070Ti 12 GB для локальных LLM не пригодны из-за малого размера памяти.


Что значит "непригодны"? На них невозможно запустить LLM? Или эта LLM не сможет делать вообще ничего из того, что в программировании обычно делается руками?

VD>Вменяемую ЛЛМ-ку можно получит исключительно от 20-24 Гб VRAM.


Каковы критерии "вменяемости"?

VD>Думаю, что у тебя и заказать перепайку будет не где.


Перепаять я могу и сам, если очень надо. Вопрос в том, насколько это надо для тех целей, что я описал.

VD>Идут, идут. Но в натяжку, херово и эти модели ни на что не способны. А учитывая, что их можно и на процесс успешно запускать, смысл в этом всем исчезает.


Что значит "запускать на процесс"?

VD>если ты решишь с продакшон-кодом работать моделью на 8б, то быстро поймешь, что это никуда не годится.


С любым продакшн-кодом (то есть, с кодом, который работает, как надо)? Или с кодом, удовлетворяющим неким формальным "промышленным стандартам", которые для его успешной работы не обязательны?

VD>Сейчас есть офигительные модели Qwen3.6-27b/35b. Вот они уже могут и баги искать, и код анализировать, и писать код. Все что ниже — шлак.


ЕМ>>Вот в одном из текущих проектов на C++ около ~50 kLOC, причем никакие библиотеки там не используются, включая std — только Win32 API и Kernel API. Сможет локальная LLM на 8 Гб его переварить, составить файлы описаний структуры, зависимостей по использованию, по объектам синхронизации, по уровням приоритетов ядра (IRQL)? И, если я спрошу что-нибудь вроде "а если я в эту функцию добавлю захват вот этого объекта синхронизации, не случится ли где-нибудь дедлока?", дать ответ, которому можно будет доверять?


VD>50 kLOC — это где-то 350К до 450К токенов. Ни одна локальная ЛЛМ такого контекста не имеет.


Так вроде ж не принято, чтоб модель держала в контексте весь проект, а с помощью агентских утилит разбирала его на части, строила описания структуры, взаимодействий и т.п., и работала с кодом иерархически?

VD>Но модели и не нужно сжирать весь код целиком. Обычно ты решаешь отдельны задачи.


Само собой, но я хотел бы, чтоб модель могла проанализировать проект целиком, а не только по частям, на которые я его могу разбить для нее.

VD>Чем меньше модель тем меньше и окно. Но все равно под него будет тратиться гигабайты VRAM. По этому идея впихнуть это в 12 Гб опять же провальная.


Мне казалось, модель может извлечь из файла определение класса, объекта, функции и т.п., разобрать их все по отдельности, построить себе какие-то вспомогательные описания, и дальше уже работать с ними, поднимаясь выше по иерархии. Нет?

ЕМ>>Также хотел бы запрячь ИИ для генерации кода GUI на WinAPI. Сможет он на таком железе делать окна, состоящие из десятка областей, в каждой из которых по десятку элементов управления (кнопок, списков, переключателей, движков и т.п.), и все это свободно растягивается, перемещается и т.п., и чтоб я, при надобности, мог руками что-то добавить/поменять? Если сможет, то с какой скоростью, и сколько итераций обычно требуется для получения рабочего варианта?


VD>или сможет бред нагенерить, который ты потом будешь руками дольше допиливать, чем с нуля написать.


А шаблонного, рутинного кода для этого нагенерить сможет? Только саму структуру — описания ресурсов, таблицы, классы, заголовки функций, в которые я затем смогу вписать нужный код руками?

VD>кроме ЛЛМ у тебя еще на карте будет висать винда


Я не планирую вообще давать видеоадаптер винде. Не знаю, правда, как в этих ноутах реализован доступ к RTX — вдруг у них технически невозможно подавать туда питание, если для работы выбран встроенный адаптер, надо изучить этот вопрос.

VD>которая отожрет еще 2-3 Гб VRAM.


Даже если и отожрет, зачем ей столько? На обычную работу с видеобуферами всегда хватало десятков-сотен мегабайт. Игры и 3D меня не интересуют.

VD>Если повезет найти ноут со встройкой и дискретной картой одновременно, можно гуй на встройку вывести.


Из рассматриваемых они все такие. Конкретно — MSI Crosshair A18 HX A8/A9, и такой же Vector.

VD>покупай обычный комп.


Если только для LLM, то подумаю над этим, но потом. Сейчас надо определиться с ноутбуком.

VD>купи подписку на облачный сервис.


Это само собой, но некоторые вещи я тупо не хочу отдавать сторонним сервисам.
pva
pva
19.06.2026 08:18
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Ну да, и легковые автомобили не покупать — сразу грузовики.

Влад тебе в целом все правильно расписал.

ЕМ>Но мне хотелось бы понять, что вообще не взлетит никак, ибо технически невозможно, а что может и взлететь, пусть и не так круто, как оно летает на мощном железе.

Сейчас есть модели и для телефонов. Но ты поставил конкретную задачу — поиск багов и разработка под винапи.

ЕМ>Перепаять я могу и сам, если очень надо. Вопрос в том, насколько это надо для тех целей, что я описал.

Я бы даже сказал что то что он тебе предлагает (48Гб) будет маловато, не говоря уже про 8-12Гб.

ЕМ>Мне казалось, модель может извлечь из файла определение класса, объекта, функции и т.п., разобрать их все по отдельности, построить себе какие-то вспомогательные описания, и дальше уже работать с ними, поднимаясь выше по иерархии. Нет?

И да и нет. Модель не строит никакие структуры, но ты можешь попытаться научить ее. Вот только хватит ли тебе контекстного окна для сложных иерархических структур. Здесь ты прийдешь к RAG и начнешь заниматься не своим проектом, а подходами как накостылить чтобы оно хоть как-то работало.

VD>>купи подписку на облачный сервис.

ЕМ>Это само собой, но некоторые вещи я тупо не хочу отдавать сторонним сервисам.
Это лучший совет и путь из возможных.
Но если настаиваешь на собственном ИИ, то за $4к которые ты обозначил в первом посте можно купить тот же спарк (DGX Spark, GB10).
Евгений Музыченко
Здравствуйте, pva, Вы писали:

pva>за $4к которые ты обозначил в первом посте можно купить тот же спарк (DGX Spark, GB10).


$4k стоит ноутбук в максимальной комплектации, цену которого я еще считаю вменяемой. А ноутбук для работы мне нужен в любом случае, и меньше, чем за $2k, разумных вариантов нет.
VladD2
VladD2 Как заранее оценить применимость/производительность ж
20.06.2026 10:34
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>$4k стоит ноутбук в максимальной комплектации, цену которого я еще считаю вменяемой. А ноутбук для работы мне нужен в любом случае, и меньше, чем за $2k, разумных вариантов нет.


Ну вот это цена за 4090 с 48 Гб. К ней, конечно, ещё нужен комп. Но это будет реальный пропуск в мир локального ЛЛМ с очень комфортной скорость (даже более комфортной чем многие облачные).

Ещё более дешёвый вариант, но и более медленный покупка 2 * 3090. Это Тебе обойдется в ~$1.5-$2 килобакса. Ещё за ~$600 баксов можно купить для их размещения БУ сервер на Эпик. Итого будет куда дешевле и очень не плохо по производительности. Хотя я бы советовал брать 3090 Ti. Они шустрее.
Евгений Музыченко
Евгений Музыченко Как заранее оценить применимость/производительность железа для LLM?
21.06.2026 07:56
Здравствуйте, VladD2, Вы писали:

VD>это будет реальный пропуск в мир локального ЛЛМ


Я пока даже не понял, нужна ли мне вообще LLM за пределами чатовых. Поэтому сколько-нибудь всерьез рассматривать специальные варианты пока не вижу смысла.
VladD2
VladD2
20.06.2026 10:23
Здравствуйте.

pva>Я бы даже сказал что то что он тебе предлагает (48Гб) будет маловато, не говоря уже про 8-12Гб.


Не. 48 Гб в самый раз для Квенов. Я гоняю на них модель и кэш в Q8_0. Выше только не квантованным модели или квантованные в FPx.

pva>Это лучший совет и путь из возможных.

pva>Но если настаиваешь на собственном ИИ, то за $4к которые ты обозначил в первом посте можно купить тот же спарк (DGX Spark, GB10).

Ну Spark — это тормоз. Лучше собрать комп с 5090 или 4090 с 48 Гб.

Это будет работать значительно быстрее и хватит на Квенов.

А Spark это скорее для энтузиастов. По запускать большие сетки со скоростью пригодной только для чатиков. Агентные сценарии пролетают мимо тебя. Ну если ты, конечно не готов играть в теннис пока твоя модель целый день строчит код.
pva
pva Как заранее оценить применимость/производительность ж
21.06.2026 06:26
Здравствуйте, VladD2, Вы писали:

VD>Ну Spark — это тормоз. Лучше собрать комп с 5090 или 4090 с 48 Гб.

VD>А Spark это скорее для энтузиастов. Агентные сценарии пролетают мимо тебя. Ну если ты, конечно не готов играть в теннис пока твоя модель целый день строчит код.
Мы уже сравнивали что cпарка вполне достаточно для qwen и разработки и агентных сценариев. По крайней мере, я не вижу с этим проблем, подпирая его в нужных местах подпиской на claude.
Допускаю, что спустившись на NVFP4 можно было бы ускорить его (а может и превзойти) твои показатели, но мне качество (FP8) важнее скорости. Можно было бы еще и КВ-кеш заквантовать, что дало бы существенное ускорение в реальных сценариях.
Ну и как-то нескромно с твоей стороны лепить DDR4 там где LPDDR5.

А, ну да.. и для чатиков (там где описки не особо важны) я впоне могу запустить на одном спарке qwen-122B или oss-120b.
Слава
Слава
19.06.2026 09:37
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Здравствуйте, VladD2, Вы писали:


VD>>Лучше не покупать ноуты вообще.


ЕМ>Ну да, и легковые автомобили не покупать — сразу грузовики.


Влад полностью прав. Полумеры при покупке железа для LLM сделают только хуже, вы впустую потратите деньги.
VladD2
VladD2
20.06.2026 12:25
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Ну да, и легковые автомобили не покупать — сразу грузовики.


Если твоя задача перевозить грузы, то это довольно логично. Если ты хочешь по вечерам поиграть в не топовые игры, 5070 не плохой выбор.

ЕМ>Я в курсе, что Вы экспериментируете с LLM весьма широко, поэтому любые конфигурации, значительно меньшие Ваших, автоматически воспринимаете, как заведомо бесполезные. Но мне хотелось бы понять, что вообще не взлетит никак, ибо технически невозможно, а что может и взлететь, пусть и не так круто, как оно летает на мощном железе.


Не, ну, кто тебе мешает? Выброси дньги. Потом нам сам расскажешь всё в деталях, если стыдно не будет.

Моя изначальная конфигурация — 4090 купленная для игр и 3080 Ti валявшаяся под кроваться, так как в лом было её продавать.

Когда попробовал, прослезился и стал искать варианты. В тоге прикупил 3090 Ti за 70 тыр и начал экспериментировать. Чем и делюсь (совершенно нахаляву).

ЕМ>Ноут мне не для ИИ, а для работы. "Дискретным" видеоадаптером я вообще никогда не пользуюсь, но каждый раз вынужден за него платить, ибо мощных ноутов с большим экраном без них почему-то не делают.


Да как бы есть "ультабукуи" с не плохими встройками и офигительно низким потреблением.

ЕМ>Вот и возникла мысль хоть как-то эту переплату утилизировать.


На платформе AMD (Лучшие для игр)
  • ASUS Zenbook S 16 OLED — тонкий 16-дюймовый премиум-ноутбук с мощнейшей графикой Radeon 890M.
  • ASUS ProArt PX13 — компактный 13-дюймовый трансформер для создателей контента и дизайнеров.

На платформе Intel (Лучшие для работы и ИИ)
  • ASUS Zenbook S 14 OLED — сбалансированный ультрабук с графикой Arc 140V и автономностью до 20 часов.
  • Lenovo ThinkPad X1 Carbon (Aura Edition) — легендарный, сверхлегкий бизнес-флагман из углеволокна.
  • Dell XPS 13 — футуристичный алюминиевый ноутбук с экраном 120 Гц.

На платформе Apple (Лучшие для видеомонтажа и автономности)
  • MacBook Air (M5) — абсолютно бесшумный ультрабук без вентиляторов для повседневных и легких Pro-задач.
  • MacBook Pro 14" / 16" (M5 Pro / Max) — профессиональные станции с графикой уровня мощных игровых ПК.

ЕМ>Что значит "непригодны"? На них невозможно запустить LLM? Или эта LLM не сможет делать вообще ничего из того, что в программировании обычно делается руками?


Смотря что называть ЛЛМ. Что-то можно запустить и на смортфонах. Вопрос в том, что оно может дать и для чего. 1-2b запускается на процессорах и телефонах.

Но для программирования минимум это те самые Квены 27/35б.

ЕМ>Каковы критерии "вменяемости"?


Писать код, который можно в продакшене использовать.

ЕМ>Перепаять я могу и сам, если очень надо. Вопрос в том, насколько это надо для тех целей, что я описал.


Там перепаивать нужно целую плату. Купить тушку. Выпаять чип из видюхи, и на новую тушку перепаять его и тучу чипов памяти (новых). Далее пришпандорить охраждение.

ЕМ>Что значит "запускать на процесс"?


На процессоре. На CPU.

ЕМ>С любым продакшн-кодом (то есть, с кодом, который работает, как надо)? Или с кодом, удовлетворяющим неким формальным "промышленным стандартам", которые для его успешной работы не обязательны?


Ну можно к аналогиям прибегнуть. Скажем хорошая, облачная модель — это такой очень быстрый мидл. Локальная модель класса 30б — это такой провинутый джун, но очень быстрый и продуктивный. Он может твою кодовую базу за час-другой осилить и что-то полезное написат. В архитектуру он будет уметь от слова никак. Но если ты сам за архитектора сработаешь или запряжешь на эту должность большую, но бесплатную модель (вроде DeepSeek v4 Pro или Gemeni 3.5 Flash из гугл-поиска), то получишь вполне себе качественный код. Хотя, возможно не с первой попытки.

Ну а код от модели 8b это примерно как код студента 1-2 курса или даже школьника. Куча детских ошибок. Часто не компилируемый. Но все же код. Не просто набор символов.

ЕМ>Так вроде ж не принято, чтоб модель держала в контексте весь проект, а с помощью агентских утилит разбирала его на части, строила описания структуры, взаимодействий и т.п., и работала с кодом иерархически?


Это в пресс-релизах и прочем булшите. Проект проекту рознь. На ГитХабе большая часть проектов мелкие. Такие можно и целиком в контекст запихать. А если это продакшон-кода, как у нашего антивируса, то никакая коммерческая модель его проглотить не может. И даже если она проглотит 1м токенов, то у нее начнутся проблемы восприятия этого дела. Современные алгоритмы внимания не позволяют эффективно с таким объемом справляться. По этому ни кто в здравом уме не запихивает огромные проекты в кэш нейрнок (это называется K/V-кэш). Выделяют подзадачи, которые уже решаются на контекстном окне в ~100K токенов.

Надо понимать, что нейронка не может как человек прочесть много кода и осмыслить его архитектурно, вычленив из него основные идеи и абстрагировавшись от ненужных деталей. Нейрнока тупо читает весь код и "помнит" его в своей кратковременной памяти (ака КВ-кэш). Выбросить из него что-то уже невозмоно. Она не может абстрактно представить себе граф классов и выкинуть прочитанные методы.

Но можно одним запуском нейронки построить текстовый файл, в котором будут вот такие абстрактные знания. И на другом запуске прочесть только этот файл и тогда нейронка сможет не засрав свой контекст мыслить о коде абстрактно.

Но это уже оптимизации. В общем, мы разные. Их преимущество в том, что они могут досконально запомнить огромный файл кода. Наше в долговременной памяти и абстрактном мышлении.

ЕМ>Само собой, но я хотел бы, чтоб модель могла проанализировать проект целиком, а не только по частям, на которые я его могу разбить для нее.


Ну всё зависит от его размера. Наш проект целиком даже очень дорогие топовые нейронки проглотить не смогу. Мелкий проект с гитхаба — могут.

Есть приёмы позволяющие работать с большими проектами. Можно запрячь отдельные сессии нейронок на анализ отдельных частей проекта и составить файл(ы) описывающие проект по частям. Ну или написать такой файл самому (что сложно и довольно бессмысленно, так как нейронки это и сами могут сделать). Такой файл будет описывать проект на высоком уровне абстракции без деталей. Так как это делают люди. Такие файлы называются AGENTS.md и скилы. AGENTS.md обычно описывает проект, а склилы описывают алгоритмы решения тех или иных задач.

ЕМ>Мне казалось, модель может извлечь из файла определение класса, объекта, функции и т.п., разобрать их все по отдельности, построить себе какие-то вспомогательные описания, и дальше уже работать с ними, поднимаясь выше по иерархии. Нет?


Нет. Так это не работает. Модель может написать высокоуровневое описание. Но чтобы его написать она будет тупо читать весь код целиком. Есть еще подход тулов. В нем модели предоставляются высокоуровневые средства изучения кодовой базы. Скажем вместо чтения огромного файла, модель может прочитать его скелет. И него она поймет какие классы, методы и т.п. находятся классе и может запросить детальную информацию о корректном классе или метода. Но это уже следующий уровень, который пока мало кто предоставляет. Что-то вроде IDE для моделей.


ЕМ>А шаблонного, рутинного кода для этого нагенерить сможет? Только саму структуру — описания ресурсов, таблицы, классы, заголовки функций, в которые я затем смогу вписать нужный код руками?


Все зависит от уровня модели. Прямая аналогия — человек на разном уровне развития и образования. Человек в 1-2 года еле-еле может отдельные слова произносить. Человек в 3-5 лет уже свободно лапочет на родном языке, но код писать, естественно, не может. Далее он идет в школу. И уже может функцию простенькую написать. Потом уже по сложнее. К 8-10 классу он уже может даже простой код писать. А к 1-2 курсу института может своять тетрис или что-то простенькое. Потом он выходит на работу и может сложные функцию писать, но пока, в архитектуру не умеет. Потом он начинает уметь проектировать, производить декомпозицию и т.п.

Вот примерно так же с модельками. Моделька класса 1-2б — это ребенок до 10 лет. 8-9б — это уже средняя школа. А 20-35б — это такой крепкпий джун с очень высокой роизводительностью. Большее можно достичь только на облачном железе. Ну или очень медленно. Крутые модели мозно запускать на процессоре с гигабайтами DDR5 но с производительностью 1-20 токнов в секунду. Причем 10-20 — это уже очень круто и стоит очень дорого (десятки килобаксов), но для реальной работы 10-20 тпс не хватает. Реальная работа начинается на агентных системах. А они жрут стотни килотокенов и требуют производительности от 20+ тпс. Комфор начинается с 50 тпс (токенов в секунду). У меня на моем железе получается 130-50 токенгов в секунду. Это комфортное написание кода. Но уровень все равно очень не высокий и ИИ нужно постоянно вести за руку к цели. Помогает многолетний опыт и чутьё.

ЕМ>Я не планирую вообще давать видеоадаптер винде. Не знаю, правда, как в этих ноутах реализован доступ к RTX — вдруг у них технически невозможно подавать туда питание, если для работы выбран встроенный адаптер, надо изучить этот вопрос.


Ну как бы, чтобы видна (или Линукс, что по фиг) не занимали VRAM нужно иметь вторую видюху. О чем я тебе и говорил. Планируешь ты или нет, но если нет второй видюхи, ты вынужден будешь на одной видюхе и ГУЙ запускать, и ЛЛМ. И они будут разделять ресурсы. Имея хотя бы встройку ты можешь освободить карту для ЛЛМ.

ЕМ>Даже если и отожрет, зачем ей столько?


Да тебя спрашивать не будут. Сраных Хром жрет под гиг VRAM. Даже если выгрузить все и оставить голую винду, минимум 1 Гиг будет отожран. А ты же вель на ноуте еще захочешь какую-нибудь VS 2026 запустить или IDEA.

ЕМ>На обычную работу с видеобуферами всегда хватало десятков-сотен мегабайт. Игры и 3D меня не интересуют.


Я не знаю, что вам там хватало. Но винда жрет минимум Гиг. Обычно не меньше двух.

ЕМ>Из рассматриваемых они все такие. Конкретно — MSI Crosshair A18 HX A8/A9, и такой же Vector.


Это десктопное железо запихнутое в ноут. Там вроде встройка не плохая. Но VRAM для серьезной модели не хватит. Все что ты сможешь получит — это легкие рефакторинги при очень точном пропте.

ЕМ>Если только для LLM, то подумаю над этим, но потом. Сейчас надо определиться с ноутбуком.


Локальный ЛЛМ на ноуте — это игрушки. В игры ты еще сможешь поиграть. Но для программирования разумнее будет подписка на облачную ЛЛМ.

ЕМ>Это само собой, но некоторые вещи я тупо не хочу отдавать сторонним сервисам.


Ну тогда разумнее не заниматься попытками впихнуть зелезо для ЛЛМ в ноут, а купить отдельный ком для этого. Лучше с серверным процессором, так как для ЛЛМ авжно количество 16х слотов PCI-E. Тогда можно будет потихоньку докупать карты с мансимальным объемом VRAM и вставлять в него. От корпуса сразу следует отказаться и покупать открытый стенд (аля майнинский фермы). Ну или сразу обзаводиться однослотовыми СЖО, чтобы катры ставить параллельно.

Минимум на что надо ориентироваться — одна 5090 23 Гб (ни в коем случае не D). Или 2 * 3090 соединённые NVlink. Если деньги позволяют лучше взять одну RTX PRO 6000 Blackwell (96 ГБ VRAM). Это будет прямо козырное решение.
Евгений Музыченко
Здравствуйте, VladD2, Вы писали:

VD>Если твоя задача перевозить грузы, то это довольно логично.


Так грузы-то бывают разными. Для кого-то "груз" начинается от нескольких кубов объема и нескольких тонн веса, а для кого-то другого это то, что нельзя перевезти на велосипеде или автобусе. В применении ИИ для программирования сейчас очень большой разброс задач, ожиданий и способов оценок, и я в них пока совершенно не ориентируюсь.

VD>Моя изначальная конфигурация — 4090 купленная для игр и 3080 Ti

VD>Когда попробовал, прослезился

Как из этого выделить объективную составляющую? Вот тут большинство ни разу не сомневается, что на имеющемся у меня ноутбуке модели 2015-го года, MS VS 2008, FrontPage 2000 и подобном софте, якобы "технически невозможно" делать продаваемые продукты, однако я их успешно делаю, и отнюдь не голодаю. Поэтому не сомневаюсь, что и с ИИ примерно так же: если что-то не работает "искаропки", или не выполняется за секунды, многие охотно объявят это "невозможным".

У Вас точно не получилось добиться ничего разумного от того железа, или Вы особо не пытались?

VD>есть "ультабукуи"


Мне нужен экран минимум 17". Возить с собой везде отдельный монитор — не вариант.

VD>На платформе AMD (Лучшие для игр)

VD>На платформе Intel (Лучшие для работы и ИИ)

Зачем тут этот шлак? Его и так в сети выше крыши.

VD>Но для программирования минимум это те самые Квены 27/35б.


Тут сразу вопрос в том, что называть "программированием". Сейчас это настолько размытое понятие, что два человека, не работающие вместе, вряд ли будут согласны с большинством утверждений друг друга. Мне надо оценить применимость к тому программированию, которым занимаюсь я сам, а не к тому, которое принято там-сям.

VD>Писать код, который можно в продакшене использовать.


Каковы его критерии?

Например, какая сложность модели нужна для того, чтобы распарсить произвольный .h-файл с определениями сишных структур (просто struct с данными, безо всяких шаблонов), и выдать таблицы формата, который я задам?

VD> Там перепаивать нужно целую плату.


Я это умею.

VD>хорошая, облачная модель — это такой очень быстрый мидл.


Вот тут меня еще очень смущает огромный разброс оценок. Одни не оценивают любые модели выше джуна, другие оценивают некоторые облачные модели, как сеньоров. Кому верить?

VD>код от модели 8b это примерно как код студента 1-2 курса или даже школьника. Куча детских ошибок. Часто не компилируемый.


А если просить ее не сочинять код, а сделать его по определенному шаблону, или из готовых примеров, которые она может найти в сети?

VD>можно одним запуском нейронки построить текстовый файл, в котором будут вот такие абстрактные знания. И на другом запуске прочесть только этот файл и тогда нейронка сможет не засрав свой контекст мыслить о коде абстрактно.


Я именно на это и рассчитывал. Но для этого модель должна обрабатывать в контексте именно весь текст проекта целиком?

VD>К 8-10 классу он уже может даже простой код писать.


Ну, я в свои 15-16 лет (9-10-й класс) сваял многопользовательскую диалоговую систему, целиком на ассемблере (на БЭСМ-6 тогда ничего более подходящего для этого не было), и не считал это чем-то исключительным — у нас многие на таком уровне работали.

VD>Моделька класса 1-2б — это ребенок до 10 лет. 8-9б — это уже средняя школа.


То есть, способности модели жестко заданы ее размером, и дообучаться в процессе работы она не может?

VD>чтобы видна (или Линукс, что по фиг) не занимали VRAM нужно иметь вторую видюху.


Дык, встроенный адаптер в рассматриваемых ноутбуках есть всегда. Меня только смущает, что процесс переключения с одного на другой выполняется через обязательное выключение ноутбука (EC его сам выключает), и соответствующий адаптер задействуется сразу при включении. Поэтому может оказаться, что там видеоадаптеры аппаратно завязаны друг на друга, и работа дискретного "внутри себя" технически невозможна.

VD>Сраных Хром жрет под гиг VRAM.


Он же не сам жрет, а запрашивает у ОС, которая, в свою очередь, запрашивает у драйвера. Возможность это ограничить, слава богу, есть всегда, разве что не всегда доступна через штатный системный гуй.

VD>ты же вель на ноуте еще захочешь какую-нибудь VS 2026 запустить или IDEA.


VS 2026 еще не скоро захочу. Максимум — VS 2019, и то ненадолго.

VD>винда жрет минимум Гиг.


Чисто технически, ей оно совершенно незачем. Сильно подозреваю, что это как со своп-файлом. По умолчанию — несколько гигов, но нетрудно отломать полностью.

VD>Локальный ЛЛМ на ноуте — это игрушки. В игры ты еще сможешь поиграть.


Смогу, но не захочу.
VladD2
VladD2 Как заранее оценить применимость/производительность ж
21.06.2026 12:04
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Так грузы-то бывают разными. Для кого-то "груз" начинается от нескольких кубов объема и нескольких тонн веса, а для кого-то другого это то, что нельзя перевезти на велосипеде или автобусе. В применении ИИ для программирования сейчас очень большой разброс задач, ожиданий и способов оценок, и я в них пока совершенно не ориентируюсь.


Все верно. Грузы бывают разные. И ты свой обозначил — программирование. Это "газельки" (ну фургончик по вашему) не потянут. На самом деле чудо, что 1-2 топовые игровые карты вообще на это способны! Радоваться надо, что хоть так! Следующий уровень просто не достижим для простых смертных.

ЕМ>Как из этого выделить объективную составляющую? Вот тут большинство ни разу не сомневается, что на имеющемся у меня ноутбуке модели 2015-го года, MS VS 2008, FrontPage 2000 и подобном софте, якобы "технически невозможно" делать продаваемые продукты, однако я их успешно делаю, и отнюдь не голодаю.


А кто сомневается? Я писал код на IBM PC 286 с 1 Мб RAM. VS 2008 конечно морально устарела, но с Quick C она ни в какое сравнение не идёт!

Стал бы я использовать VS 2008 в 2026 году? Конечно — нет. Можно на этом старте написать что-то путное? Несомненно!

На счёт "не голодаю" тут есть некоторые сомнения. Люди которые не голодают не жмутся на покупку железа. У меня вот домашний комп значительно мощнее рабочего, хотя он собран позже домашнего.

ЕМ>Поэтому не сомневаюсь, что и с ИИ примерно так же: если что-то не работает "искаропки", или не выполняется за секунды, многие охотно объявят это "невозможным".


С ИИ все просто. ИИ скорее аналогичны не компьютерам, а животным. Вот ты же не будешь спорить, что не каждый человек способен программировать?

Вот за способность программировать отвечают какие-то участки мозга. Если они не развиты, человек или вообще не способен программировать, или способен очень плохо. Если бы можно было вырезать эти участки и взвесить, можно было бы сказать, что у программиста эти участки весят 150 г. а у слесаря 15 г.

Но в мозг кошки физически не может влезть не только абстрактное мышление, но и даже способность говорить. Мозг кошки это примерно 256К нейронов, в то время как мозг человека ~16М.

Вот та же фигня с ЛЛМ. ЛЛМ на 1-2b это такая продвинутая шимпанзе. Уже не кошка, но ещё не человек. Скорее ребенок. 8-9b это уже подросток. А 20-39b это уже взрослый человек с умениями.

ЕМ>У Вас точно не получилось добиться ничего разумного от того железа, или Вы особо не пытались?


Можно ли добиться рабочего кода от третикласкюника?

ЕМ>Мне нужен экран минимум 17". Возить с собой везде отдельный монитор — не вариант.


Экран никак не связан с видеокартой. Современные встройки тянут 4К без проблем.

У меня рабочий ноут имеет 13" и работает на дохлой встройки от Интел. Но я к нему подключаю два монитора. 1 — 4К, другой 2К. Из минусов — не тянут 130 Гц и HDR.

ЕМ>Зачем тут этот шлак? Его и так в сети выше крыши.


А ты хотел, чтобы я тебе такую фигню руками писал? Это ответ многомиллиардной нейронки от Гугла. Прикинь, что тебе твоя 7-8b варит вместо кода?

ЕМ>Тут сразу вопрос в том, что называть "программированием". Сейчас это настолько размытое понятие, что два человека, не работающие вместе, вряд ли будут согласны с большинством утверждений друг друга. Мне надо оценить применимость к тому программированию, которым занимаюсь я сам, а не к тому, которое принято там-сям.


Ну да. Кому и кобыла — невеста. ©

ЕМ>Каковы его критерии?


— Компилируется.
— Работает.
— Соответствует требованиям.

ЕМ>Например, какая сложность модели нужна для того, чтобы распарсить произвольный .h-файл с определениями сишных структур (просто struct с данными, безо всяких шаблонов), и выдать таблицы формата, который я задам?


Я тебе уже ответил на все эти вопросы. Получить осмысленный код на C++ от моделей ниже 20b не реально. Модель 8b что-то способна написать, но использовать её для реальной разработки не получится. Максимум какие-то простые правки.

ЕМ>Я это умею.


Ну тогда вперёд. Покупай паяльный фен, тушки плат, чипы памяти и БУ 4090. На выходе баксов 100-200 сэкономить.

ЕМ>Вот тут меня еще очень смущает огромный разброс оценок. Одни не оценивают любые модели выше джуна, другие оценивают некоторые облачные модели, как сеньоров. Кому верить?


Ну оценки вообще вещь такая.

ЕМ>А если просить ее не сочинять код, а сделать его по определенному шаблону, или из готовых примеров, которые она может найти в сети?


Тут просить бесполезно. Попроси кошку написать Войну и мир. Как думаешь, что будет?

И надо понимать, что это люди понимают сочиняют они что-то или точно знают. Если Квкна-35б спросить, знает ли он песню Цоя Группа крови на рукаве, та скорее всего скажет — да! Но при попытке процитировать она просто придумает какую-то хрень. А ДипСик процитируем ее слово в слово. Но обе они будут уверены, что процитировали песню правильно. Это называется галлюцинации. Чем тупее модель, тем сложнее ей отличить свои выдумки от реальности. Причём выдумки могут быть очень похожи на правду.

Если ты попробуешь разобраться в алгоритмах используемых при обучении нейросетей, то поймёшь, что эти выдумки архитектурно предопределены.

Нейронка предсказывает наиболее вероятное слово. Очень большая нейронка делает это как очень умный человек. А тупая на 8б как идиот.

ЕМ>Я именно на это и рассчитывал. Но для этого модель должна обрабатывать в контексте именно весь текст проекта целиком?


Нет. Ты тоже так не делаешь. Есть автономные подобласти. Скажем логин на сайт не связан с отправкой ответа. Обе задачи можно рассматривать отдельно.

Именно так мы, люди, боремся со сложностью. И точно также можно уменьшать контекст для нейронки.

ЕМ>Ну, я в свои 15-16 лет (9-10-й класс) сваял многопользовательскую диалоговую систему, целиком на ассемблере (на БЭСМ-6 тогда ничего более подходящего для этого не было), и не считал это чем-то исключительным — у нас многие на таком уровне работали.


Ну вот и модель 8б тебе сваяет диалоговую систему, целиком на ассемблере вместо сайта.

ЕМ>То есть, способности модели жестко заданы ее размером, и дообучаться в процессе работы она не может?


Не жестко. Размер это ближе к классу. Внутри одного класса есть дебилы и умнички. Причём в разных областях одна модель может быть лучше другой. Вот AVK тут хвалил Gemma 4 26b, а моя практика показывает, что она тупа как пробка. Возможно дело в доменах применения. Даже я заметил, что русский Геммы лучше русского Квена.

Но в целом размер — это как класс. Скажем самый посредственный болид формулы 1 будет все равно лучше чем самый крутой седан. Вот и тут так же.

Среди моделей 7-9б есть выдающиеся экземпляры, но выше класса не прыгнешь. Модель на 1 триллион параметров будет несравнимо умнее. Хотя в своем классе она может быть посредственностью.

Модели Qwen3.6-27/35b тем и интересны, что они показывают уровень сравнимый только с куда более огромными моделями имеющими на два порядка больше параметров.

ЕМ>Дык, встроенный адаптер в рассматриваемых ноутбуках есть всегда. Меня только смущает, что процесс переключения с одного на другой выполняется через обязательное выключение ноутбука (EC его сам выключает), и соответствующий адаптер задействуется сразу при включении. Поэтому может оказаться, что там видеоадаптеры аппаратно завязаны друг на друга, и работа дискретного "внутри себя" технически невозможна.


Это нормально. Встройки выключается в БИОС.

ЕМ>Он же не сам жрет, а запрашивает у ОС, которая, в свою очередь, запрашивает у драйвера. Возможность это ограничить, слава богу, есть всегда, разве что не всегда доступна через штатный системный гуй.


Есть возможность выключить у Хрома 3Д-функции. Но это сделает его тормозом. Если ОС не даст ему ресурсов, он не сможет отрисоваться.

ЕМ>VS 2026 еще не скоро захочу. Максимум — VS 2019, и то ненадолго.


Да какая разница с точки зрения потребления VRAM?

Начиная с версии Visual Studio 2010 используется 3D ускорение. Твоя 2008 это последний из могикан, что жил на GDI.

ЕМ>Чисто технически, ей оно совершенно незачем. Сильно подозреваю, что это как со своп-файлом. По умолчанию — несколько гигов, но нетрудно отломать полностью.


Ну можешь это ей рассказать.

ЕМ>Смогу, но не захочу.


Ну тогда покупать ноут с 5080- смысла не имеет.

Возьми дешёвый со встройкой, а оставшиеся деньги потрать на подписку или на железо для локального ЛЛМ.

А вообще ты в каких то дремучих веках застрял. VS 2008. Это скоро будет 20 лет.
Евгений Музыченко
Евгений Музыченко Как заранее оценить применимость/производительность железа для LLM?
21.06.2026 08:20
Здравствуйте, VladD2, Вы писали:

VD>Люди которые не голодают не жмутся на покупку железа.


Я не хочу переплачивать не потому, что у меня нет денег, или что их сложно выделить. Я тупо не люблю платить за то, что мне совершенно, абсолютно, на хер не упало, чем я не собираюсь пользоваться вообще, но при этом оно составляет существенную (треть, а то и половину) стоимости того, что я покупаю. Ну бесит меня это. Я б охотно заплатил столько же за дополнительные ништяки, которыми смогу воспользоваться, но не предлагают.

VD>ИИ скорее аналогичны не компьютерам, а животным.


Вот поэтому я пока и не могу сообразить, где я мог бы применить ИИ с реальной пользой, и оцениваю исключительно "на вырост". Единственное, что пока подходит — это переводы документации, но для этого годится любая облачная модель.

VD>за способность программировать отвечают какие-то участки мозга.


Не само по себе наличие этих участков, а их структура, взаимосвязи между собой и т.п. Поэтому пытаюсь понять, насколько LLM адаптивны в этом плане, но тоже сложно, в теме слишком много мусора и хайпа.

VD>Мозг кошки это примерно 256К нейронов, в то время как мозг человека ~16М.


Угу, с точностью до трех с половиной порядков.

VD>Можно ли добиться рабочего кода от третикласкюника?


Легко. Я видел примеры, на достаточно высоком уровне. Но то были не среднестатистические третьеклассники.

VD>А ты хотел, чтобы я тебе такую фигню руками писал?


Я хотел, чтоб ее вообще никто не писал.

VD>Это ответ многомиллиардной нейронки от Гугла. Прикинь, что тебе твоя 7-8b варит вместо кода?


Которая еще непонятно, как обучена. Ведь про применимость локальных моделей 7-8b для работы с кодом мне сообщила, в том числе, и она. Вот что у них всех быстро растет с ростом сложности, так это способность к фантазированию.

VD>Щакупай паяльные фен.


У меня гораздо больше инструментов и принадлежностей для пайки, а также навыков в этой сфере, чем Вы себе представляете.

VD>Встройки выключается в БИОС.


В моем нынешнем ноутбуке MSI GT72S вообще нет управления видеосистемой в BIOS — только из ОС через драйверы платформы.

VD>Есть возможность выключить у Хрома 3Д-функции. Но это сделает его тормозом. Если ОС не даст ему ресурсов, он не сможет отрисоваться.


Не понял. На кой Хрому 3D для отрисовки текста, плоских картинок и рамочек? И где он их берет в системах, где видео вообще не поддерживает 3D? Откуда Вы вообще это взяли?

VD>какая разница с точки зрения потребления VRAM?


Такая, что при моей типовой работе VRAM вообще не нужна, кроме как для видеобуфера, для чего достаточно нескольких десятков мегабайт.

VD>Начиная с версии Visual Studio 2010 используется 3D ускорение.


Возможно, оно и используется для какой-то продвинутой анимации (которую я всегда отключаю первым делом), но даже в VS 2019 никакое ускорение не требуется для обычной работы, GDI ей достаточно по уши. У Вас явно ложные сведения.

VD>вообще ты в каких то дремучих веках застрял. VS 2008. Это скоро будет 20 лет.


Да хоть пятьдесят. Мне по барабану, меня новизна и свежесть, как таковые, сами по себе, не привлекают. Как только увижу в новых VS что-нибудь, ради чего стоит терпеть их развесистость и тормоза — так сразу и перейду. Пока не видел.
VladD2
VladD2
24.06.2026 03:03
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>В моем нынешнем ноутбуке MSI GT72S вообще нет управления видеосистемой в BIOS — только из ОС через драйверы платформы.


1. У тебя есть специальная кнопка на корпусе переключающая платы.

2. Зажми клавиш: правый Ctrl + правый Shift + левый Alt + F2 находясь в БИОСе и увидишь специальную закладку с настройками видюх.
Pauel
Pauel
24.06.2026 08:40
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>В моем нынешнем ноутбуке MSI GT72S вообще нет управления видеосистемой в BIOS — только из ОС через драйверы платформы.


Зачем вы вообще держитесь за 4кг шумного горячего старья которое сольёт почти любому дешманскому офисному ноуту по всем параметрам. По нынешним меркам там дохлая память, дохлый проц, и все остальное примерно такое же.

Если вам не нужна дикая видюха, они чрезмерно дорогие и заточены под узкие кейсы типа игр, то вопрос выбора вообще не стоит — через интернет вам привезут именно то, что надо.
fk0
fk0
21.06.2026 10:28
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Мне нужен экран минимум 17". Возить с собой везде отдельный монитор — не вариант.


Не морочь голову. Ноутбук -- это терминал. Покупай долгоработающий и с удобной клавиатурой.
Софты на нём же запускать не будешь, дурость это. Это надо на сервер идти. Нужен ли
свой сервер -- пожалуй да. Дешевле аренды. Свой сервер с GPU -- платить за токены дешевле...


VD>>Но для программирования минимум это те самые Квены 27/35б.

ЕМ>Тут сразу вопрос в том, что называть "программированием". Сейчас это настолько размытое понятие, что два человека, не работающие вместе, вряд ли будут согласны с большинством утверждений друг друга. Мне надо оценить применимость к тому программированию, которым занимаюсь я сам, а не к тому, которое принято там-сям.

Заплати за токены, попользуйся AI за деньги и оцени каково оно.
Восторг от мелких моделей (вроде Qwen) он совершенно напрасный. Они могут больше твоего времени
потратить, чем что-то дать. Да, они ТУПЫЕ. А большие жутко медленные и их тоже может понести куда-то не туда.
Но по крайней мере при чётко поставленных условиях они способны довести работу до финала.
Помимо интеллекта модели, важно насколько она способна решать долгие задачи, в сотни шагов
(написать код, скомпилировать, исправить ошибки, написать тесты, запустить, увидеть что падают
отладить, переписать код, и так в цикле). Мелкие модели не способны, они вообще для автономной
работы не годятся. Большие -- кое-как.

ЕМ>Например, какая сложность модели нужна для того, чтобы распарсить произвольный .h-файл с определениями сишных структур (просто struct с данными, безо всяких шаблонов), и выдать таблицы формата, который я задам?


Вот потому я и говорю -- заплати и токены и попробуй вначале. Надо самомут попробовать
и видеть каково оно. Модель как человек, её грузить задачами мол вот тебе 100500 элементов,
запиши их в таблицу и ничего не перепутай -- бесполезно. Обязательно перепутает. В лучшем
случае она тебе напишет программу, и потом сделает всё это программой.

А вообще для .h файлов нужен какой-то harness в агенте. В большинстве агентов модели даётся
голый баш, и дальше ебашь как хочешь. Подход в принципе даже работающий. Где-то даются тулы для
поиска в коде (на базе tree sitter, на базе clang language server, на базе ctags). Получается
получше, чем голым грепом. Но увы, эта сфера только развивается, хороших решений нет совсем.
Я от безысходности делал свой редактор и поисковик для модели, вызывались из командной строки
через баш. С редактором особенно много сложностей. В современных агентах во всех оно через
пень-колоду решено. Особенно призываю бояться Cline. OpenCode или Goose -- кое-как работают.
И не надо стремиться к IDE с моделью и редактором -- это главная ошибка. Редактор вообще нужен
отдельный и скорей не нужен. В агенте нужен только чат, консолька нужна отдельная, git diff
посмотреть (в консольном агенте можно Ctrl-Z нажать...) Потому, что большинство задач будет
делаться самой моделью. Зачем я буду сам билд запускать, например. Нужно чтоб агентом был
удобно пользоваться, удобно логи смотреть, чтоб к нему MCP или плагины подключались, чтоб
он не глючил, чтоб базовые функции (шелл, редактор) работали без сбоев (а не как в Cline).

ЕМ>Вот тут меня еще очень смущает огромный разброс оценок. Одни не оценивают любые модели выше джуна, другие оценивают некоторые облачные модели, как сеньоров. Кому верить?


Они не "джуны". Они мыслят совершенно по другому. Но мелкие (Qwen32) слишком слабы,
нет смысла тратить свои усилия на них. С ними можно прийти, что они тебе 80% работы
сделают, а оставшиеся 20 никогда не смогут. И ты не сможешь в нагенерированных макаронах
разобраться.

ЕМ>А если просить ее не сочинять код, а сделать его по определенному шаблону, или из готовых примеров, которые она может найти в сети?


Попробуй сам. С большой и с маленькой. Через платного провайдера. Вопросы быстро отпадут.

VD>>можно одним запуском нейронки построить текстовый файл, в котором будут вот такие абстрактные знания. И на другом запуске прочесть только этот файл и тогда нейронка сможет не засрав свой контекст мыслить о коде абстрактно.


ЕМ>Я именно на это и рассчитывал. Но для этого модель должна обрабатывать в контексте именно весь текст проекта целиком?


Для этого нужен 1млн контекста которого нет у мелких моделей.
Некоторые агенты добавляют RAG, когда модель за знаниями лазает в некоторую БД, но получается так себе.
Модели плохо научены на это. Они башем и грепом лучше могут справляться.

ЕМ>То есть, способности модели жестко заданы ее размером, и дообучаться в процессе работы она не может?


Разумеется! У ней каждый новый "чат" -- это день сурка.
Евгений Музыченко
Здравствуйте, fk0, Вы писали:

fk0>Ноутбук -- это терминал. Покупай долгоработающий и с удобной клавиатурой. Софты на нём же запускать не будешь, дурость это. Это надо на сервер идти.


Не рассматривается вообще. Понимаете ли, не везде в мире есть скоростной и абсолютно стабильный интернет с доступом куда угодно.

fk0>Нужен ли свой сервер -- пожалуй да.


Возить его с собой тоже хочу.

fk0>Модель как человек, её грузить задачами мол вот тебе 100500 элементов, запиши их в таблицу и ничего не перепутай -- бесполезно. Обязательно перепутает.


Если она не может делать лучше, чем средний работник, то диапазон применения конкретно у меня сужается еще больше.

fk0>не надо стремиться к IDE с моделью и редактором -- это главная ошибка.


Боже упаси. IDE мне нужен только для навигации по коду и удобной отладки.
fk0
fk0
21.06.2026 09:30
Здравствуйте, Евгений Музыченко, Вы писали:

fk0>>Ноутбук -- это терминал. Покупай долгоработающий и с удобной клавиатурой. Софты на нём же запускать не будешь, дурость это. Это надо на сервер идти.


ЕМ>Не рассматривается вообще. Понимаете ли, не везде в мире есть скоростной и абсолютно стабильный интернет с доступом куда угодно.


У вас что, тоже белые списки? Казалось бы хуже чем у нас уже быть не может.

fk0>>Нужен ли свой сервер -- пожалуй да.

ЕМ>Возить его с собой тоже хочу.

Зачем его возить. Я себе слабо представляю как работать без инета.
Ну там может stackoverflow подсмотреть, или документацию. Если этого нет,
то работать кажется невозможно. А если есть, то наверное и ssh/vpn/etc
можно как-то настроить.
paucity
paucity
21.06.2026 10:30
Здравствуйте, Евгений Музыченко, Вы писали:

fk0>>Ноутбук -- это терминал. Покупай долгоработающий и с удобной клавиатурой. Софты на нём же запускать не будешь, дурость это. Это надо на сервер идти.


ЕМ>Не рассматривается вообще. Понимаете ли, не везде в мире есть скоростной и абсолютно стабильный интернет с доступом куда угодно.


Неужели во Франции все так плохо с инетом что rdp (или альтернативы) не будет работает?
Pauel
Pauel
24.06.2026 08:46
Здравствуйте, Евгений Музыченко, Вы писали:

fk0>>Нужен ли свой сервер -- пожалуй да.


ЕМ>Возить его с собой тоже хочу.


Хотите возить — вот странно, как вы свой чемодан на 4кг возите.

Вот, как раз для вас. Можно возить, можно модельки запускать. 128гб памяти, небольшой вес итд.
https://www.asus.com/us/displays-desktops/mini-pcs/proart-mini-pc-series/proart-mini-pc/

К нему добавить легкий ноут-терминал и всё. Можно дома его воткнуть, и просто коннектиться к нему.

В вашей общие инет есть то? Или ездите в соседний город настрочить пару сообщений на рсдн?
Stanislaw K
Stanislaw K
20.06.2026 09:05
Здравствуйте, Евгений Музыченко, Вы писали:

VD>>Лучше не покупать ноуты вообще.


ЕМ>Ну да, и легковые автомобили не покупать — сразу грузовики.


Тем не менее Полезная Мысль в этом есть: можно оставить текущий (любой) ноутбук, а (любые) желаемые NPU подключать внешние по Thunderbolt

например так:

https://www.amazon.com/Maskedfish-Thunderbolt-Compatible-Decklink-Enclosure/dp/B0F6MQHFGL
Nuzhny
Nuzhny
20.06.2026 07:15
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Ноут мне не для ИИ, а для работы. "Дискретным" видеоадаптером я вообще никогда не пользуюсь, но каждый раз вынужден за него платить, ибо мощных ноутов с большим экраном без них почему-то не делают.


Вообще делают, в прошлых темах тебе советовали: у Dell, у Lenovo есть версии, которые можно кастомизировать, в том числе убирать видеокарту.
В целом, поддержу уже высказавшихся: на ноуте запустить ничего хорошего не получится, а если получится — будет медленно.

Если тебе нужна LLM только для того, чтобы понять, нужна ли она тебе, то можно взять проект с Гитхаба похожего размера и натравить на него облачную LLM. Если окажется полезным, то купить для LLM, как советовали выше, что-то типа DGX Spark или аналог от АМД: будет компактно, легко перевозится, не требует монитора/клавитуры/мыши.
SkyDance
SkyDance
24.06.2026 04:31
VD>Ну или не валяй дурака и просто купи подписку на облачный сервис.

Подтверждаю рекомендацию. Во-первых, это обойдется дешевле (хотя бы по затратам на электричество), во-вторых, скорость и качество будут на порядок выше.
Pauel
Pauel
24.06.2026 05:57
Здравствуйте, SkyDance, Вы писали:

SD>Подтверждаю рекомендацию. Во-первых, это обойдется дешевле (хотя бы по затратам на электричество), во-вторых, скорость и качество будут на порядок выше.


Не, у коллеги всё особенное — у него байты должны быть округлой формы.
_ilya_
_ilya_ Как заранее оценить применимость/производительность желе
19.06.2026 08:53
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>В общем, как, имея примерный набор ожиданий, можно оценить, какие модели и какое железо для него потребны? А то, может, и 8 Гб по уши хватит, а может, и от 12 никакого толку не будет.


Посоветую юзать подписки на модели, они пока сильно дешевле железа — демпинг. Полноценное железо типа RTX 6000 pro подорожало на днях аж в 2 раза, и там вообще-то нужна не одна карта... Чего-то могут модели от 27B, меньшие — скорее только не под общие задачи но только с rag будет работать для конкретной тупой задачи, код 8B будут бредовый генерить.
bobby23
bobby23 Как заранее оценить применимость/производительность желе
20.06.2026 09:28
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Научите заранее, без натурных экспериментов, оценивать применимость того или иного железа к работе на нем локальной LLM, возможности и производительность получаемого ИИ.






ЕМ>Еще хочу, чтоб оно писало на определенном диалекте C++ (например, MS VC++ 15.x) и в определенном стиле, который сам задам. Это возможно?


ЕМ>В общем, как, имея примерный набор ожиданий, можно оценить, какие модели и какое железо для него потребны? А то, может, и 8 Гб по уши хватит, а может, и от 12 никакого толку не будет.


амд выпустила мини пс с толи 96гб или 128 гб встроеной памяти для зауска локальных моделей за 3600 уе, может лучше такое взять? или нвидию спарк, за 4+ тыс уе
velkin
velkin
20.06.2026 10:13
Здравствуйте, bobby23, Вы писали:

B>или нвидию спарк, за 4+ тыс уе


Вот это кстати интересная тема. Надо посмотреть обзоры, когда выйдут. Хотя покупать такое на любителя. По сути все следующие топовые поколения ноутбуков должны поддерживать нейронки со 128гб совмещённой памятью. А дальше будут просто добавлять ещё больше памяти доя покупателей. На игроков же забили болт с рейтрейсингом и прочим. Но хоть памяти больше.
pva
pva
20.06.2026 11:24
Здравствуйте, velkin, Вы писали:

V>Вот это кстати интересная тема. Надо посмотреть обзоры, когда выйдут.

Какие тебе обзоры нужны? Давай я тебе обозрю. Для qwen-35b вполне приемлемая машинка, хоть и с натягом. В остальном у меня к ней достаточно претензий чтобы использовать подписку пока не выйдет более зрелый продукт.
VladD2
VladD2
21.06.2026 12:15
Здравствуйте, pva, Вы писали:

pva>Какие тебе обзоры нужны? Давай я тебе обозрю. Для qwen-35b вполне приемлемая машинка, хоть и с натягом. В остальном у меня к ней достаточно претензий чтобы использовать подписку пока не выйдет более зрелый продукт.


Давай будем честными. За эти деньги можно взять 5090 или 4090 с 48 Гб. Это будет существенно быстрее. Спарк — игрушка просто из-за DDR4.
VladD2
VladD2 Как заранее оценить применимость/производительность ж
21.06.2026 12:13
Здравствуйте, velkin, Вы писали:

V>Вот это кстати интересная тема. Надо посмотреть обзоры, когда выйдут. Хотя покупать такое на любителя. По сути все следующие топовые поколения ноутбуков должны поддерживать нейронки со 128гб совмещённой памятью. А дальше будут просто добавлять ещё больше памяти доя покупателей. На игроков же забили болт с рейтрейсингом и прочим. Но хоть памяти больше.


Не работает это. Нельзя на DDR4 получить приемлемую производительность. Для кодинга нужны агентные среды. Им нуде быстрый (тысячи tos) промпт процессинг ака префил. Все это говно, что от АМД, что Спарк на порядок медленнее. Без видюх это пока — баловство. Вот если RAM будет DDR7, и скорость вырастет до 1Tb / сек., можно будет о чем-то говорить. А пока 2 * 3090 рулит и по деньгам и по скорости.
VladD2
VladD2 Как заранее оценить применимость/производительность ж
21.06.2026 12:08
Здравствуйте, bobby23, Вы писали:

B>амд выпустила мини пс с толи 96гб или 128 гб встроеной памяти для зауска локальных моделей за 3600 уе, может лучше такое взять? или нвидию спарк, за 4+ тыс уе


Спарк и есть мини ПК. DDR4 — приговор производительности. Не выбрасывай деньги. 5090 и то полезнее.
_ilya_
_ilya_ Как заранее оценить применимость/производительность желе
21.06.2026 08:52
Здравствуйте, VladD2, Вы писали:

VD>Здравствуйте, bobby23, Вы писали:


B>>амд выпустила мини пс с толи 96гб или 128 гб встроеной памяти для зауска локальных моделей за 3600 уе, может лучше такое взять? или нвидию спарк, за 4+ тыс уе


VD>Спарк и есть мини ПК. DDR4 — приговор производительности. Не выбрасывай к деньги.5080 и то полезнее.


Скорее неинтересно из-за ограниченного объема памяти. Пусть медленно, но запускать большие модели на TB памяти — не в реалтайме, а например на ночь. От спарка с кучей DIMM слотов DDR4 я бы не отказался. Даже 8 каналов на Epyc с DDR4 на сокет — медленно но работает. Большая модель глючит в разы меньше и знает больше, чем 30B. Большие модели скорее недостаточно много данных запихнули при обучении и они с сжатием до 4 бит скорее норм работают, мелкие если еще и сжимать то теряют заметно. Т.е. скорее даже 512GB спарк был бы норм.
pva
pva
21.06.2026 09:19
Здравствуйте, _ilya_, Вы писали:

__>Скорее неинтересно из-за ограниченного объема памяти. Пусть медленно, но запускать большие модели на TB памяти — не в реалтайме, а например на ночь. От спарка с кучей DIMM слотов DDR4 я бы не отказался. Даже 8 каналов на Epyc с DDR4 на сокет — медленно но работает. Большая модель глючит в разы меньше и знает больше, чем 30B. Большие модели скорее недостаточно много данных запихнули при обучении и они с сжатием до 4 бит скорее норм работают, мелкие если еще и сжимать то теряют заметно. Т.е. скорее даже 512GB спарк был бы норм.

Спарк это LPDDR5 и они стекаются без проблем в любом количестве (народ вполне 8 штук стекает). Правда там скоростной кабелек стоит как половина спарка. Но тормозная память все равно не удобна.
AlexMld
AlexMld
21.06.2026 09:38
Здравствуйте, _ilya_, Вы писали:

VD>>Спарк и есть мини ПК. DDR4 — приговор производительности. Не выбрасывай к деньги.5080 и то полезнее.


__>Скорее неинтересно из-за ограниченного объема памяти. Пусть медленно, но запускать большие модели на TB памяти — не в реалтайме, а например на ночь. От спарка с кучей DIMM слотов DDR4 я бы не отказался. Даже 8 каналов на Epyc с DDR4 на сокет — медленно но работает. Большая модель глючит в разы меньше и знает больше, чем 30B. Большие модели скорее недостаточно много данных запихнули при обучении и они с сжатием до 4 бит скорее норм работают, мелкие если еще и сжимать то теряют заметно. Т.е. скорее даже 512GB спарк был бы норм.



Их, вроде, можно соединять между собой (этакий аналог NVLink). Strix Halo народ тоже соединяет, например, фото из отзыва с Озон:
https://ir.ozone.ru/s3/rp-photo-12/wc1600/d7578ff3-68c9-490b-9976-c49df3eda742.jpeg


Менее ужатая версия DeepSeek-V4-Flash на двух Strix Halo (256 Gb) набирает 90% в SWEBench-verified-mini (проходит 45 тестов из 50), а та, что умещается в один (128 Gb) — 76% (38 / 50) при той же скорости (за счет двух APU). Для сравнения, Qwen 3.6-35B-A3B UD-Q8_K_XL выдает 66% (33 / 50), но в 3-4 раза быстрее.
https://pi-local-coding-bench.dev/
VladD2
VladD2
24.06.2026 06:31
Здравствуйте, AlexMld, Вы писали:

AM>Менее ужатая версия DeepSeek-V4-Flash на двух Strix Halo (256 Gb) набирает 90% в SWEBench-verified-mini (проходит 45 тестов из 50), а та, что умещается в один (128 Gb) — 76% (38 / 50) при той же скорости (за счет двух APU). Для сравнения, Qwen 3.6-35B-A3B UD-Q8_K_XL выдает 66% (33 / 50), но в 3-4 раза быстрее.

AM>https://pi-local-coding-bench.dev/

Ага. Только не для реальной работы, а для пенесометрии.

https://rsdn.org/forum/ai/9104786.1

Медленно это. Медленное соединение еще больше замедляет. А учитывая, что Ввкны3.6 не так уж сильно отстают, выходит, что они куда лучшее решение.

Ну или надо все таки покупать подписку. Тот же DeepSeek V4 Flash в облаках летает.
VladD2
VladD2
24.06.2026 06:27
Здравствуйте, _ilya_, Вы писали:

__>Скорее неинтересно из-за ограниченного объема памяти.


ТАБЛИЦА 1. Качество работы моделей в автономных агентных сценариях


Метрика / Бенчмарк Qwen3.5-122B-A10B (MoE, 122B) Qwen3.6-35B-A3B (MoE, 35B) Qwen3.5-397B-A17B (MoE, 397B) DeepSeek-V4-Flash (MoE, 284B / Max Think)
SWE-bench Verified (Фикс реальных багов) 72.0% 73.4% 76.2% 79.0%
SWE-bench Multilingual (Баги на C++, C# и др.) 67.2% 67.2% 69.3% 76.2%
SWE-bench Pro (Задачи повышенной сложности) 49.5% 49.5% 50.9% 55.4%
Terminal-Bench 2.0 (Работа в CLI-терминале) 41.6% 51.5% 52.5% 64.8%
Claw-Eval Avg (Интеграция в агентные среды) 65.4% 68.7% 70.7% 72.1%
NL2Repo (Сборка структуры кода из ТЗ) 20.5% 29.4% 32.2% 34.9%
QwenClawBench / Toolathlon (Вызовы tool use) 47.7% 52.6% 51.8% 51.4%
Выводы по качеству:
  1. Феномен DeepSeek-V4-Flash в режиме Think Max. В режиме максимального бюджета скрытых рассуждений (Long CoT) эта модель (всего 13 млрд активных параметров на токен) обходит по автономности тяжеленный флагман Qwen3.5-397B. На мультиязычном тесте (где сидят C++ и C#) она лидирует с результатом 76.2%, а в CLI-консоли (Terminal-Bench) выдает рекордные 64.8%, реже всего зацикливая агентские сессии.
  2. Архитектурный прыжок Qwen 3.6. Компактная Qwen3.6-35B-A3B (3 млрд активных параметров) полностью уничтожает старую 122B-модель предыдущего поколения и дышит в затылок гиганту 397B. При этом в чистом тесте на вызовы инструментов (QwenClawBench) она берет топ-1 (52.6%) за счет архитектуры DeltaNet — она быстрее и точнее интерпретирует сиюминутные аргументы функций.

ТАБЛИЦА 2. Скорость инференса на локальном железе (Prompt Processing / Generation)


Метрики указаны для начала контекстного окна в формате: Скорость обработки контекста (PP, т/с) / Скорость генерации (TG, т/с)

Модель Формат / Вес Железо (GPU / Конфигурация стенда) Prompt Processing, т/с Generation (TG), т/с Технический вердикт и утилизация памяти
Qwen3.6-35B-A3B Q8_0 (~38 ГБ) 1 × RTX 4090 48GB (Перепайка) ~7 500 ~140 Ультимативный идеал. Модель в одном чипе, ПСП 1 ТБ/с. Код пишется мгновенно.
Qwen3.6-35B-A3B Q8_0 (~38 ГБ) RTX 4090 + RTX 3090Ti (48 ГБ VRAM) ~7 000 ~130 Реальный тест автора. Отличный рабочий сетап. Скорость генерации феноменальная.
Qwen3.6-35B-A3B Q8_0 (~38 ГБ) 2 × RTX 4090 (48 ГБ VRAM) ~7 200 ~135 Чуть быстрее за счет одинаковых чипов Ada, но разница с 3090Ti минимальна.
Qwen3.6-35B-A3B Q8_0 (~38 ГБ) 2 × RTX 3090Ti (48 ГБ VRAM) ~5 400 ~100 Превосходный риг. Скорость генерации все еще выше психологического барьера в 90 т/с.
Qwen3.6-35B-A3B Q8_0 (~38 ГБ) 2 × RTX 3090 (48 ГБ VRAM) ~5 200 ~95 Народный б/у вариант. Отлично тянет локального агента в честном Q8.
Qwen3.6-35B-A3B NVFP4 (~18 ГБ) 1 × RTX 5090 (32 ГБ GDDR7) ~14 200 ~155 Космическая скорость PP за счет аппаратного NVFP4 в Blackwell. Но под KV-cache мало места.
Qwen3.6-35B-A3B FP8 (~36 ГБ) 2 × RTX 5090 (64 ГБ GDDR7 / Блэквелл) ~16 500 ~190 Избыточный монстр. Скорость дикая, но переплата по сравнению с прошлым поколением огромна.
Qwen3.6-35B-A3B Q4_K_M (~22 ГБ) AMD Strix Halo (96/128 ГБ LPDDR5X) ~1 800 ~55 Потолок для ноутбучных "комбайнов". Медленнее дискретных видеокарт. Для работы душно.
Qwen3.6-35B-A3B Q4_K_M (~22 ГБ) NVIDIA RTX Spark (128 ГБ LPDDR5X) ~1 400 ~38 Маркетинговая игрушка. Узкая шина памяти LPDDR5X жестко душит инференс.
DeepSeek-V4-Flash NVFP4 (~150 ГБ) AMD Strix Halo (128 ГБ версия + Своп) ~90 ~4 Нереализуемо для работы. Модель заводится с диким оффлоадом. 4 токена/сек — это смерть для агента.
DeepSeek-V4-Flash NVFP4 (~150 ГБ) NVIDIA RTX Spark (128 ГБ LPDDR5X) -- -- Не запустится на одной ноде. Чистый вес FP4-модели превышает весь физический объем распаянной памяти SoC.
DeepSeek-V4-Flash NVFP4 (~150 ГБ) NVIDIA RTX Spark Dual-Node (256 ГБ) ~2 100 ~28 Слишком медленно. Спаренный ARM-комбайн тянет веса целиком в памяти, но ПСП шины выдает жалкие 28 т/с.
DeepSeek-V4-Flash NVFP4 (~150 ГБ) 3 × RTX 5090 (96 ГБ VRAM Blackwell) ~6 100 ~70 Минимум, чтобы запустить эту махину целиком в VRAM в FP4. Стоимость рига запредельная.
Разбор полетов для тех, кто верит в маркетинг "унифицированной памяти" ноутбуков:

  1. Физика шины против терафлопсов. Почему перепаянная одиночная 4090 48GB или десктопный сетап
    4090 + 3090Ti
    выдают сумасшедшие 130–140 токенов в секунду, а хваленые SoC Spark и Strix Halo плетутся в хвосте (~38–55 т/с)? Всё упирается в пропускную способность памяти (ПСП). Дискретная видеокарта на GDDR6X/GDDR7 дает от 1000 до 1800 ГБ/с. Мобильные комбайны сидят на LPDDR5X, где потолок — 432 ГБ/с у Strix Halo и около 320 ГБ/с у Spark. Выше физики не прыгнешь, встроенная графика никогда не догонит дискретку.
  2. Попытка запустить DeepSeek на Strix Halo или Spark — это мазохизм. Да, теоретически за счет больших объемов унифицированной памяти туда можно "запихать" 284-миллиардный DeepSeek V4 Flash в нативном кванте NVFP4 (на Spark для этого вообще потребуется городить огород из спаренной Dual-Node на 256 Гб). Но ПСП LPDDR5X абсолютно не справляется с прокачкой такой массы весов. Результат — от 4 до 28 токенов в секунду на генерации. Агент в OpenCode будет выполнять одну итерацию "правка-компиляция" бесконечно долго. Это пригодно только для скриншотов в Твиттере, но не для коммерческого девелопмента.
  3. Экономический тупик "следующего уровня". Чтобы получить чистый, быстрый инференс моделей крупнее, чем Qwen 35B (например, того же DeepSeek V4 Flash), вам потребуется риг минимум из трех карт RTX 5090 (чтобы получить 96 ГБ на новейшей Blackwell архитектуре с поддержкой NVFP4). Стоимость такого системного блока улетит в космос. При этом, как мы видели по бенчмаркам качества (Таблица 1), DeepSeek V4 Flash дает 79% на SWE-bench против 73.4% у Qwen 3.6-35B. Стоит ли прирост в 5.6% качества пятикратной переплаты за железо? Очевидно, что нет.

Вывод:
Если ваша цель — построить эффективную локальную среду для агентного программирования на C++ / C#, то Qwen3.6-35B-A3B в связке с б/у или новыми игровыми GPU (с суммарным объемом VRAM от 48 Гб) — это лучшее решение на рынке по соотношению цена/скорость. Все эти Стриксы и Спарки хороши в портативных консолях или тонких ноутбуках, чтобы запустить локальную "читалку" текста, но для сурового системного кодинга они неприменимы аппаратно.

__>Пусть медленно, но запускать большие модели на TB памяти — не в реалтайме, а например на ночь. От спарка с кучей DIMM слотов DDR4 я бы не отказался. Даже 8 каналов на Epyc с DDR4 на сокет — медленно но работает. Большая модель глючит в разы меньше и знает больше, чем 30B. Большие модели скорее недостаточно много данных запихнули при обучении и они с сжатием до 4 бит скорее норм работают, мелкие если еще и сжимать то теряют заметно. Т.е. скорее даже 512GB спарк был бы норм.


Не работает так. Нельзя запустить модель, уйти и надеяться на то, что сутра чудесным образом все само заработает. Так только большие коммерческие модели могут и то с натяжкой.

В реальности ты постоянно взаимодействуешь с моделью и проверяешь, что она там наговнокодила. И когда она работает быстро тебе не нужно ждать ночами. Ты можешь за чаем отойти и уже все сделано. Главное, чтобы цели были обозримые и проверяемые.
AlexMld
AlexMld Как заранее оценить применимость/производительность ж
24.06.2026 08:19
Здравствуйте, VladD2, Вы писали:

VD>

Qwen3.6-35B-A3B Q4_K_M (~22 ГБ) AMD Strix Halo (96/128 ГБ LPDDR5X) ~1 800 ~55 Потолок для ноутбучных "комбайнов". Медленнее дискретных видеокарт. Для работы душно.
DeepSeek-V4-Flash NVFP4 (~150 ГБ) AMD Strix Halo (128 ГБ версия + Своп) ~90 ~4 Нереализуемо для работы. Модель заводится с диким оффлоадом. 4 токена/сек — это смерть для агента.
Если тебя не гипотетические, а реальные цифры инересуют, то Qwen3.6-35B-A3B-UD-Q4_K_XL на данный момент выдает 75.7 t/s.
https://kyuz0.github.io/amd-strix-halo-toolboxes/mtp.html

А 128 Гб DeepSeek от 12 до 14 t/s
https://kyuz0.github.io/strix-halo-ds4-toolbox/

Понятно, что DeepSeek медленный, но в некоторых ситуациях удобнее за 20 минут получить модуль, который проходит 90% тестов, чем за 5 минут модуль, который проходит 66% тестов, но потом тратишь больше времени на доводку. Ну вот на железках с унифицированной памятью доступна теперь и такая опция. Хочешь — пользуешься, не хочешь — не пользуешься

Но ты себя уже, похоже, убедил, что только твой вариант работоспособный.
Ты пал жертвой “motivated skepticism”: the tendency to look for arguments against conclusions you don’t like, but not against ones you do like.
VladD2
VladD2
24.06.2026 11:22
Здравствуйте, AlexMld, Вы писали:

AM>Если тебя не гипотетические, а реальные цифры инересуют, то Qwen3.6-35B-A3B-UD-Q4_K_XL на данный момент выдает 75.7 t/s.


Ты немного задолбал повторять одну и ту же глупость. Давай я тебе последний раз отвечу и ты больше это сюда носить не будешь.

1. Q4_K_XL — это исходно боле тупая версия из-за квантования. Т.е. уже компромисс.
2. MTP — это странный размен ускорения генерации токенов за счет резкого замедления PP. А на агентных задачах скорее важнее PP, так как нужно файлы читать и выхлоп от тулов.
3. Ну и это примерно в три раза медленее чем 4090 и наверно раз 5 медленнее чем 5090. При этом примерно за те же деньги.

Т.е. реально на Q8_0 без MTP ты получишь ~20 tps в начале окна и совсем неприемлемые 2-5 в конце 256К окна.

Даже получив вот эти 75 tps с MTP + Q4_K_XL ты получаешь PP на уровне ~1000 tps, что в 8 раз медленнее чем на 4090. И дальше ты грустишь глядя на то как твой дорогой сетап жует сопли вместо работы.

А вот эти вот мнимые большие модели вообще становятся невыносимо медленными. А квена более чем достаточно игровых видюх на которых он летает.

AM>Понятно, что DeepSeek медленный, но в некоторых ситуациях удобнее за 20 минут получить модуль, который проходит 90% тестов, чем за 5 минут модуль, который проходит 66% тестов, но потом тратишь больше времени на доводку. Ну вот на железках с унифицированной памятью доступна теперь и такая опция. Хочешь — пользуешься, не хочешь — не пользуешься


Ну что ты пытаешься доказать? Ну страдай фигнё. Выкинь кучу денег и получи тормоза на отупленных от квантования моделях.

AM>Но ты себя уже, похоже, убедил, что только твой вариант работоспособный.

AM>Ты пал жертвой “motivated skepticism”: the tendency to look for arguments against conclusions you don’t like, but not against ones you do like.

Я физику в школе учил. И понимаю, что для быстрой работы нужна пропускная способность памяти и быстрые CUDA-ядра, которых в ваших игрушках нет.

Для Q4_K_XL на фиг не сдались 128 Гб RAM. Она полностью влезает в 24 Гб 3090 и будет работать быстрее чем на Стриксе. И это за 60-70 тыр против 300 тыр.

За 300 тыр можно взять 4090 с 48 Гб рам на которых Q8_0 будет летать на скорости 150 tps на инференсе и 7000-8000 на PP.
AlexMld
AlexMld
25.06.2026 07:33
Здравствуйте, VladD2, Вы писали:

VD>Здравствуйте, AlexMld, Вы писали:


VD>1. Q4_K_XL — это исходно боле тупая версия из-за квантования. Т.е. уже компромисс.


В своей таблице у тебя Q4_K_M, я тебе дал реальные данные для близкой квантизации Q4_K_XL из независимого источника. Q4_K_XL — не более тупая, а менее тупая, чем Q4_K_M. Потому что часть весов в ней менее ужата.
https://unsloth.ai/docs/~gitbook/image?url=https%3A%2F%2F3215535692-files.gitbook.io%2F%7E%2Ffiles%2Fv0%2Fb%2Fgitbook-x-prod.appspot.com%2Fo%2Fspaces%252FxhOjnexMCB3dmuQFQ2Zq%252Fuploads%252FHq98A18pHA2ePwlInrFG%252Fqwen36_mean_q6k_corrected_arrow_pareto_fixed.png%3Falt%3Dmedia%26token%3Da5190c8a-4d04-4d4d-be94-dd15214e6687&width=768&dpr=3&quality=100&sign=d0938e2f&sv=2

Я лично Q4 не пользуюсь, это ты взял Q4.


VD>2. MTP — это странный размен ускорения генерации токенов за счет резкого замедления PP. А на агентных задачах скорее важнее PP, так как нужно файлы читать и выхлоп от тулов.


MTP реально ускоряет работу, полный цикл проходит быстрее в разы. Т.е. от отправки запроса до получения результата проходит в разы меньше времени. Может, в твоем сетапе это не работает, но это не значитт, что у всех так, как у тебя.


VD>3. Ну и это примерно в три раза медленее чем 4090 и наверно раз 5 медленнее чем 5090. При этом примерно за те же деньги.


Так я не спорю, что медленнее. Но 4090 и 5090 это гораздо меньше памяти за большие деньги. Одна карта стоит дороже всего компьютера Strix Halo. А это полноценный компьютер с материнкой, процессором, 128 Гб памяти, SSD, блоком питания, сетевухой, WiFi, USB, конроллерами устройств и т.п., это не видеокарта, к которой еще нужен и компьютер в довесок. А карты дороже, и их надо несколько. И не все модели идут. До Qwen 3.6 я использовал Qwen 3.5 122B-A10B, она рулила. И она не влезет в 5090. Постоянно выходят модели разных размеров, не все они такие компактные, как 35B-A3B. Может, я когда нибудь накоплю на какую-нибудь 5090 и подсоединю ее ко всему этому. А может возьму второй Halo. Я мыслю открыто.


VD>Т.е. реально на Q8_0 без MTP ты получишь ~20 tps в начале окна и совсем неприемлемые 2-5 в конце 256К окна.


Это опять твои фантазии. Реально Qwen3.6-35B-A3B Q8 идет в районе 70 t/s. С MTP, нафига без MTP. Только я 35B не пользуюсь, она немного тупит на моих задачах. В моих задачах 27B и 122B дают результаты получше.
velkin
velkin Как заранее оценить применимость/производительность железа для LLM?
20.06.2026 09:53
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Вот я сейчас пытаюсь понять, какой ноутбук купить


Возможно, что никакой.

Я никогда с этим дел не имел, но серверные видюшки от NVidia с большим объёмом памяти не зря стоят конских денег.

Против них в потребительском сегменте читал только про две технологии на ноутбуках.
1. Apple MacBook Pro чего-то там от 128гб и выше совместимой памяти.
2. AMD Strix Halo опять же ноуты от 128гб и выше совместимой памяти.

Причём действительно может быть выше. Но AMD вроде как в процессе наращивания производства, а Apple с архитектурой и операционкой на любителя.

Потому я и пишу, что никакой. Подумай, вот купишь ты сейчас обычный условно игровой ноутбук. А дальше что?
Евгений Музыченко
Здравствуйте, velkin, Вы писали:

V>вот купишь ты сейчас обычный условно игровой ноутбук. А дальше что?


Дальше, как минимум, буду делать на нем то же самое, что делаю сейчас на старом. Процессор, по крайней мере, будет раза в полтора быстрее (хотя меня и производительность старого практически не жмет).

Просто пока цены на эти ноутбуки почти не растут, а что дальше будет — хз.
velkin
velkin
20.06.2026 10:54
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Просто пока цены на эти ноутбуки почти не растут, а что дальше будет — хз.


Я читал новости, что производители оперативной памяти нарастят производство в течении трёх лет. В топике условно насчитали три технологии llm-ных ноутбуков, где главный ориентир совмещённая память от 128гб. Но у AMD ещё и привычная архитектура, не как у Apple и NVidia. Впрочем последние говорят побыстрее AMD.

Я так понял ноуты Apple можно купить хоть сейчас. Ноуты AMD вроде как есть, да только их ещё надо найти. А NVidia на подходе, но на мой взгляд архитектура процессора такое себе.

Вот я в поиске гугл ии набрал:
ноутбук amd strix halo 128гб

Ноутбуки на базе архитектуры AMD Strix Halo (официально выпускаются под брендом Ryzen AI Max 300) с объемом унифицированной памяти 128 ГБ — это революционные мобильные рабочие станции, ориентированные на локальный запуск тяжелых нейросетей (LLM) и сложную 3D-графику без использования дискретной видеокарты. [1, 2, 3, 4, 5]
Главная особенность конфигурации на 128 ГБ LPDDR5X-8000 — это широкая 256-битная шина. Через BIOS (функция Variable Graphics Memory) вы можете выделить до 96 ГБ под видеопамять (VRAM). Это позволяет запускать локальные языковые модели уровня 30B–70B прямо в памяти ноутбука, что недоступно ни одной мобильной видеокарте от Nvidia (у RTX 4090 Mobile всего 16 ГБ VRAM). [4, 5, 6, 7, 8, 9]
## 📑 Актуальные ноутбуки со Strix Halo и 128 ГБ RAM
На рынке представлено несколько ключевых моделей от ведущих брендов:

* ASUS ProArt PX13 GoPro Edition — 13-дюймовый трансформер для создателей контента. Флагманская конфигурация оснащается топовым процессором Ryzen AI Max+ 395 (16 ядер Zen 5, графика Radeon 8060S с 40 вычислительными блоками) и 128 ГБ распаянной памяти LPDDR5X. [10, 11]
* HP OmniBook Ultra / Elite (Серия AI Max) — профессиональные бизнес-ноутбуки, доступные в официальном магазине [HP Store](https://www.hp.com/us-en/shop/vwa/laptops/proc=AMD-Ryzen-AI-Max&mem=128-GB) в кастомных конфигурациях со 128 ГБ ОЗУ. [12, 13]
* NIMO Axis — специализированный 15-дюймовый ИИ-ноутбук от независимого бренда стоимостью от $2799. Создан специально для разработчиков под Linux/Windows для локального инференса нейросетей. [14, 15]

------------------------------
## 🛍️ Другие форм-факторы с этим железом
Если форм-фактор классического лэптопа не критичен, платформа Strix Halo на 128 ГБ также доступна в виде сверхмощных ультракомпактных ПК:

* Официальный мини-ПК AMD Ryzen AI Halo Dev Kit — эталонная ИИ-станция от самой AMD для разработчиков, поставляется с Windows 11 Pro или Linux и 2 ТБ SSD по цене $3999. Доступна к заказу на крупных зарубежных площадках. [16]
* Acemagic M1A Pro+ / FEVM FA-EX9 — производительные китайские мини-ПК на чипе Max+ 395 со 128 ГБ памяти. За счет отсутствия экрана и батареи стоят значительно дешевле ноутбуков и уже встречаются у импортеров на Яндекс Маркете и Ozon. [17, 18, 19]

Если вы подбираете устройство для конкретных задач, расскажите: какие программы или нейросети (LLM) планируете запускать и критична ли для вас автономность/размер экрана? Это поможет выбрать идеальную модель.

[1] [https://www.amd.com](https://www.amd.com/en/products/processors/desktops/ryzen/ryzen-ai-halo.html)
[2] [https://www.geekom.au](https://www.geekom.au/amd-strix-halo-mini-pc/)
[3] [https://www.tomshardware.com](https://www.tomshardware.com/pc-components/cpus/amds-beastly-strix-halo-ryzen-ai-max-debuts-with-radical-new-memory-tech-to-feed-rdna-3-5-graphics-and-zen-5-cpu-cores)
[4] [https://club.dns-shop.ru](https://club.dns-shop.ru/digest/138198-amd-prodemonstrirovala-arhitekturu-strix-halo-moschnogo-gibridno/)
[5] [https://petronellatech.com](https://petronellatech.com/hardware/amd-strix-halo-ai/)
[6] [https://www.reddit.com](https://www.reddit.com/r/LocalLLaMA/comments/1qj0s5d/picked_up_a_128_gib_strix_halo_laptop_what_coding/?tl=ru)
[7] [https://www.amd.com](https://www.amd.com/en/products/processors/laptop/ryzen/ai-300-series/amd-ryzen-ai-max-plus-395.html)
[8] [https://claude.ai](https://claude.ai/public/artifacts/73041856-ee10-4caf-b8ff-8c1d3a298ae0)
[9] [https://www.amd.com](https://www.amd.com/en/blogs/2025/amd-ryzen-ai-max-395-processor-breakthrough-ai-.html)
[10] [https://www.reddit.com](https://www.reddit.com/r/hardware/comments/1rg0i5j/amd_strix_halo_128_gb_ram_in_a_13inch_convertible/)
[11] [https://www.ultrabookreview.com](https://www.ultrabookreview.com/74193-asus-strix-halo-laptops-proart-tuf/)
[12] [https://www.hp.com](https://www.hp.com/us-en/shop/vwa/laptops/proc=AMD-Ryzen-AI-Max&stor=128-GB)
[13] [https://www.hp.com](https://www.hp.com/us-en/shop/vwa/laptops/proc=AMD-Ryzen-AI-Max&mem=128-GB)
[14] [https://www.reddit.com](https://www.reddit.com/r/LocalLLM/comments/1u7ldec/ryzen_ai_max_395_128gb_laptop_our_axis_2799_what/)
[15] [https://www.amd.com](https://www.amd.com/en/blogs/2026/amd-ryzen-ai-max-ai-pcs-deliver-exceptional-intelligence.html)
[16] [https://www.techpowerup.com](https://www.techpowerup.com/349943/pre-orders-for-usd-4000-amd-ryzen-ai-halo-mini-pc-dev-kits-go-live)
[17] [https://market.yandex.ru](https://market.yandex.ru/card/szbox-fevm-fa-ex9-mini-pk-ryzen-ai-max-395-strix-halo-8060s-gpu-128-gb-lpddr5x-128gb-1tb-fevm-fa-ex9-eu/4714411531)
[18] [https://www.notebookcheck-ru.com](https://www.notebookcheck-ru.com/AMD-Ryzen-AI-Max-395-s-128-GB-OZU-v-kube-Acemagic-M1A-Pro-zabiraet-tron-proizvoditelnosti-sredi-mini-PK.1249038.0.html)
[19] [https://www.ozon.ru](https://www.ozon.ru/product/amd-mini-pk-amd-ryzen-ai-max-395-ram-128-gb-amd-radeon-windows-11-pro-serebristyy-2239637732/)


Вышло несколько моделей.

Например.
ASUS ProArt PX13 GoPro Edition

Следующий запрос:
ASUS ProArt PX13 GoPro Edition llm скорость

Скорость работы больших языковых моделей (LLM) на ноутбуке ASUS ProArt PX13 GoPro Edition (модификация HN7306 на базе процессоров AMD Ryzen AI Max+ 395 серии Strix Halo) является одной из самых высоких в классе ультрабуков благодаря объединенной памяти LPDDR5X-8000 объемом до 128 ГБ. [1, 2]
Скорость генерации текста (токен/сек) напрямую зависит от используемого чипа и выбранного способа запуска.
## 📊 Реальная скорость генерации (на примере Llama-3 8B Q4_K_M)
При запуске через оптимизированные локальные движки (llama.cpp с поддержкой ROCm/Vulkan или NVIDIA TensorRT-LLM) скорость составляет:

* На встроенной графике / NPU (Strix Halo APU): ~35–45 токенов в секунду. За счет унифицированной памяти LPDDR5X с огромной пропускной способностью встроенное графическое ядро Radeon не упирается в «бутылочное горлышко» обычной памяти, выдавая скорость уровня десктопных решений.
* На дискретной видеокарте (NVIDIA RTX 4060/4070): ~45–55 токенов в секунду. Модели до 7–8 млрд параметров полностью помещаются в 8 ГБ видеопамяти (VRAM), гарантируя максимальный отклик.
* Процессорный NPU (AMD XDNA 2): Выдает фиксированные 50 TOPS вычислительной мощности. При работе через специализированные фреймворки (например, LM Studio с аппаратным ускорением AMD) энергопотребление минимально, а скорость держится в районе 15–20 токенов в секунду. [1, 2]

------------------------------
## 📑 Скорость работы моделей разного размера (GGUF Q4)
Основное преимущество версии со 128 ГБ ОЗУ — это возможность запускать тяжелые LLM, которые физически не способны работать на обычных ноутбуках: [1, 3]

| Размер модели | Пример модели | Локация модели в системе | Скорость (примерная) |
|---|---|---|---|
| 3B — 8B | Llama-3 8B, Phi-3 | Полностью в VRAM (RTX GPU) | 45+ ток/сек (очень быстро) |
| 14B — 32B | Qwen-2.5 32B, Mistral | Распределено между GPU и ОЗУ | 18–25 ток/сек (комфортно для чтения) |
| 70B+ | Llama-3 70B | Полностью в объединенной ОЗУ | 5–9 ток/сек (неторопливо, но полностью автономно) |

------------------------------
## 💡 Ключевые факторы производительности

1. Унифицированная память (Unified Memory): До 128 ГБ памяти со скоростью 8000 МГц позволяют использовать под нужды контекста LLM гигантские объемы данных без жесткого ограничения в 6–8 ГБ стандартной видеопамяти. [2, 3]
2. Двойное ускорение: Для легких моделей и чат-ботов «на каждый день» лучше использовать дискретную графику RTX. Для тяжелых моделей от 32B и выше — задействовать общую память процессора AMD через библиотеки Vulkan/ROCm. [4]
3. Ограничение по TGP: Так как корпус PX13 ультракомпактный (13 дюймов), при длительной генерации больших объемов текста ноутбук может снижать частоты из-за нагрева. Рекомендуется включать «Производительный» (Performance/Manual) режим в утилите Armoury Crate / ProArt Creator Hub. [5]

Если вы планируете запускать модели локально, рекомендуется использовать сборки llama.cpp с поддержкой ROCm для архитектуры AMD, чтобы выжать максимум из доступных 128 ГБ оперативной памяти. [4]
Если вы хотите оптимизировать конкретную модель, уточните: какой размер модели (в миллиардах параметров) вы планируете использовать чаще всего и какой софт (Ollama, LM Studio или чистый python) планируете настроить?

[1] [https://ru.microless.com](https://ru.microless.com/product/asus-proart-px13-gopro-edition-copilot-laptop-13-3-3k-oled-touch-display-amd-ryzen-ai-max-395-128gb-ram-1tb-ssd-amd-radeon-graphics-english-arabic-k-b-win11-nano-black-90nb17x2-m002b0/)
[2] [https://me-en.store.asus.com](https://me-en.store.asus.com/90nb17x1-m003y0-proart-px13-hn7306-copilot-pc.html)
[3] [https://www.asus.com](https://www.asus.com/ru/laptops/for-creators/proart/proart-gopro-edition-px13-hn7306/techspec/)
[4] [https://www.reddit.com](https://www.reddit.com/r/LocalLLaMA/comments/1sjl3so/llm_on_the_go_testing_25_model_150_benchmarks_for/)
[5] [https://www.ultrabookreview.com](https://www.ultrabookreview.com/72323-asus-proart-px13-review/)


Обычный обзор.
Обзор Asus ProArt PX13 GoPro Edition: компактная ракета для видеомонтажа

Основные идеи
Компактная мобильная станция с мощностью уровня десктопа
128 ГБ ОЗУ и мощный GPU дают огромный запас для монтажа и ИИ-задач
OLED-экран качественный, но ограничен 60 Гц
Высокая цена и средняя автономность делают его нишевым решением


Сам делай выводы. Я просто к тому, что появляются новые устройства. Я бы вообще ноутбук не менял если работает, потому что следующее поколение это как минимум прорыв в памяти и llm.
Евгений Музыченко
Здравствуйте, velkin, Вы писали:

V>Я читал новости, что производители оперативной памяти нарастят производство в течении трёх лет.


Понятно, что нарастят, да и спрос, скорее всего, упадет. Но я уже который год пытаюсь поменять рабочий ноутбук, и каждый раз какая-нибудь засада.

V>ноуты Apple можно купить хоть сейчас.


Мне пока критична винда.

V>Ноутбуки на базе архитектуры AMD Strix Halo (официально выпускаются под брендом Ryzen AI Max 300) с объемом унифицированной памяти 128 ГБ — это революционные мобильные рабочие станции, ориентированные на локальный запуск тяжелых нейросетей (LLM) и сложную 3D-графику без использования дискретной видеокарты.


Очень не люблю эпитетов "революционный", "инновационный" и подобных в приложении к технике. Их очень активно рекламируют, пытаясь любой ценой продать побольше, пока не вскрылись неудобные подробности (а они есть всегда). Посмотреть со стороны могу, но для себя предпочитаю устоявшиеся решения.

V>Если форм-фактор классического лэптопа не критичен, платформа Strix Halo на 128 ГБ также доступна в виде сверхмощных ультракомпактных ПК:


Сам форм-фактор не критичен, критична возможность возить это в самолете, и не в отдельном чемодане с доплатой за страховку.

V>Я бы вообще ноутбук не менял если работает, потому что следующее поколение это как минимум прорыв в памяти и llm.


Да у них, что ни поколение, то "прорыв", устал уже.
velkin
velkin Как заранее оценить применимость/производительность ж
20.06.2026 11:25
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Да у них, что ни поколение, то "прорыв", устал уже.


Справедливости ради это действительно прорыв в автономных нейронках. Просто AMD в будущем обещает поднять совмещённую память до 512гб. Ну и цены поползут вниз на старые решения, но не скоро.
VladD2
VladD2
24.06.2026 11:25
Здравствуйте, velkin, Вы писали:

V>Справедливости ради это действительно прорыв в автономных нейронках. Просто AMD в будущем обещает поднять совмещённую память до 512гб. Ну и цены поползут вниз на старые решения, но не скоро.


Это самообман. Замнуха для просторов. Возможность запустить и возможность комфортно использовать — это разные вещи.
VladD2
VladD2
21.06.2026 12:32
Здравствуйте ии набрал:


V>Ноутбуки на базе архитектуры AMD Strix Halo (официально выпускаются под брендом Ryzen AI Max 300) с объемом унифицированной памяти 128 ГБ — это революционные мобильные рабочие станции, ориентированные на локальный запуск тяжелых нейросетей (LLM) и сложную 3D-графику без использования дискретной видеокарты. [


Давай я тебе объясню в чем эта революция заключается.

Ты действительно сможешь запустить большую ЛЛМ которую не сможешь запустить на игровых видюхах

НО она будет выдавать тебе черепашки скорость в ЕДЕНИЦЫ tps. Сраный Спарк выдаст 20 tps.

Это выброшенные деньги. Маркетинговый развод.

Датацентры не зря покупают B200, а не Стриквы и Спарки.

Не ведитесь на маркетинг. Для кодинга нужны агентные системы. Для них нужна производительность > 3000 tps на аромат процессинга и > 70 tps на инференсе. Все что ниже — шлак.

А это значит, что вам нужны видеокарты как минимум 3-го поколения Nvidia.

2 * 3090 — это минимум. Или 5080 или 4090 48 Гб.


Альтернатив на сегодня нет!

И мы должны молиться за Алибабу, так как они подарили миркюу столь эффективные модели Qwen3.6!
AlexMld
AlexMld
21.06.2026 03:58
Здравствуйте, VladD2, Вы писали:

VD>НО она будет выдавать тебе черепашки скорость в ЕДЕНИЦЫ tps. Сраный Спарк выдаст 20 tps.


Ты слишком категоричен в своих суждениях. Strix Halo на твоей любимой Qwen3.6-35B-A3B в среднем выдает порядка 75 t/s, что вполне юзабельно
https://kyuz0.github.io/amd-strix-halo-toolboxes/mtp.html

Спарк, со своим NVIDIA GB10 Grace Blackwell Superchip, возможно еще быстрее.

Плюс, они позволяют запускать более крупные модели типа Qwen 122b и квантов DeepSeek-V4-Flash, которые превосходят более мелкие квеновские модели
https://pi-local-coding-bench.dev/

К тому же, APU типа Strix Halo — это мобильные процессоры, т.е. как раз для ноутбуков они и разрабатывались.
VladD2
VladD2
23.06.2026 09:04
Здравствуйте, AlexMld, Вы писали:

AM>Ты слишком категоричен в своих суждениях. Strix Halo на твоей любимой Qwen3.6-35B-A3B в среднем выдает порядка 75 t/s, что вполне юзабельно

AM>https://kyuz0.github.io/amd-strix-halo-toolboxes/mtp.html

Это в начале контекста. И это MTP. И это Q4_K_XL. Но с MTP есть один секрет. Протмпт-процессинг (PP) при MTP резко замедляется. А в агнетных сценариях как PP является самым важным. Поставь туда нормальный квант, убери MTP и будет где-то 20-30 tps в начале окна и никуда не годные 10 в конце.

AM>Спарк, со своим NVIDIA GB10 Grace Blackwell Superchip, возможно еще быстрее.


Не может быть на DDR4 сильно быстрее. Strix конечно медленнее чем Спарк. Но не тотально.

AM>Плюс, они позволяют запускать более крупные модели типа Qwen 122b и квантов DeepSeek-V4-Flash, которые превосходят более мелкие квеновские модели

AM>https://pi-local-coding-bench.dev/

Там вообще уже неприемлемая скорость будет.

AM>К тому же, APU типа Strix Halo — это мобильные процессоры, т.е. как раз для ноутбуков они и разрабатывались.


Ну купи себе это говно и мучайся. Кто мешает то? Погляди на свою ссылку. На тормозном AMD R9700 их тест шел 5 мин. На всем остальном от 17 до 46 минут. Т.е. вменяемой видюхе этот тест пройдем за 2-3 минуты. Хочется ждать в 10-30 раз дольше? Вперед!
AlexMld
AlexMld Как заранее оценить применимость/производительность ж
23.06.2026 10:53
Здравствуйте, VladD2, Вы писали:

AM>>https://pi-local-coding-bench.dev/


AM>>К тому же, APU типа Strix Halo — это мобильные процессоры, т.е. как раз для ноутбуков они и разрабатывались.


VD>Ну купи себе это говно и мучайся. Кто мешает то? Погляди на свою ссылку. На тормозном AMD R9700 их тест шел 5 мин. На всем остальном от 17 до 46 минут. Т.е. вменяемой видюхе этот тест пройдем за 2-3 минуты. Хочется ждать в 10-30 раз дольше? Вперед!


Где ты там 46 минут увидел? Там таких цифр нет. Твоя любимая модель Qwen 3.6-35B-A3B в Q8 на Strix Halo 6 минут 28 секунд.

А те, что дольше — это более серьезные модели, какой смысл тебе с ними сравнивать, если в твою видеокарту они просто не влезают.

Ну да, квантованая DeepSeek-V4-Flash работала 21m 26s, но она и прошла 76% тестов, в отличии от 66% у Qwen 3.6-35B-A3B

P.S. А, увидел, какая там 46 минут. Видимо, новый тест. Но эт GLM-5.2 на 256 Gb, это, мне кажется, чисто для референса, на 256 Gb вон DeepSeek-V4-Flash и быстрее и лучше, 90% за 21 мин.
AlexMld
AlexMld
24.06.2026 03:39
Здравствуйте, VladD2, Вы писали:

AM>>Спарк, со своим NVIDIA GB10 Grace Blackwell Superchip, возможно еще быстрее.


VD>Не может быть на DDR4 сильно быстрее. Strix конечно медленнее чем Спарк. Но не тотально.


С чего, кстати, ты взял, что у Спарк DDR4? Там LPDDR5X, как и у Strix.
VladD2
VladD2
21.06.2026 12:21
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Дальше, как минимум, буду делать на нем то же самое, что делаю сейчас на старом. Процессор, по крайней мере, будет раза в полтора быстрее (хотя меня и производительность старого практически не жмет).


ЕМ>Просто пока цены на эти ноутбуки почти не растут, а что дальше будет — хз.


Зачем искать от бобра добра? Потрать бабки на Клода. Он тебе за $4 килобакса не мало хорошего кода напишет. А сайты идущие на твоём допотопном железе у клиентов летать будут.
Евгений Музыченко
Здравствуйте, VladD2, Вы писали:

VD>Потрать бабки на Клода. Он тебе за $4 килобакса не мало хорошего кода напишет.


Какого, например? Вот конкретно сейчас мне нужен код, который корректно справляется с некоторыми многолетними багами винды, о которых, судя по всему, кроме меня, никто не знает (в интернете не встречал упоминаний). При этом я сам не знаю, как здесь определить "корректность". В чем мне мог бы помочь Клод?
bobby23
bobby23
21.06.2026 08:33
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Здравствуйте, VladD2, Вы писали:


VD>>Потрать бабки на Клода. Он тебе за $4 килобакса не мало хорошего кода напишет.


ЕМ>Какого, например? Вот конкретно сейчас мне нужен код, который корректно справляется с некоторыми многолетними багами винды, о которых, судя по всему, кроме меня, никто не знает (в интернете не встречал упоминаний). При этом я сам не знаю, как здесь определить "корректность". В чем мне мог бы помочь Клод?


может поиграть с мс баунти? если баги полезны для хакинга то можно нарубить много много зеленых фантиков
Евгений Музыченко
Здравствуйте, bobby23, Вы писали:

B>если баги полезны для хакинга


Те баги, что встречаются мне, вообще ни для чего не полезны.
fk0
fk0
21.06.2026 10:32
Здравствуйте, Евгений Музыченко, Вы писали:

VD>>Потрать бабки на Клода. Он тебе за $4 килобакса не мало хорошего кода напишет.


ЕМ>Какого, например? Вот конкретно сейчас мне нужен код, который корректно справляется с некоторыми многолетними багами винды, о которых, судя по всему, кроме меня, никто не знает (в интернете не встречал упоминаний). При этом я сам не знаю, как здесь определить "корректность". В чем мне мог бы помочь Клод?


Если ему дать нужные инструменты (возможность читать/писать код, компилировать, запускать код,
отлаживать или получать какие-то логи), наставить на верный путь и запустить работу -- может и даст.
Сожрав кучу денег. Большинство агентов из коробки дают только работус текстовыми файлми и шелл.
Дальше нужны скрипты, инструкции модели как делать то или это. От тебя уже. И подход вполне
работает. Идея в том, что конечно ИИ не не волшебный оракул, всего не знает, но он может работать
ну примерно как человек. Пробовать, пытаться, делать какие-то выводы. И зачастую он много
скурпулёзнее человека, способен разобраться в баге по каким-то обрывкам лога, когда я бы давно
плюнул уже.
VladD2
VladD2
24.06.2026 11:48
Здравствуйте, fk0, Вы писали:

fk0>скурпулёзнее человека, способен разобраться в баге по каким-то обрывкам лога, когда я бы давно

fk0>плюнул уже.

Вот тут ты гонишь. Хотя, наверно, от человека зависит и от модели. В целом человек может решать проблемы, которые ЛЛМ не под силу. Но ЛЛМ намного быстрее и действительно из коробки очень многое знают. Задача человека качественно ставить задачу и следить, чтобы ЛЛМ делала то, что нужно, а не страдала хернёй. Ну и результат проверять.
VladD2
VladD2
23.06.2026 09:14
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>справляется с некоторыми многолетними багами винды, о которых, судя по всему, кроме меня, никто не знает


Ой, всё! С этой ересью не ко мне. Особенный ты наш.
Pauel
Pauel
24.06.2026 08:28
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Какого, например? Вот конкретно сейчас мне нужен код, который корректно справляется с некоторыми многолетними багами винды, о которых, судя по всему, кроме меня, никто не знает (в интернете не встречал упоминаний). При этом я сам не знаю, как здесь определить "корректность". В чем мне мог бы помочь Клод?


Какой процент таких задач у вас? Есть у вас внятный ответ?

Знаете багу — подкидываете это в доку, клод её прочитает и будет в курсе дел. И дальше он будет писать код с учетом такой баги.
Не знаете — клод поможет идентифицировать,трассировать, и понаписывать код что бы обернуть/купировать/итд. И дальше он будет писать код с учетом такой баги.
Евгений Музыченко
Здравствуйте, Pauel, Вы писали:

P>Какой процент таких задач у вас?


БОльшая часть, которая требует исследований, экспериментов, поиска обходных путей и т.п.

P>Знаете багу — подкидываете это в доку, клод её прочитает и будет в курсе дел. И дальше он будет писать код с учетом такой баги.


Гы. Хотел бы посмотреть, как ваш клод напишет код "с учетом" бага в ядре или системной службы.

P>Не знаете — клод поможет идентифицировать,трассировать, и понаписывать код что бы обернуть/купировать/итд. И дальше он будет писать код с учетом такой баги.


Ну-ну.
Pauel
Pauel
24.06.2026 05:42
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>БОльшая часть, которая требует исследований, экспериментов, поиска обходных путей и т.п.


И все здесь всё надо именно руками писать, ага. Исследование, эксперименты, обходные пути — здесь всё равно полно рутины.

P>>Знаете багу — подкидываете это в доку, клод её прочитает и будет в курсе дел. И дальше он будет писать код с учетом такой баги.

ЕМ>Гы. Хотел бы посмотреть, как ваш клод напишет код "с учетом" бага в ядре или системной службы.

Гыкайте. Какая клоду разница? Его уже используют для такой разработки. Решение то всё равно на вас, клод только убирает рутину коей всегда вагон.

P>>Не знаете — клод поможет идентифицировать,трассировать, и понаписывать код что бы обернуть/купировать/итд. И дальше он будет писать код с учетом такой баги.


ЕМ>Ну-ну.


Что ну-ну? Люди уже этим занимаются.
VladD2
VladD2
21.06.2026 12:18
Здравствуйте, velkin, Вы писали:



V>Я никогда с этим дел не имел, но серверные видюшки от NVidia с большим объёмом памяти не зря стоят конских денег.


V>Против них в потребительском сегменте читал только про две технологии на ноутбуках.

V>1. Apple MacBook Pro чего-то там от 128гб и выше совместимой памяти.
V>2. AMD Strix Halo опять же ноуты от 128гб и выше совместимой памяти.

Против них это говно и рядом не волялось. Там разницы в скорости — два порядка.

V>Причём действительно может быть выше. Но AMD вроде как в процессе наращивания производства, а Apple с архитектурой и операционкой на любителя.


Все это развод. DDR4 — это приговор.

V>Потому я и пишу, что никакой. Подумай, вот купишь ты сейчас обычный условно игровой ноутбук. А дальше что?


Точно так же не о чем Спарки и Стриксы.

Реальное решение — топовые игровые видюхи в парк с Квкн3.6. Это рабочее решение. Альтернатив нет. Только облачные подписки.
velkin
velkin
21.06.2026 12:10
Здравствуйте, VladD2, Вы писали:

V>>Против них в потребительском сегменте читал только про две технологии на ноутбуках.

V>>1. Apple MacBook Pro чего-то там от 128гб и выше совместимой памяти.
V>>2. AMD Strix Halo опять же ноуты от 128гб и выше совместимой памяти.
VD>Против них это говно и рядом не волялось. Там разницы в скорости — два порядка.

V>>Причём действительно может быть выше. Но AMD вроде как в процессе наращивания производства, а Apple с архитектурой и операционкой на любителя.

VD>Все это развод. DDR4 — это приговор.

Ну вот смотри, что пишут про AMD Ryzen AI Max+ 395.

Монстр-APU от AMD: Ryzen AI Max+ 395 превосходит RTX 4070 в играх. (перевод на русский)

Ryzen AI Max+ 395: сопоставима ли встроенная графика с видеокартой RTX 4070 для ноутбуков?


Топовая модель Ryzen AI Max+ 395 особенно интересна, поскольку её видеокарта Radeon 8060S с 40 вычислительными блоками (2560 шейдерами) и тактовой частотой до 2,9 ГГц должна показывать лучшие результаты, чем Radeon RX 7600M XT. Это примерно сравняет производительность видеокарты с RTX 4070, используемой в ноутбуках , что подтверждается первыми тестами AMD. AMD сравнила Ryzen AI Max+ 395 с Intel Core i9-13900H + RTX 4070, и комбинация Intel-Nvidia показала значительно лучшие результаты в некоторых областях. Тестирование проводилось в 17 играх при разрешении 1080p.

Вместе с 16 ядрами Zen 5 с частотой до 5,1 ГГц, AMD предлагает, пожалуй, самый мощный APU для ноутбуков, который мы видели на сегодняшний день. Согласно презентациям AMD, он значительно превосходит по производительности Core Ultra 288V или Apple M4 Pro .

Strix Halo получила четырехканальный интерфейс памяти.


Такой большой графический процессор также создает проблемы, особенно в отношении подключения памяти. Поскольку чип не имеет встроенной памяти (например, HBM), AMD оснастила Strix Halo особенно широким интерфейсом памяти. Таким образом, пропускная способность составляет 256 ГБ в секунду при использовании четырехканального интерфейса. Strix Point и процессоры Ryzen 9000, напротив, используют двухканальный интерфейс. В общей сложности APU поддерживают до 128 ГБ оперативной памяти, из которых максимум 96 ГБ может быть адресовано встроенным графическим процессором.

[img=large]http://files.rsdn.org/99832/amd-strix-halo-ryzen-ai-max-395.jpg[/img]

Быстрее, чем RTX 4090, в приложениях искусственного интеллекта?


AMD пока не поделилась большим количеством результатов тестов, но в первоначальном тесте ИИ Ryzen AI Max+ 395 показал себя весьма впечатляюще. Утверждается, что Ryzen примерно в 2,2 раза быстрее, чем RTX 4090 (обзор), при выполнении 70-битного LLM. Также заявлено, что APU потребляет до 80% меньше энергии. Однако сравнение не совсем корректно, поскольку APU тестировался со 128 ГБ оперативной памяти, в то время как RTX 4090 имела 24 ГБ видеопамяти и 32 ГБ оперативной памяти. Дополнительный объем памяти объясняет значительное преимущество в скорости.

Ноутбук Asus ROG Flow Z13 стал первым официально представленным ноутбуком/съемным компьютером с APU Strix Halo. HP также подтвердила выпуск соответствующего ноутбука, ZBook Ultra G1a, и даже мини-ПК, HP Z2 Mini G1a, с процессором Strix Halo.


Это ты говоришь про обычную оперативную память, которую сейчас называют медленной, да ещё и старого формата. А в статьях про AMD Ryzen AI Max+ 395 общая память для процессора и видеокарты 128Гб LPDDR5X-8000 где 96Гб можно выделить видеокарте, то есть не процессору.

Обрати внимание, память распаяна вокруг процессора с видеокартой как на видеокартах.

Утверждается, что Ryzen примерно в 2,2 раза быстрее, чем RTX 4090, при выполнении 70-битного LLM.


Гонят? Или специально взяли удобные тесты?

За меня беспокоиться не нужно, я то по любому это пока что не куплю, как и игровую видеокарту NVidia, как и серверную видеокарту NVidia. Просто одно дело говорить про LLM на CPU со старой и медленной DDR4, другое дело AMD Ryzen AI Max+ 395, то есть процессор+видеокарта+видеопамять.
VladD2
VladD2 Как заранее оценить применимость/производительность ж
23.06.2026 09:12
Здравствуйте, velkin, Вы писали:

V>Ну вот смотри, что пишут про AMD Ryzen AI Max+ 395.


Зачем мне смотреть на херню? Меня не интересует бред сивой кобылы. Я знаю физику. В инференсе главный показатель — пропускная способность памяти. Какие бы у тебя ядра не были, ты не можешь тягаться на равных с виюдхами основанными на DDR6/7. Объем памяти — да, выше. Это позволит очень медленно запустить среднюю модель (для большой один хер нужны терабайты оперативки).
bnk
bnk Как заранее оценить применимость/производительность желе
20.06.2026 05:24
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>В общем, как, имея примерный набор ожиданий, можно оценить, какие модели и какое железо для него потребны? А то, может, и 8 Гб по уши хватит, а может, и от 12 никакого толку не будет.


Для хотьс сколько-то вменяемых результатов в написании кода (чтобы LLM больше помогала чем вредила) нужна модель не ниже Qwen 3.6 35B, тебе уже это три человека говорят.
Это 48Гб оперативки на видюшке, ни о каких 8 или 12 речи вообще не идет.

По оценкам.
Локальный Qwen 3.6 35B по тестам оценивается на уровне облачного Claude Sonnet 3.7 (т.е. отставание примерно на год).
Claude 3.6 — для меня это именно тот порог, когда LLM стали юзабельны для написания кода.
VladD2
VladD2 Как заранее оценить применимость/производительность ж
21.06.2026 12:39
Здравствуйте, bnk, Вы писали:

bnk>Для хотьс сколько-то вменяемых результатов в написании кода (чтобы LLM больше помогала чем вредила) нужна модель не ниже Qwen 3.6 35B, тебе уже это три человека говорят.

bnk>Это 48Гб оперативки на видюшке, ни о каких 8 или 12 речи вообще не идет.

Не ну с некоторой деградацией, но ещё вполне юзабелно можно и на 24 Гб запустить 4_K_M.Тесты рядом. Полезна она будет. Да, тупее чем Q8_0, но всё ещё полезна.

А на 5090 и подавно можно вполне рабочее решение завести если потрахаться.

Но про Qwen-35b полностью согласен. Алибаба просто открыла мир ЛЛМ для топовых игровых карт.

ЗЫ

Я понимаю, что автору темы мы помочь не сможем. Но тема, несомненно должна быть полезна очень многим. Так что они должны топикостартеру быть благодарны.
fk0
fk0 Как заранее оценить применимость/производительность железа для LLM?
21.06.2026 09:49
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Научите заранее, без натурных экспериментов, оценивать применимость того или иного железа к работе на нем локальной LLM, возможности и производительность получаемого ИИ.


Всё упирается преимущественно в скорость памяти. На вывод одного токена (слова)
нужно прочитать все веса LLM из памяти (ещё посчитать, но это уже менее важно --
даже старый ксеон с алиэкспресса имеет FPU опережающий возможности подключенной памяти).
Для MoE моделей нужно прочитать только активные веса (порядка 40млрд для больших моделей).
Для плотных -- вообще все. Но современные плотные модели в основном маленькие (32 млрд или около того).
Вес для простоты можно считать 8-битным. Ещё KV-cache -- домножай на 1.5-2.
Необходимый объём памяти: все веса домноженные на 1.5-2 как минимум.
Разумная квантизация -- 6-битная для средних-мелких (менее 100 млрд) моделей
и 4-битная для больших (они не так теряют от квантизации).

ЕМ>Вот я сейчас пытаюсь понять, какой ноутбук купить: то ли с RTX 5070 8 GB ($2600), то ли с RTX 5070Ti 12 GB ($4100). Пытаюсь понять, даст ли переплата $1500 какие-то значимые преимущества конкретно для меня.


Откуда взялся миф, что RTX-какой-то-там с мизерным объёмом памяти даст преимущество?
Это трата денег в никуда. Сейчас можно купить некоторые ноутбуки с 4-канальной DDR5-памятью --
вот это самое ценное. Но ценник в РФ от $4000. И на них ты запустишь медленно и печально
некоторые маленькие современные модели. Только для задач программирования они все мало
применимы. Нужны большие вроде GLM-5.x. И они ни в какой ноутбук не влезут.
Впрочем их реально (!!!) запустить на старом ксеоне с алиэкспресса. На скорости пару-тройку
токенов в секунду (ответ ждать по полчаса). Как "энциклопедия" годится, для практической работы -- нет.

Ещё можно купить thunderbolt-адаптер для видеокарты. Но там всё упрётся в память видеокарты.
Если ты во франции, а не в тоталитарном концлагере как мы, то можешь на ебее баксов за 600
купить Radeon Mi 50 (32Gb) -- это самое дешёвое. Работает только на линуксе. Но туда тоже ничего
не лезет. Вдвое дороже, в более старших радеонах есть 64Gb памяти и можно пользоваться
теми же Qwen-32B и т.п.

ЕМ>Пишут, что на первом вроде как идут модели 7B-8B, на втором — 14B. Плюс на 12 Гб остается больше памяти для контекста.


Это всё курам на смех. Такие модели могут максимум текст переводить кое-как.

ЕМ>А дальше в статьях, обсуждениях и ответах ИИ все очень мутно: "на 12 Гб качество кода будет лучше", "вы сможете работать с кодом более серьезно", "потянет большие проекты" и т.п. Все это очень неконкретно.


Качество кода так себе с 1Тб моделями. Вот что надо понимать.

ЕМ>Использовать ИИ для генерации всего кода я [пока] не планирую. Сперва поручил бы ему анализировать мой, искать возможные ошибки, неоптимальности, уязвимости и т.п., локально переделывать места, на которые укажу.


Минимальная разумная модель для этого, хоть и старая -- gpt-oss-120b. Она изначально 4-битная
и потребует порядка 60ГБайт памяти только на веса. Её можно запускать на ксеоне с алиэкспресса
со скоростью до 5-10 токенов в секунду (без GPU). С GPU уровня старой TESLA на 16ГБ она лишь незначительно
(15т/с) быстрее (вся в GPU не влазит естесственно).

Но в сравнении с той же GLM-5.x -- это небо и земля. Нет смысла тратить деньги, лучше
оплатить токены у какого-либо инференс-провайдера. Не подписку. Подписка -- постоянно будешь в лимит
упираться и не можешь уйти к другому провайдеру если что-то плохо работает. Примерную цену, перформанс
и доступность можно подсмотреть на openrouter.

ЕМ>Вот в одном из текущих проектов на C++ около ~50 kLOC


50kLOC это то, что не влезает в контекст маленьких моделей вообще.
Не дай бог там с большим файлом работать надо, или так выйдет, что нужно
загрузить весь код в LLM. Тем более C++! Там две проблемы: и токенов
нужно больше, и маленькие модели откровенно слабы в C++.

Я могу порекомендовать GLM-5.2 для сложных вопросов, GLM-5.0 для простых
(если в её 200к контекст влезает). DeepSeek V4Pro/Flash -- быстрая, но не надёжная,
дешевле. Для задач, где за ней перепроверять не придётся. Про GPT-5.x и Claude
не заикаюсь из-за неадекватного ценника. Хотя имеет смысл возможно некоторые
отдельные задачи давать им (они лучше, но сильно дороже). Для них отдельный
агент ещё надо, что неудобно.

EM> только Win32 API и Kernel API.


Помимо прочего, советую хотя бы tavily mcp server подключить к агенту.
Например, к opencode (тоже советую). И сказать модели, мол будешь windows API
использовать -- поищи в инете, прочитай документацию, потом используй.

EM> Сможет локальная LLM на 8 Гб его переварить, составить файлы описаний структуры,


Нет, это издевательство над здравым смыслом. Нужна модель на 800+Гб.
Она формально сможет, но это будет имитация работы.

EM> И, если я спрошу что-нибудь вроде "а если я в эту функцию добавлю захват вот этого объекта синхронизации, не случится ли где-нибудь дедлока?", дать ответ, которому можно будет доверять?


Если хочешь, чтоб ещё она в уме код прошагивала, то во-первых нужна строго
думающая модель (все большие такие, а какой-нибудь Qwen-Code может быть нет).
Во-вторых точно рекоменцую GLM-5.x Вот она прошагивает.

ЕМ>Также хотел бы запрячь ИИ для генерации кода GUI на WinAPI. Сможет он на таком железе делать окна, состоящие из десятка областей, в каждой из которых по десятку элементов управления (кнопок, списков, переключателей, движков и т.п.), и все это свободно растягивается, перемещается и т.п., и чтоб я, при надобности, мог руками что-то добавить/поменять? Если сможет, то с какой скоростью, и сколько итераций обычно требуется для получения рабочего варианта?


Однозначно нужна большая модель. Причём с GUI будет затык в том, что она ж картинки не видит
и вообразить себе не может. Ну и нагенерированный моделью код, если модель не вели руками аккуратно --
обычно это что-то, с чем руками уже работать невозможно. Макароны.

ЕМ>Еще хочу, чтоб оно писало на определенном диалекте C++ (например, MS VC++ 15.x) и в определенном стиле, который сам задам. Это возможно?


Сделаешь AGENT.md там опишешь свои требования, покажешь примеры как надо. Оно прочитает и поймёт.

ЕМ>В общем, как, имея примерный набор ожиданий, можно оценить, какие модели и какое железо для него потребны? А то, может, и 8 Гб по уши хватит, а может, и от 12 никакого толку не будет.


Локально -- самый дешёвый вариант Mac Studio наверное. от $20k где-то. Причём одного явно не хватит.
pva
pva
21.06.2026 10:18
Здравствуйте, fk0, Вы писали:

fk0> Но в сравнении с той же GLM-5.x -- это небо и земля. Нет смысла тратить деньги, лучше оплатить токены у какого-либо инференс-провайдера. Не подписку. Подписка -- постоянно будешь в лимит упираться и не можешь уйти к другому провайдеру если что-то плохо работает.

Откуда этот миф про упирание в лимиты и несказанную дороговизну подписки? Похоже, он идет от тех кто покупал подписку через МС.
Да, за 200 в год ты упрешься в лимиты, но тоже совсем не сразу. Зависит от частоты и гранулярности задач.
При упирании можно остатком денег мигрировать на х5 план, в котором очень сложно упереться в лимиты при обычной разработке, не говоря уже про х20 план.
На х5 мой дневной пиковый расход порядка 3млн токенов (оценка грубая, по данным самого Claude Code, 0.5in/2.5out). Это я два проекта в параллель делал и только одну сессию уперся в 5 часовой лимит. И это в режиме Opus/high+extra.
Сколько бы подобное стоило на опенроутере, интересно?

На всякий случай повторяю ссылку на 14 дней бесплатного триала Claude (Friends can try both Cowork and Claude Code.).
fk0
fk0
21.06.2026 12:03
Здравствуйте, pva, Вы писали:

pva>Здравствуйте, fk0, Вы писали:


fk0>> Но в сравнении с той же GLM-5.x -- это небо и земля. Нет смысла тратить деньги, лучше оплатить токены у какого-либо инференс-провайдера. Не подписку. Подписка -- постоянно будешь в лимит упираться и не можешь уйти к другому провайдеру если что-то плохо работает.

pva>Откуда этот миф про упирание в лимиты и несказанную дороговизну подписки? Похоже, он идет от тех кто покупал подписку через МС.
pva>Да, за 200 в год ты упрешься в лимиты, но тоже совсем не сразу. Зависит от частоты и гранулярности задач.

На работе есть "бесплатный" AI (замученный GLM под капотом). Я вижу сколько я использую.
Я понимаю, что это больше чем средняя ($50/мес) подписка у Z.AI. Кончится недельный лимит.
Там ж лимит на число сообщений. А что такое сообщение -- это один tool call у модели.
Да она пока файлик читает может 10 tool calls сделать. Средняя задачка в сотню шагов.
За 5 часов 4 таких задачки сделать как нефиг делать. Дневной лимит уже. Конечно, если в
чатике пользоваться, то лимит не исчерпаем. А если её саму галлюцинировать оставить,
то выжрет и ещё попросит.

Так же я пользовалься через API. Быстро понял, что платить не хочу, ибо $200/мес запросто.
Я про GLM, я не про Claude!

И я в курсе про жалобы, что мол GLM у платных (где за токены платишь) провайдеров работает
как-то лучше и стабильней несмотря на 4-битность, чем у тех, где подписка. Очевидно, не будет
работать -- платить не будут. А когда деньги вперёд -- всегда проигрышный вариант.

pva>При упирании можно остатком денег мигрировать на х5 план, в котором очень сложно упереться в лимиты при обычной разработке, не говоря уже про х20 план.


Завтра у них что-нибудь упадёт и сиди. С оплатой за токены просто уходишь
к другим конкурентам и вообще ни о чём не думаешь. Даже без openrouter.

pva>На х5 мой дневной пиковый расход порядка 3млн токенов


390млн в каком-то месяце. В какой-то день в одной задачке 30млн. В ОДНОЙ.
Ей даже контекста хватило, до галюцинаций не дошло. В Goose агенте.

3млн токенов -- это задачка влёгкую влезающая в 200k контекст (агент периодически
из контекста будет вырезать артефакты вызовов тулов). Недавно что-то делал
такое, 6.9млн на ровном месте, занято было половина контекста. Заняло полчаса.
Там даже код писать не надо было. Мол проанализируй имеющийся код и напиши
мне своё видение, как можно что-то тут сделать. Вот оно по файлам пошарилось
и набрало столько (на input в основном, там вывода копейки). Надо ж ещё
понимать как оно считается: следующий вызов тула прогоняет весь контекст
через модель заново и ранее посчитанный input суммируется _повторно_!
Поэтому с диска считано сильно меньше чем насчитано токенов (нужно поделить
на число сделанных tool calls).

pva>Сколько бы подобное стоило на опенроутере, интересно?


Без понятия. У claude много лучше с кешированием (меньше платить за input).
У тех кто работает с openai-compatible api обычно кеширование болтается в диапазоне 50-90%.
Но у Claude много хуже с ценой (особенно за output). А если там длинные цепочки рассуждений,
то вообще не интересно за такую цену. GLM-5.2 оказалось тоже "тугодум",
сильно дороже 5.0 из-за бесконечных обдумываний.

pva>На всякий случай повторяю ссылку на 14 дней бесплатного триала Claude (Friends can try both Cowork and Claude Code.).


Рекламный пост?

Получайте нормальную банковскую карту и платите напрямую инференс провайдерам из США,
будет в 2-3 раза дешевле как мне кажется.
pva
pva
21.06.2026 12:23
Здравствуйте, fk0, Вы писали:

fk0> 3млн токенов -- это задачка влёгкую влезающая в 200k контекст

Значит мой GUI врет и считает какую-то чепуху. Потому как за 5ч сессию я по нескольку раз вылажу за половину 1М контекста, но стараюсь 0.7 не пересекать.
При этом каждая сессия это не один десяток вызовов утилит. С учетом оркестрации на каждый запрос уходит по 3-10 вызовов. Бывают агентские циклы до 1.5ч.

fk0> Рекламный пост?

Пусть будет рекламный, хотя мне от него не холодно ни жарко. Это просто возможность попробовать сомневающимся свои или тестовые задачи.
Где-то недалеко также болтался мой пост с табличкой с хабра (https://habr.com/ru/news/1046644/) для сравнения подписочного и АПИ доступа. Просто задумайся над тем что подписка в 20-40 раз выгодней АПИ!
Кстати, подписка не отменяет АПИ. Там есть переключатель что при выходе за пределы лимита сессии начинать использовать АПИ средства. Это помогает когда нужно закончить задачу, а сессия уперлась в лимит.

fk0> Получайте нормальную банковскую карту и платите напрямую инференс провайдерам из США, будет в 2-3 раза дешевле как мне кажется.

У меня все нормально с оплатой напрямую антропикам.
VladD2
VladD2
25.06.2026 12:08
Здравствуйте, pva, Вы писали:

pva>Значит мой GUI врет и считает какую-то чепуху. Потому как за 5ч сессию я по нескольку раз вылажу за половину 1М контекста, но стараюсь 0.7 не пересекать.

pva>При этом каждая сессия это не один десяток вызовов утилит. С учетом оркестрации на каждый запрос уходит по 3-10 вызовов. Бывают агентские циклы до 1.5ч.

Я тебе как человек не имеющий доступа к 1М контекста скажу, что можно очень сильно снизить потребление токенов в сессии, если как следует напрячься и подумать.

У нас в конторе лимит 128К. Это очень жостко, но люди работают. Я юзаю собственного квена и у меня лимит по мягче — 256К. И уже за 210К видно как Квен плывет. Часто проще начать новую сессию, чем пытаться добиться чего-то от сессии за 200К контекста. По этому я пошел другим путем. Наклепал МСР-серверов. Использую субагентов для подзадач. Повышают гранулярность задач. В итоге вписываюсь в 200-240К контекстного окна. А уж в твоём случае вообще лафа! Немного оптимизировать и будет любую задачу к 300-400К решать.
pva
pva
25.06.2026 06:20
Здравствуйте, VladD2, Вы писали:

VD>Я тебе как человек не имеющий доступа к 1М контекста скажу, что можно очень сильно снизить потребление токенов в сессии, если как следует напрячься и подумать.

Я, как человек, начинавший как ты, в курсе что такое ограниченный контекст. Но это просто разные классы машин (ну, типа бюджетную мазду поменять на мазератти какой-нибудь).

VD>Наклепал МСР-серверов. Использую субагентов для подзадач.

Я ушел почти от всех MCP. Контекст отжирают, а пользы не сильно приносили. Вернусь, пожалуй, только к семантическому индексированию и поиску.
Субагентов клод и так повсеместно использует. Иногда даже чересчур.

Что касается спарка, то главная его проблема — медленная память. Вычислительно он вполне себе рабочая лошадка (есть спецядра как для NVFP4, так и для FP8). Но вот чертова память
Работать на нем можно. Скорость удовлетворительная. Уровень комфорта примерно лада седан (баклажан). Короче, ехать можно.
И никто с тобой не спорит что быть здоровым и богатым хорошо. В мире хватает задач для которых не нужна мегаскорость.
Свободу Анжеле Девис и Юрию Деточкину
Свободу Анжеле Девис и Юрию Деточкину Как заранее оценить применимость/производительность железа для LLM?
21.06.2026 10:34
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Научите заранее, без натурных экспериментов, оценивать применимость того или иного железа к работе на нем локальной LLM, возможности и производительность получаемого ИИ.


ЕМ>Вот я сейчас пытаюсь понять, какой ноутбук купить: то ли с RTX 5070 8 GB ($2600), то ли с RTX 5070Ti 12 GB ($4100). Пытаюсь понять, даст ли переплата $1500 какие-то значимые преимущества конкретно для меня.


ЕМ>Пишут, что на первом вроде как идут модели 7B-8B, на втором — 14B. Плюс на 12 Гб остается больше памяти для контекста.


Я тут второй день 12b модель гоняю. Gemma4, одни позитивные отзывы в интернете.
Гоняю на 5080.

Добиться от неё вменяемого результата на таком железе практически не возможно.
В терии, если взять платную модель, составить детальный план, а уже потом его выполнять локальной моделью, это будет работать.
В остальном, я согласен с Владом и остальными, для нормальной работы нужно соответствующее железо.
Из лэптопа ничего вытянуть не получится.
okon
okon Как заранее оценить применимость/производительность железа для LLM?
22.06.2026 12:35
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Научите заранее, без натурных экспериментов, оценивать применимость того или иного железа к работе на нем локальной LLM, возможности и производительность получаемого ИИ.


Зачем в 2026 году отдельная LLM ? Это можно сказать вчерашний век и оценка ИИ на базе него.

Сейчас все делается уже более сложной надстройкой типа Claude Code или Codex достаточно сложные агенты именно для разработки, которые тебе не просто запрос-ответ делают к LLM, а организуют процесс разработки, решают разные задачи, например сначала планируют большую задачу, декомпозируют, потом каждую мелкую задачу решают, тестируют, заливают на гитхаб, делают экшены для гитхаба например автопубликацию куда-нибудь в azure. Он уже под капотом думаю использует разные LLM для разных задач например для создания графики.


Поэтому сейчас единственный нормальный вариант это Claude/Codex может что-то еще из этой же серии например Deep Code от DeepSeek, но он сильно отстает и по фичам.

Если делать просто LLM , то это на порядки ниже производительность будет твоя как разработчика.

Другое дело если есть уже агент аналогичный Claude и не хватает только LLM для этого агента которые можно к этому агенту подключить.
Евгений Музыченко
Здравствуйте, okon, Вы писали:

O>Если делать просто LLM , то это на порядки ниже производительность будет твоя как разработчика.


Я не собираюсь использовать ИИ настолько плотно, чтоб производительность была критичным фактором. А вот отдавать весь свой код ИИ-провайдерам я определенно не хочу.

Пока вроде определилось, что покупать более мощный ноутбук нет смысла, поэтому буду брать минимальный подходящий, и пока использовать облачные ИИ с кодом, который не жалко.
okon
okon Как заранее оценить применимость/производительность ж
22.06.2026 05:00
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Здравствуйте, okon, Вы писали:


O>>Если делать просто LLM , то это на порядки ниже производительность будет твоя как разработчика.


ЕМ>Я не собираюсь использовать ИИ настолько плотно, чтоб производительность была критичным фактором. А вот отдавать весь свой код ИИ-провайдерам я определенно не хочу.


ЕМ>Пока вроде определилось, что покупать более мощный ноутбук нет смысла, поэтому буду брать минимальный подходящий, и пока использовать облачные ИИ с кодом, который не жалко.


В этом случае чтобы заморачиваться с отдавать твой код должен быть каким-то научным прорывом, неизвестные в мире ценные алгоритмы и т.д то что нейронка сможет конечно тоже сделать, но далеко не сразу и не за один день, как например с известными алгоритмами или фреймворками взяв с полки из справочника.

Если это все просто для любопытства и как хобби то нормально, если же цель делать продукт и выходить на рынок то надо смириться с тем что код теперь пишет ИИ, а человек задает идеи и задает какие процессы разработки использовать для продукта. Иначе просто твой продукт скопируют.

Насчет делиться кодом, во первых ты не делишься всем кодом сразу, на сервере не хранится твой проект ( если ты пользуешься клиентом claude Code, а не облачным приложением ), какие-то обрывки кода которые агент делает и потом передает обратно также куски кода/файлы там еще надо будет разобрать что к чему и как это все смержить, что делается локально, во вторых, то что ты выкладываешь приложение в паблик даже в бинарном виде, ты уже делишься кодом, сейчас нейронки делают реверсинжиниринг из ассемблера в том числе.
Евгений Музыченко
Здравствуйте, okon, Вы писали:

O>твой код должен быть каким-то научным прорывом, неизвестные в мире ценные алгоритмы и т.д


Прорывов там нет, но есть много результатов длительных исследований и экспериментов — что, собственно, и придает коду ценность. Если сейчас кто-то вознамерится при помощи самых лучших ИИ сделать то же самое, то хрен у них получится, если они не проведут примерно те же самые исследования (возможно, тоже с помощью нейронок), а на такое уже нужны мозги сильно выше среднего. Но, если начать его отдавать облачным ИИ, то скоро любой лентяй сможет повторить.

O>Если это все просто для любопытства и как хобби то нормально, если же цель делать продукт и выходить на рынок то надо смириться с тем что код теперь пишет ИИ, а человек задает идеи и задает какие процессы разработки использовать для продукта. Иначе просто твой продукт скопируют.


Я не против делать с облачной нейронкой код для того же гуя — его-то уж никак не скроешь, и другая нейронка по виду и поведению лихо напишет в точности то же самое.

O>сейчас нейронки делают реверсинжиниринг из ассемблера в том числе.


С каким качеством? Явно ж не до полноценного исходника, иначе бы уже начали появляться дешевые аналоги дорогого софта.
Nuzhny
Nuzhny
23.06.2026 05:07
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>С каким качеством? Явно ж не до полноценного исходника, иначе бы уже начали появляться дешевые аналоги дорогого софта.


Ну, иногда и до полноценного исходника. Знакомый отреаерсил мобильное приложение, ценность которого была в данных. Данные были в каком-то своём неизвестном формате. Отдал приложение и данные ЧатГПТ, тот написал аналог на С++ уже для десктопа. Теперь можно в мобильном приложении обновлять данные и, вуаля!, в твоей десктопной версии всё работает. Он это делает для себя, не на продажу и никуда не выкладывает. Но фишка в том, что бинарник перестал быть защитой для алгоритма, за 1-2 дня всё реверсится автоматически.
Евгений Музыченко
Здравствуйте, Nuzhny, Вы писали:

N>Знакомый отреаерсил мобильное приложение


Это вообще несерьезно.

N>бинарник перестал быть защитой для алгоритма


В мобильных приложениях он никогда ею и не был.
Stanislaw K
Stanislaw K
24.06.2026 08:19
Здравствуйте, Евгений Музыченко, Вы писали:


O>>сейчас нейронки делают реверсинжиниринг из ассемблера в том числе.


ЕМ>С каким качеством? Явно ж не до полноценного исходника, иначе бы уже начали появляться дешевые аналоги дорогого софта.


IDA довольно давно, задолго до ИИ, качественно реверсит до полноценного исходника. С "дорогим" софтом (например ms word) проблема в спагетти. Из полученных исходников можно собрать бинарно идентичный софт. Но разобраться в нагромаждениях и как-то прямо использовать этот исходный код в своих целях трудоемко — экономически не целесообразно. И юридически рисково.

Как пример можно посмотреть историю ReactOS. Определенная часть кода была, видимо, получена реверсом но переписана по мотивам для лицензионной чистоты, тем не менее им приходится отбиваться от исков и обвинений. Пока что удачно.

Было так-же несколько аналогичных историй, закончившихся гораздо хуже — крупные корпорации засудили нескольких частных разработчиков за использование библиотек so dll функционально похожих на их патентованные лицензионные.
Евгений Музыченко
Здравствуйте, Stanislaw K, Вы писали:

SK>IDA довольно давно, задолго до ИИ, качественно реверсит до полноценного исходника.


По каким критериям он считается "полноценным"? Видел я те "исходники" — они синтаксически правильны, но понять по ним что-то мало-мальски сложное нереально.

SK>С "дорогим" софтом (например ms word) проблема в спагетти.


Там не столько спагетти, сколько засилье COM/OLE — огромное количество виртуальных интерфейсов, работающих исключительно через виртуальные же функции.

SK>Из полученных исходников можно собрать бинарно идентичный софт.


Бинарно или функционально? Если первое — какой смысл его реверсить? Если второе — как у него со стабильностью?

SK>можно посмотреть историю ReactOS. Определенная часть кода была, видимо, получена реверсом но переписана по мотивам для лицензионной чистоты


БОльшая часть была переписана непосредственно с утекших исходников винды. Они б повесились реверсить и осмыслять такой объем.
Stanislaw K
Stanislaw K
24.06.2026 11:50
Здравствуйте, Евгений Музыченко, Вы писали:

SK>>IDA довольно давно, задолго до ИИ, качественно реверсит до полноценного исходника.


ЕМ>По каким критериям он считается "полноценным"? Видел я те "исходники" — они синтаксически правильны, но понять по ним что-то мало-мальски сложное нереально.


По критерию что из этих исходников собирается работающий бинарник, которым можно заменить исходный без потерь.

SK>>С "дорогим" софтом (например ms word) проблема в спагетти.


ЕМ>Там не столько спагетти, сколько засилье COM/OLE — огромное количество виртуальных интерфейсов, работающих исключительно через виртуальные же функции.


и это в том числе.

SK>>Из полученных исходников можно собрать бинарно идентичный софт.


ЕМ>Бинарно или функционально? Если первое — какой смысл его реверсить? Если второе — как у него со стабильностью?


И бинарно и функционально идентичный.

SK>>можно посмотреть историю ReactOS. Определенная часть кода была, видимо, получена реверсом но переписана по мотивам для лицензионной чистоты


ЕМ>БОльшая часть была переписана непосредственно с утекших исходников винды. Они б повесились реверсить и осмыслять такой объем.


Давайте сделаем вид что мы верим джентельменам на слово. Утекшие исходники были не полны, и часть им пришлось реверсить, в т.ч. из более поздних версий.
VladD2
VladD2
25.06.2026 12:14
Здравствуйте, okon, Вы писали:

O>В этом случае чтобы заморачиваться с отдавать твой код должен быть каким-то научным прорывом, неизвестные в мире ценные алгоритмы и т.д то что нейронка сможет конечно тоже сделать, но далеко не сразу и не за один день, как например с известными алгоритмами или фреймворками взяв с полки из справочника.


Самое смешное, что почти все научные прорывы доступны открыто. Люди науки сами стремятся как можно сильнее популяризировать свои идеи и демонстрировать свои достижения.
VladD2
VladD2
25.06.2026 12:14
Здравствуйте, okon, Вы писали:

O>В этом случае чтобы заморачиваться с отдавать твой код должен быть каким-то научным прорывом


Достаточно просто быть кодом антивируса.
Pauel
Pauel
23.06.2026 06:49
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Я не собираюсь использовать ИИ настолько плотно, чтоб производительность была критичным фактором. А вот отдавать весь свой код ИИ-провайдерам я определенно не хочу.


Реверс инженеры тоже ии пользуются.

Вопрос только в том, насколько ваше решение востребовано.

Чем сильнее — тем быстрее зареверсят.
Евгений Музыченко
Здравствуйте, Pauel, Вы писали:

P>Чем сильнее — тем быстрее зареверсят.


Один я вижу явное противоречие? "Без ИИ ты работаешь медленнее конкурентов", "любое востребованное решение зареверсят". Утверждается, что разработка с помощью мощного ИИ полноценного продукта, с нуля до релиза, занимает дни, максимум — недели, и утверждается, что столько же занимает полноценный реверсинг.

Где я могу увидеть массовый поток дешевых аналогов дорогих востребованных продуктов?
Pauel
Pauel
23.06.2026 08:59
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Один я вижу явное противоречие? "Без ИИ ты работаешь медленнее конкурентов", "любое востребованное решение зареверсят". Утверждается, что разработка с помощью мощного ИИ полноценного продукта, с нуля до релиза, занимает дни, максимум — недели,


ага, и любой сложности, да за неделю. Пример приведите, что бы предметно было.

> и утверждается, что столько же занимает полноценный реверсинг.


Если есть ценного — реверсят полным ходом уже сейчас. У меня есть знакомые.
И да, ИИ ускоряет реверс радикально, может даже сильнее чем обычную разработку.

ЕМ>Где я могу увидеть массовый поток дешевых аналогов дорогих востребованных продуктов?


Ага, Виндовс или там Офис? Проблема с реверсом это монетизация в конечном итоге, просто продать не получится, лицуха, патенты, авторские права итд

Потому реверсят вещи типа драйверов, прошивок итд. Ну вот пример — расколупали пропиетарный протокол к железяке-станку-машине-итд и сделали свой. Только не для продажи, что очевидно, а для своих целей, т.к. см выше лицуха патенты и тд.
Pauel
Pauel Как заранее оценить применимость/производительность железа для LLM?
23.06.2026 06:37
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>В общем, как, имея примерный набор ожиданий, можно оценить, какие модели и какое железо для него потребны? А то, может, и 8 Гб по уши хватит, а может, и от 12 никакого толку не будет.


Посмотрите ноуты с Thunderbolt 5, к ним можно подключить внятную внешнюю видюху