Способны ли современные LLMs принести пользу в реальных рабочих проектах?

Способны ли современные LLMs принести пользу в реальных рабочих проектах?

Однозначно – да, но все зависит от типа и формата проекта. Не буду углубляться в теорию и технические термины, а сразу расскажу, помогают ли LLMs в собственных проектах?

Эффект крайне неравномерен, сильно фрагментирован и нестабилен.

Оценка эффективности предельно прозрачна – совокупные ресурсы и время, затраченные на финализацию определенной задачи с использованием LLMs или без LLMs.

Например, какой бюджет токенов нужно консолидировать и сколько времени затратить на формализацию задачи, ожидание выполнения и фактчекинг с использованием LLMs и сколько ресурсов и времени уходит без LLMs.

В какой точки конструкция рассыпается? Главное и фундаментальное препятствие – затраты на верификацию результата.

Опыт использования комбинации самых мощных на сегодняшний день LLMs показывает, что они способны выдавать визуально блистательные (оформленные, как солидные академические и консалтинговые исследования) с очень правдоподобным (на первый взгляд) наполнением результаты.

Первый и беглый взгляд показывает – превосходная работа, но … при верификации все начинает рассыпаться, а именно:

Неверная развесовка факторов, параметров и искаженная иерархия приоритетов, что почти всегда ломает всю архитектуру проекта.

Неравномерная контекстная развертка, когда одни направления могут быть избыточно подробно описаны, а другие, наоборот, необоснованно поверхностно.

Концептуальные пробелы – неполное раскрытие вопросов и факторов, не учет множества обстоятельств.

Неверная декомпозиция задачи на составляющие элементы и неверное задание векторов исследования.

Очень частые ошибки в фактуре, как случайные, так и «намеренные», когда модели галлюцинируют, выдумывая «факты».

Неверная консолидация источников информации. Часто решается принудительным ограничением контекстного пространства / источников информации.

Очень часто сломанный стиль повествования, что требует глубокого рерайта.

Что получается на практике? LLMs генерируют огромное количество лонгридов, но на проверку, верификацию, переосмысление и рерайт которых уходит неприемлемое количество времени, сильно превышающее время на самостоятельное исследование.

Как это происходит на практике?

1. Формализация запроса с подробной проработкой техзадания для учета всех факторов, обстоятельств, требуемых векторов исследования и стиля повествования – 10% времени

2. Наполнение моделей контекстом – внутренний готовый набор данных, спектр внешних источников – 5% времени.

3. Ожидание генерации ответа (часто может идти десятки минут) сразу в нескольких моделях – 4% времени.

4. Правки по ходу выполнения – 3% времени.

5. Сведение результатов 3-5 LLMs в единую матрицу для концептуального наслоения – 13% времени.

6. Очень длительный процесс верификации полученного ответа – примерно 65% всего времени, а часто еще больше.

Таким образом, постановка задачи примерно 15% времени, генерация ответа – 7%, сверка результатов – 13%, а проверка и контроль – 65%.

Слабое звено – проверка и верификация, которые поглощают основные ресурсы.

На моем опыте, комбинация самых мощных LLMs приводит не к росту производительности, а к радикальному снижению. Насколько? Примерно в 5 раз.

Ту работу, которую можно делать самостоятельно за час, с использованием ИИ займет примерно в 5 раз больше времени и это в наиболее оптимизированном сценарии использования.

В моем классе задач, при моем опыте, накопленных знаниях и навыках, LLMs ухудшают работу, а не улучшают и речь идет о существенно, иногда кратном ухудшении.

Это не значит, что LLMs – плохи или бесперспективны для определенного спектра задач. Ни в коем случае. В будущем я приведу спектр и категории задач, где LLMs наиболее эффективны.

Я лишь описываю собственный опыт, но при всем этом я остаюсь техно-оптимистом, т.е. верю в то, что технологии будут улучшаться, захватывая все больше ранее нерешенных задач.

Причем значительный класс задач так и остается принципиально неразрешимым с использованием ИИ (об этом в других материалах).

Источник: Telegram-канал "Spydell_finance"

Топ

Лента новостей