Нет прорыва — нет премии: как оценивать работу DeepTech-исследователей
Отчет или прогресс
В классических стартапах и отделах исследований и разработок (R&D) успех часто оценивается с помощью понятных и прагматичных метрик: количества патентов, числа прототипов, скорости вывода продукта на рынок и процента успешных тестов. Однако в DeepTech все эти показатели не всегда раскрывают реальную картину. В наукоемких проектах, в частности в ИИ-стартапах, огромное количество времени и ресурсов уходит на предварительную работу с данными. И любая привязка к бизнес-метрикам, ориентированным на скорость и объем, с оценкой не поможет.
Не всегда работают и традиционные научные метрики, которые многие пытаются применять, невольно примеряя на себя роль академических организаций. Количество научных статей фиксирует исследовательскую активность. Часто статьи описывают гипотезы, которые не находят применения в бизнесе. Цитируемость может использоваться как показатель, но она скорее говорит о популярности темы, чем о реальном продвижении конкретного проекта.
Наукоемкие проекты — это симбиоз бизнес-показателей и data science метрик, которые зачастую не совпадают. Ключевое, что должна понимать административная команда, несмотря на то что любой бизнес заточен на извлечение прибыли, — значительная доля всех усилий команды регулярно будет уходить на фундаментальные и поисковые исследования. Не на старте, но всегда. Если в классических технологических разработках алгоритм прост и понятен — за НИР (научно-исследовательской работой) следуют НИОКР (научно-исследовательские и опытно-конструкторские работы), все движется поступательно — от TRL-1 до TRL-9 (уровни готовности технологии, согласно одной из метрик), то на переднем крае науки отсутствует гарантия, что последующие исследования не опровергнут саму техническую реализуемость проекта.
Одна из самых распространенных ошибок — наем ML-команды без конкретной бизнес-задачи. В результате такого фальстарта работа превращается в манипуляции с данными «ради данных». Начинать исследовательский аудит в DeepTech-проекте следует с оценки ценности продукта для клиентов, далее переходить к анализу качества и структуры данных. Например, методология CRISP-DM (Cross-Industry Standard Process for Data Mining) начинается с этапа Business Understanding — понимания потребностей пользователей и целей продукта.
Зеленый свет
Для оценки эффективности исследовательских команд в DeepTech важно сосредоточиться на метриках, которые не просто фиксируют результаты, но определяют, какое влияние работа оказывает на бизнес и научное сообщество.
- Анализ влияния публикаций на науку через год-два.
Вместо учета количества публикаций или самого факта выхода статьи, эффективнее обращать внимание на то, какой отклик она получила в комьюнити спустя год-два после выхода. Если публикация не просто вызвала широкий резонанс и высокую цитируемость, а сохранила интерес сообщества на протяжении некоторого времени, это уже служит валидацией колоссального труда команды и высокой вероятности успешного технологического трансфера.
- Сведение качественных характеристик с количественными.
В области искусственного интеллекта дополнительным качественным параметром при работе с количественными характеристиками становятся рейтинги изданий и мероприятий — например, CORE, созданный Ассоциацией компьютерных исследований и образования Австралии. Так, мероприятия ранжируются с помощью букв от C до A, где наиболее престижным для исследователя становится участие в конференциях категории A* — ведущих событиях в своей области. Публикации на базе таких мероприятий — высшая награда, которая, кстати, учитывается и при получении научных степеней.
- Протоколируемость каждого шага.
Еще один значимый аспект, который особенно важен в DeepTech-среде — системность работы, протоколируемость и прозрачность. Речь идет о том, чтобы каждое действие исследовательской команды было задокументировано и впоследствии могло быть повторено другими участниками проекта. Такой подход делает исследования более понятными для всех заинтересованных сторон. Инвесторы и партнеры могут быть уверены, что вложенные средства идут на заявленную работу, подкрепленную подтвержденными данными.
В крупных компаниях, кстати, есть службы валидации, которых R&D-команды часто опасаются, так как они пытаются воспроизвести результаты исследований. Однако и этого недостаточно. Важно вести бэклог и детальную документацию о проделанной работе. Даже если на первый взгляд все выглядит хорошо, отсутствие системности может указывать на потенциальные проблемы.
- Привлечение внешнего аудита.
Бывает и нередко, что внедрению новой системы оценки препятствует сама команда Data Science. Решается это с привлечением внешнего аудита. Независимая проверка помогает взглянуть на процессы со стороны и найти зоны роста, которые не всегда видны изнутри. Если мы говорим об ИИ-стартапах, то достаточно взглянуть на модели, их код и способ отслеживания прогресса. Этого уже хватит, чтобы оценить уровень зрелости процессов. Если все разбросано по случайным недокументированным скриптам, обученным на неизвестных данных, или возникают вопросы о происхождении данных и процессе обучения моделей, это свидетельствует о низком уровне организации работы в команде.
- Обратная связь с четким сроком на исправление ошибок.
Наконец, важно не забывать про грамотную обратную связь. Вместо радикальных мер при недовольстве результатами лучше обозначить проблемы, уточнить ожидания и установить сроки для исправлений. Если проблема находится на уровне организации исследовательского процесса и разработки, а не упирается, например, в потребность менять постановку исследовательской задачи, ее вполне можно решить. Максимум — шесть месяцев, этого срока должно хватить на исправление принципов работы.
Мнение редакции может не совпадать с точкой зрения автора