Популярность темы технологий машинного обучения растет с каждым годом. Кажется, что уже каждый обучил нейронную сеть. Капитализация стартапов использующих технологии машинного обучения выше капитализации коллег на 20-30%. Работая CEO DATA4, я столкнулся с решением множества кейсов начиная от разработки рекомендательных систем для интернет-магазинов, распознавания образов, и заканчивая биометрическими решениями. Эта статья о том, где хайп, а где бизнес, и можно заработать.
Машинное обучение применяется в
1) Крупных компаниях для решения задачи «последней мили». Если вы крупный банк, и внедрили алгоритм, предсказывающий когда обслуживать и инкассировать банкоматы, экономический эффект составит семизначную сумму.
И таких применений множество: персонализированные товарные рекомендации, прогнозирование нагрузки на контактный центр, прогнозирование спроса, построение оптимальных логистических маршрутов, скоринг, предсказание оттока и т.д.
Решение каждой из описанных задач улучшает метрики на считаные проценты (последняя миля) в сравнении с текущими решениями, но на большом масштабе это существенные деньги.
Особенности:
А) Не все компании обладают нужными данными
Б) Крупные компании предпочитают нанимать разработчиков в штат, а не покупать заказные решения. Из этого следует вывод, что крупные компании - плохие клиенты. Много требований, и бесконечные циклы продаж (из опыта DATA4 выход на сделку может занимать до года). Но если вы хотите не продавать решения, а зарабатывать 200-300 т.р. в месяц зарплаты, это хороший вариант. Осталось только стать лучшим на рынке;)
2) Вендоры решений на основе ML
На рынке РФ работают компании с оборотом в сотни миллионов и миллиарды рублей. Это ЦРТ, ABBYY, VisionLab, Вокорд и другие.
Особенности:
А) Продукт должен быть легко масштабируем (Распознавание лиц, речи, документов и т.д.)
Б) Побеждает игрок, вовремя вышедший на рынок и показывающий state of the art качество работы алгоритма. Вам потребуется лучшая узкоспециализированная экспертиза на рынке, чтобы победить в конкурентной борьбе. Но игра стоит свеч.
3) Разработка решений под заказ
Это то, чем занимается наша компания DATA4, и по собственному опыту, тут деньги самые тяжелые.
A) Каждый заказчик индивидуален, нужно глубоко вникать в бизнес клиента. Так, для одного из клиентов мы провели 70 глубинных интервью с его пользователями, чтобы правильно поставить задачу. Это ведет к тому, что вы не можете масштабировать решение, и каждый раз начинаете «с чистого листа».
Б) Нужно разбираться в широком технологическом стеке. Одному клиенту нужна рекомендательная система, другому, распознавание изображений на производстве, третьему - прогнозирование спроса, а четвертому речевая аналитика. И для каждого кейса нужно обеспечить максимально возможное качество выполнения и поддержки.
В) Волатильность по денежному потоку, высокие риски кассовых разрывов.
Так, Яндекс закрыл подразделение Yandex Data Factory, несмотря на одну из лучших команд на рынке и сильный PR.
DATA4 успешно существует за счет применения другого подхода к бизнес-процессу, минимизации административного персонала, но сложно масштабироваться, и пока мы крепкий малый бизнес.
4) Сфера обучения ML
Из личных ощущений, людей кто тратит деньги на самообразование в ML в десятки разы больше, чем людей на нем зарабатывающих.
Общие особенности отрасли
А) Завышенные зарплатные ожидания у 90% специалистов. Конечно, если у вас редкая экспертиза, и вы победили в международном конкурсе по распознаванию речи, это оправдано, но когда человек 2 недели назад научился импортировать XGBoost, запрашивать 150-200, это перебор. Такая ситуация возникает из-за HR-пылесосов крупных компаний с «глубокими карманами», и уровнем зарплат в Европе и США.
Б) 90% времени работы – предварительная подготовка данных и интеграция решения в продакшн, и только 10% работа с алгоритмом.
В) Перегретый рынок. Чаще, ML это про PR, капитализацию и брендинг, чем про оптимизацию бизнеса.
В статье я постарался рассказать наблюдения за тем, как устроен рынок ML технологий, где есть место внутренней разработке компаний, а где внешним подрядчикам. Если у вас есть дополнения, буду рад их прочитать в комментариях и личных сообщениях.