Pinecone, новый стартап, основанный людьми, которые помогли запустить Amazon SageMaker, создал векторную базу данных, которая генерирует данные в специализированном формате, чтобы помочь быстрее готовить приложения для машинного обучения, что раньше было доступно только для крупнейших организаций. Сегодня компания презентовала новый продукт и объявила о посевных инвестициях в размере 10 млн долларов (740 млн рублей), возглавляемых Wing Venture Capital.
Основатель компании Эдо Либерти (Edo Liberty) говорит, что он создал ее из-за фундаментального убеждения: отрасль сдерживается отсутствием более широкого доступа к этому типу баз данных. «Данные, которые ожидает модель машинного обучения, не являются записью JSON, это многомерный вектор, который представляет собой либо список функций, либо так называемое вложение, т.е. числовое представление элементов или объектов в мире. Этот формат гораздо более семантически богат и применим для машинного обучения», — пояснил он.
Г-н Либерти говорит, что эта концепция широко поддерживается специалистами по данным и подтверждается исследованиями, но до сих пор только крупнейшие и технически превосходные компании, такие как Google или Pinterest, могли воспользоваться этим. Он и его команда создали Pinecone, чтобы сделать такую технологию доступной для любой компании.
Стартап потратил последние пару лет на создание решения, которое состоит из трёх основных компонентов. Главным является векторный движок для преобразования данных в формат, пригодный для машинного обучения. Либерти утверждает, что это часть технологии, которая содержит все структуры данных и алгоритмы, позволяющие индексировать огромные объёмы векторных данных большой размерности и выполнять поиск по ним эффективным и точным способом.
Второе — это облачная система, которая применяет все преобразованные данные к модели машинного обучения, одновременно обрабатывая такие функции, как поиск в индексе, а также пре- и постобработка — всё, что нужно команде специалистов по анализу данных для запуска масштабного проекта машинного обучения с очень большими рабочими нагрузками и пропускной способностью. Наконец, есть уровень управления для отслеживания всего этого и конроля за передачей данных между исходными местоположениями.
Один из классических примеров, который использует Либерти, — это механизм рекомендаций электронной коммерции. Хотя это было стандартной частью онлайн-продаж в течение многих лет, он считает, что использование подхода векторизации данных приведёт к гораздо более точным рекомендациям, и говорит, что результаты исследований в области науки о данных подтверждают это.
«Раньше развёртывание [чего-то вроде механизма рекомендаций] было на самом деле невероятно сложным, а […] если у вас есть доступ к базе данных производственного уровня, 90% трудностей и тяжелой работы при создании этих решений исчезают, ради чего мы этим и занимаемся. Мы считаем, что это новый стандарт», — поделился Либерти.
В настоящее время в компании работает 10 человек, включая основателей, но планируется удвоить или даже утроить это число, в зависимости от того, как пройдёт год. Строя свою компанию как иммигрант-основатель (Эдо из Израиля), он говорит, что главное — это разнообразие. И добавляет, что над этим он много работал на своих предыдущих должностях в Yahoo и Amazon, комплектуя свои команды в этих двух организациях. Один из способов, которым он это делает, — процесс найма: «Мы проинструктировали наших рекрутеров проявлять инициативу, следя за тем, чтобы они не упускали отличных кандидатов и приводили к нам разнообразный набор соискателей».
Заглядывая в будущее после пандемии, Либерти говорит, что он немного более традиционен и предпочитает офис дому, поскольку ценит личное общение. «Может быть, я старомоден, но мне нравятся офисы, и мне нравятся люди, нравится видеть, с кем я работаю, зависать с ними, смеяться и получать удовольствие от компании друг друга, поэтому я не прыгаю на подножку поезда ‘давайте все работать из дома’».