Экономический эффект торговых интернет-площадок напрямую зависит от того, как быстро будут находить покупатели нужные товары. Низкая скорость поиска приводит к отказам от покупок, а отсутствие нужного товара на первой странице с результатами поиска снижает количество добавлений товаров в корзину. Время отклика системы поиска и наличие нужного товара на первых позициях поисковой выдачи характеризуются показателями полноты и точности системы поиска. Проблема низкого показателя полноты поиска, то есть всех подходящих под поисковый запрос товаров, обостряется в связи с ростом нагрузки и количества предлагаемых магазином товаров. Множество исследований направлено на поиск возможностей улучшения показателей полноты и точности путем более эффективного использования аппаратной части системы поиска и разработки моделей машинного обучения с новыми «слоями» искусственных нейронных сетей, обучающими данными и функциями потерь. В настоящей работе предложен подход, который для увеличения полноты поиска использует знания о товарных категориях. Универсальные методы приближенного поиска используют искусственные кластеры товаров для сокращения времени обработки поискового запроса. При этом полнота найденных товаров-кандидатов ухудшается на 10–20%. Такой подход оправдан, когда данные не имеют естественной структуры. В случае торговой интернет-площадки данные хорошо известны, ими являются товары и их модальности – название, описание, товарная категория, изображения товара, что дает возможность использовать эти знания о данных для улучшения приближенного поиска. Экспериментальные оценки результатов применения данного подхода выявили улучшения показателей полноты и точности извлеченной информации о товарах более чем на 50% без снижения скорости обработки поискового запроса.
Ключевые слова
информационный поиск, ANN, IR, приближенный поиск ближайших соседей, Sentence-BERT, Dual Encoder