Що таке рекомендаційні системи?
Рекомендаційні системи — це алгоритми, що підбирають релевантні товари та послуги на основі даних про користувача.
Технологія є одним із підрозділів машинного навчання.
Мета колаборативної фільтрації — знайти користувача, який оцінив конкретний об’єкт, і розрахувати коефіцієнт кореляції векторів його оцінок усіх об’єктів у базі даних. Для цього часто використовують метод k-найближчих сусідів.
У центрі моделі, заснованої на контенті, знаходиться об’єкт. Для роботи алгоритму оцінки користувача не потрібні. Моделі важливо знати будь-які властивості, що характеризують об’єкт: автор, жанр, країна походження, виробник тощо. При цьому необхідно розуміти, що не всі з них релевантні для споживача, тому варто обмежитися лише основними атрибутами.
Останнім часом засновані на контенті моделі користуються великою популярністю. Їх не потрібно довго навчати, розробники можуть одразу почати рекомендувати товари для користувачів.
Однак у цього методу є й недоліки. Багато користувачів помічали, що після пошуку певного товару в Google їх починала "переслідувати" реклама з пропозицією придбати цей товар у якомусь інтернет-магазині. Для зменшення кількості негативних відгуків про нерелевантність подібних оголошень розробники доповнюють алгоритми моделями, заснованими на знаннях. Вони також не спираються на оцінки, а враховують лише профілі користувача та товару.
Як рекомендаційні системи збирають дані?
Дані для рекомендаційних алгоритмів можуть збиратися явним і прихованим способами.
До явних способів належать запит у користувача оцінити об’єкти за диференційованою шкалою, ранжувати їх від кращого до гіршого, порівняти два схожі товари або скласти список улюблених об’єктів. Ключовий момент — користувач розуміє, що його дані використовуються алгоритмами і дає згоду на їх обробку.
Під час прихованого способу відвідувачі сайтів не завжди усвідомлюють, що їхні дії можуть використовуватися рекомендаційними системами. Сюди належать файли cookie, рекламні трекери Google або Facebook, детальний аналіз взаємодії з відеороликами та інше.
Як правило, уряди багатьох країн зобов’язують сайти сповіщати відвідувачів про збір таких даних. Однак у користувачів не завжди є можливість відмовитися від цього
Де використовуються рекомендаційні системи?
Як уже згадувалося, рекомендаційні системи широко використовуються в електронній комерції. З їхньою допомогою інтернет-магазини можуть радити покупцям релевантні товари в блоці "Вам також може сподобатися" або пропонувати комплементарні продукти безпосередньо в кошику. Також якщо товару немає на складі, алгоритми можуть знайти аналоги.
У поштових розсилках також часто використовуються персональні рекомендації.
Подібними алгоритмами користуються ритейлери на кшталт Amazon, Ozon або Wildberries.
Великі стримінгові сервіси також використовують рекомендаційні системи. Серед них Netflix, Spotify, Apple Music, Яндекс.Музика, YouTube, Megogo та інші.
Алгоритми рекомендацій широко використовуються і в соціальних мережах. Facebook, Twitter, Instagram, ВКонтакте та інші вже протягом багатьох років демонструють користувачам контент, зібраний алгоритмами. Лише деякі з них дозволяють переключитися на хронологічну стрічку.
Які проблеми у рекомендаційних систем?
Рекомендаційні системи мають низку обмежень. Одним із них є проблема холодного старту — коли для роботи алгоритму ще не накопичено достатньої кількості даних. Це типова ситуація для нового або непопулярного об’єкта, який оцінила мала кількість користувачів, або для неординарного споживача, уподобання якого сильно відрізняються від середньостатистичного користувача.
У таких випадках рейтинги коригують штучно. Наприклад, оцінку обчислюють не як середню по позиції, а як згладжену середню. За малої кількості відгуків рейтинг об’єкта тяжітиме до якоїсь "безпечної середньої", а коли набирається достатня кількість реальних оцінок, то штучне усереднення відключається.
Інша проблема рекомендаційних алгоритмів — упередженість. Неточно налаштовані алгоритми, закладені в них стереотипи, а також дії користувачів можуть вплинути на ранжування інформації.
У 2021 році рекламні алгоритми Facebook непропорційно показували різні оголошення про вакансії чоловікам і жінкам. Інструмент автоматичного обрізання фотографій для домашньої стрічки Twitter у більшості випадків акцентував увагу на молодих і струнких дівчатах.
В обох випадках розробники швидко виправили помилки, проте не завжди це вдається. З критикою роботи рекомендаційних алгоритмів постійно стикається компанія Google.
Наприклад, результати видачі за пошуковим запитом "спортсмени" і "спортсменки" сильно відрізняються. У випадку з чоловіками алгоритми показують статті з професійними досягненнями атлетів. Однак стосовно жінок система видає різні рейтинги "привабливості" і "сексуальності".
Результати пошукової видачі в Google за запитами "спортсмени" і "спортсменки". Дані: Google.
Впливати на пошукову видачу можуть не тільки користувачі, а й боти. У 2018 році користувачі Reddit провели навмисні маніпуляції з алгоритмами Google, щоб за запитом "ідіот" відображалася фотографія колишнього президента США Дональда Трампа.
Під час слухань у Конгресі з приводу інциденту генеральний директор корпорації Сундар Пічаї повідомив, що співробітники компанії не втручаються в ранжування інформації. За його словами, алгоритми роблять це самостійно, скануючи мільйони пошукових рядків і ранжуючи їх за більш ніж 200 параметрами.
Упередженістю алгоритмів можуть користуватися і розробники рекомендаційних систем. У жовтні 2021 року колишня співробітниця Facebook опублікувала документи, що доводять навмисне використання "шкідливих" інструментів на майданчику. За її словами, топменеджмент знав, що алгоритми виявляють нетерпимість щодо незахищених верств населення. Але компанія не поспішала усувати помилки, оскільки такий контент сильніше залучав користувачів і збільшував доходи компанії за рахунок показу реклами.
Підписуйтесь на новини ForkLog у Telegram: ForkLog AI — всі новини зі світу ШІ!