Une façon de traiter le problème du démarrage à froid consiste à combiner différents types de systèmes de recommandation, tels que le filtrage collaboratif, le filtrage basé sur le contenu et le filtrage basé sur les connaissances, afin de tirer parti des forces et de compenser les faiblesses de chaque méthode. Par exemple, le filtrage collaboratif repose sur la similitude et les évaluations des utilisateurs et des éléments, mais il peut ne pas fonctionner correctement pour les nouveaux utilisateurs ou les éléments qui n’ont pas ou peu d’évaluations. Le filtrage basé sur le contenu utilise les fonctionnalités et les attributs des utilisateurs et des éléments, mais il peut ne pas capturer la diversité et la sérendipité des préférences de l’utilisateur. Le filtrage basé sur les connaissances utilise des connaissances et des règles explicites sur les utilisateurs et les éléments, mais il peut nécessiter davantage d’entrées et d’interactions de la part de l’utilisateur. En intégrant ces méthodes, vous pouvez fournir des recommandations plus robustes et diversifiées qui peuvent gérer différents scénarios de démarrage à froid et réduire la dépendance aux données utilisateur.
-
A common view about users cold start is to guess what users want or what they probably want. Therefore, when a user has a soccer interest, the system should recommend the soccer contents for him/her at the cold start phase. However, this method could bring problems since it misunderstand the intention of the users. For example, if the application has a few soccer contents and their quality is not so good, even the short-term click-rate meets the threshold, the user will find there is no good contents of soccer and finally leave. Therefore, providing what users like is important, showing what we have and we are good at is more important. Users can change their interests easily. For application, changing the contents structure is hard.
-
One approach we may have overlooked is how GenAI and vector databases can be used (independently or combined). For example, item descriptions can be created into embedding vectors using an LLM. For any new item the similarity search in the vector db will provide existing item recommendations. For new users, LLMs can use user profile, demographic and most importantly, they can be used to engage a user in a chat that can be used to match recommendations (again using embedding vectors).
Une autre façon de traiter le problème du démarrage à froid consiste à utiliser des techniques de pré-formation et d’apprentissage par transfert, qui peuvent vous aider à tirer parti des données et des modèles existants provenant d’autres domaines ou sources pour améliorer votre système de recommandation. Par exemple, vous pouvez utiliser des modèles ou des intégrations pré-entraînés qui capturent des caractéristiques générales ou des modèles d’utilisateurs ou d’éléments, tels que des données démographiques, des catégories ou des genres, puis les affiner avec vos données ou tâches spécifiques. Vous pouvez également utiliser des techniques d’apprentissage par transfert, telles que l’adaptation de domaine ou le méta-apprentissage, pour adapter votre modèle à de nouveaux domaines ou tâches avec peu ou pas de données étiquetées. Ces techniques peuvent vous aider à réduire les besoins en données et à améliorer la généralisation et l’adaptation de votre système de recommandation.
-
I think the main question defines "cold start" as the zero knowledge state of a virgin system. Pre-training and transfer learning imply knowledge storage and/or serialization, in which case "cold start" may refer to how fast it can come online. I recall Josh Wheaton's Dollhouse where, by inserting a chip, a bionic person instantaneously gains new skills and knowledge. I would like to see more researches and experiments towards that goal.
Une troisième façon de traiter le problème du démarrage à froid consiste à utiliser des techniques d’apprentissage actif et de rétroaction, qui peuvent vous aider à acquérir des données plus pertinentes et informatives auprès des utilisateurs ou des éléments de manière efficace et interactive. Par exemple, vous pouvez utiliser des stratégies d’apprentissage actif, telles que l’échantillonnage de l’incertitude, l’échantillonnage de la diversité ou l’utilité attendue, pour sélectionner les utilisateurs ou les éléments les plus précieux à interroger ou à recommander, en fonction de l’incertitude, de la diversité ou de l’utilité de leurs évaluations ou commentaires. Vous pouvez également utiliser des techniques de rétroaction, telles que des évaluations explicites, des signaux implicites ou des agents conversationnels, pour collecter davantage de données auprès des utilisateurs ou des éléments, en fonction de leurs préférences, de leur comportement ou de leur interaction. Ces techniques peuvent vous aider à augmenter la qualité et la quantité des données et à améliorer l’apprentissage et la recommandation de votre système de recommandation.
Une quatrième façon de traiter le problème de démarrage à froid consiste à utiliser des techniques de préservation de la vie privée, qui peuvent vous aider à protéger la confidentialité et la sécurité des utilisateurs ou des articles lors de la collecte ou de l’utilisation de leurs données pour votre système de recommandation. Par exemple, vous pouvez utiliser des techniques d’anonymisation ou de pseudonymisation, telles que le chiffrement, le hachage ou le masquage, pour supprimer ou masquer les informations identifiables des utilisateurs ou des éléments, tels que les noms, les e-mails ou les adresses. Vous pouvez également utiliser des techniques de confidentialité différentielle ou d’apprentissage fédéré, telles que l’ajout de bruit, l’agrégation de données ou la distribution de calculs, pour limiter ou empêcher la divulgation d’informations sensibles sur les utilisateurs ou les éléments, telles que les évaluations, les préférences ou le comportement. Ces techniques peuvent vous aider à équilibrer le compromis entre la précision des recommandations et la confidentialité des utilisateurs et à garantir la conformité et la fiabilité de votre système de recommandation.
-
I have worked with a Neobank where so many Audits happen. Privacy is such sectors is the most important factor. We developers cannot access users’ PII or SPI but data with pattern encryption or a column/feature can directly be accessed by the DS model not developers. There is also a very famous Santander Bank Kaggle competitive where they gave only some numeric features without any insight or view on column names. Just some random looking float values used for classification. Privacy importance over the years has only increased and a special role for Privacy expert Data Scientist will open up 😅
-
With more emphasis to profitability in the ecosystem. When implementing a RecSys model one also has to look into the ROI of the model and how often the RecSys model should retrain. Temporal diversity is a factor that one should look into to figure out frequency of retraining of a RecSys pipeline.
Notez cet article
Lecture plus pertinente
-
Systèmes de recommandationQuelles sont les meilleures pratiques pour mettre à jour les profils utilisateur des systèmes de recommandation au fil du temps ?
-
Systèmes de recommandationComment pouvez-vous tirer parti du contenu généré par les utilisateurs et des signaux sociaux pour améliorer votre système de recommandation ?
-
Systèmes de recommandationComment conciliez-vous personnalisation et diversité dans les recommandations de démarrage à froid ?
-
Aide à la prise de décisionComment intégrer les commentaires et les préférences des utilisateurs dans un système de recommandation ?