Elasticsearch partie 2 : Les requêtes

Ali Ibrahim

Développeur Full Stack | Certifié Spring | Passionné de l'IA

Publié le 22 juil. 2021

Dans le premier article sur elasticsearch, nous avons fait une brève introduction sur le Devtools de Kibana. Dans cet article nous l’utiliserons pour effectuer des requêtes sur notre dataset. Si vous n’avez pas lu le premier article dans lequel j’ai effectué l’introduction générale sur elasticsearch, je vous le conseille.

Avant de commencer il faut savoir qu’elasticsearch ne s’utilise pas en tant que base de données primaire, il sert plutôt à indexer les données pour la recherche. La syntaxe des requêtes elasticsearch est simple, on en parlera pas dans cet article mais si vous voulez en savoir davantage leur documentation est bien détaillée. On distingue plusieurs types de requêtes parmi lesquelles (via la documentation d’elasticsearch) on a :

full text queries ;
les compounds queries, requêtes composée ;
geo queries pour les données géographiques etc.

Dans cet article nous travaillerons plus avec les deux premiers types de requête.

Pour effectuer une recherche efficace sur notre index, il est important de connaitre sa structure et ce qu’il contient. Comme vu dans le premier article, notre index contient l’ensemble des articles publiés par Seth Godin sur son blog depuis janvier 2002 jusqu’en mai 2020. On va voir durant ces années quels sont les sujets sur lesquels il a beaucoup plus publié, les articles les plus aimés, l’année où il a le plus publié etc. Pour rappel chaque article est composé d’un titre, d’une date de publication, d’un contenu plain et HTML, du nombre de stars.

Match Query

La requête match permet de faire une correspondance entre les mots-clés à rechercher avec le contenu des documents. On peut spécifier les propriétés sur lesquels effectuer la recherche, l’opérateur entre les mots-clés OR ou AND, par défaut c’est OR. La requête suivante permet de rechercher tous les articles contenant « Amazon » dans leur titre.

GET sethgodin_blogs/_search
{
  "query": {
      "match":{
         "title": "Amazon"
       }
  }  
}

Résultat :

Le résultat de la recherche est constitué de plusieurs informations utiles. Comme le temps que la recherche a pris took, le nombre total des documents dans le résultat hits.total.value, les dix premiers documents du résultat hits.hits sur le nombre total avec chacun un _score attribué selon sa pertinence par rapport au mot-clé de la recherche etc.

Multi Match Query

Le multi_match permet d’effectuer la recherche sur plusieurs champs, par exemple ici nous recherchons tous les articles qui contiennent le mot-clé Apple à la fois dans le titre et dans le contenu de l’article.

GET sethgodin_blogs/_search
{
  "query": {
     "multi_match": {
       "query": "Apple",
       "fields": ["title","content_plain"]
     }
  }

Résultat :

Match Phrase Query

Si nous recherchons un titre d’un article contenant la phrase Mac fans are crowing about Apple’s en utilisant la requête match, nous aurons comme résultats tous les documents contenant soient Mac ou fans ou are ou crowing ou about ou Apple's. Si nous voulons avoir exactement les articles contenant "Mac fans are crowing about Apple’s" dans le même ordre des mots, il faut utiliser la requête match_phrase.

GET sethgodin_blogs/_search
{
  "query": {
    "match_phrase": {
      "content_plain": "Mac fans are crowing about Apple’s"
    }
  }

Résultat :

On voit qu’on a exactement un seul document (total.value = 1) qui contient cette phrase.

NB: Il existe d’autres requêtes commençant par match, le principe reste le même. Pour en savoir davantage sur les autres matchs, je vous suggère la documentation d’elasticsearch.

Query string

La query_string permet de chercher les documents selon une chaîne de caractères fournie. La chaîne fournie inclut à la fois les mots-clés de la recherche et les opérateurs entre ces mots.

GET sethgodin_blogs/_search
{
  "query": {
    "query_string": {
      "default_field": "content_plain",
      "query": "Microsoft AND Google"
    }
  }

Résultat :

Il existe une requête similaire, simple_query_string qui ne prend pas l’option default_field, elle permet de rechercher ainsi dans tous les champs sans besoin de connaître la structure des documents.

Range Query

Cette requête retourne les documents respectant un intervalle fourni, par exemple nous voulons récupérer tous les articles ayant un nombre de stars compris entre 500 et 1000.

GET sethgodin_blogs/_search
{
  "query": {
    "range": {
      "stars": {
        "gte": 500,
        "lte": 1000
      }
    }
  }

Résultat :

Recommandé par LinkedIn

Gestion des logs avec Logstash, ElasticSearch & Kibana

karim GHANMI il y a 8 ans

Alimenter une BDD DynamoDB via Jupyter (Partie 1 -…

Mickaël Ittah il y a 4 ans

Quelques bases NoSQL émergentes : ScyllaDB

Rudi Bruchez il y a 7 ans

Fuzzy Query

Cette requête seule, ou combinée avec d’autres requêtes comme match, permet de retourner les résultats proches du mot clé de la recherche. Par exemple si on recherche un article qui parle de Facebook, mais on écrit Facebok comme mot-clé, on doit avoir le même résultat comme si on avait saisi Facebook.

GET sethgodin_blogs/_search
{
  "query": {
    "match": {
     "title": {
       "query": "Facebok",
       "fuzziness": 1
     }
    }
  }

Résultat :

Bool Query

Elle permet de mieux affiner une recherche en combinant plusieurs requêtes. Elle est constituée de 3 parties, must qui contient les requêtes obligatoires, should pour les requêtes qui ne sont pas obligatoires mais intéressantes, et filter pour filtrer le résultat de la recherche.

Dans notre exemple, nous souhaitons récupérer tous les articles dont le titre commence par What, les titres contenant what et marketing sont à prioriser et enfin tous les articles doivent avoir un nombre de stars supérieur à 2000. Traduisons maintenant notre exemple en requête Elasticsearch :

GET sethgodin_blogs/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match_phrase_prefix": {
            "title": "What"
          }
        }
      ],
      "should": [
        {
          "match": {
            "title": "Marketing"
          }
        }
      ], 
      "filter": [
        {
          "range": {
            "stars": {
              "gte": 2000
            }
          }
        }
      ]
    }
  }

Résultat :

Booster une requête

Chaque document apparaissant dans un résultat de recherche dispose d’un score en fonction de sa pertinence par rapport aux termes de la recherche. Ce score par défaut est calculé par elasticsearch, mais il peut être modifié.

En effectuant une recherche sur les articles qui parlent de Microsoft, il est clair que les articles contenant le terme Microsoft dans leur titre sont plus pertinents. Pour cela nous allons booster tous les articles contenant Microsoft dans leur titre.

Avant le boost :

Après le boost :

GET sethgodin_blogs/_search
{
  "query": {
    "multi_match": {
      "query": "Microsoft",
      "fields": ["content_plain","title^3"]
    }
  }

Résultat :

Après avoir boosté la propriété title de 3 nous avons le résultat suivant.

Le highlight

Il permet de mettre en évidence le mot-clé de la recherche. Il prend plusieurs options, comme le tag personnalisé pour la mise en évidence etc. Par défaut le tag est la balise <em></em>.

Conclusion

Dans cet article nous avons exploré une partie des requêtes elasticsearch, il en existe une panoplie pour la recherche, l’agrégation ou la suggestion de recherche. C’est bien beau de connaitre toutes ces requêtes, l’idéal est de savoir comme on va les utiliser dans un vrai projet. Ça sera l’objectif du dernier article de notre série, une application de recherche en temps réel avec elasticsearch. Rejoignez-moi sur LinkedIn pour être notifié quand le prochain article sera publié.

Identifiez-vous pour afficher ou ajouter un commentaire

Plus d’articles de Ali Ibrahim

Développez une application intégrant l'IA générative avec Spring AI, OpenAI et Angular

28 oct. 2024

Développez une application intégrant l'IA générative avec Spring AI, OpenAI et Angular

Intégrer l'IA générative dans une application, ce n'est pas seulement consommer des API ; il s'agit de repenser la…

2 commentaires
Fine-Tuning et Appel de Fonctions avec OpenAI et Spring AI

14 sept. 2024

Fine-Tuning et Appel de Fonctions avec OpenAI et Spring AI

Imaginez un modèle de langage capable non seulement de générer du texte, mais aussi d'effectuer des actions concrètes…

2 commentaires
Architecture et Implémentation de la génération augmentée par récupération (RAG) avec Spring AI

20 août 2024

Architecture et Implémentation de la génération augmentée par récupération (RAG) avec Spring AI

Dans le domaine en constante évolution de l’IA générative, la génération augmentée par récupération occupe une position…
Spring Boot et IA Générative : Un Duo Innovant avec Spring AI

10 août 2024

Spring Boot et IA Générative : Un Duo Innovant avec Spring AI

Introduction L'intelligence artificielle a été un sujet technologique crucial au cours de la dernière décennie, mais…

2 commentaires
Ces concepts peu connus et très importants sur Postgresql pour les devs

26 nov. 2022

Ces concepts peu connus et très importants sur Postgresql pour les devs

SQL, Structured Query Language en Anglais est un langage utilisé pour communiquer avec les bases des données…

2 commentaires
Testez efficacement vos API avec Postman grâce à ces astuces

3 sept. 2022

Testez efficacement vos API avec Postman grâce à ces astuces

Le concept d’API REST se base essentiellement sur l’architecture REST. Cette dernière utilise les requêtes HTTP pour…
Ce qu’un développeur doit savoir avant d'utiliser un framework

19 févr. 2022

Ce qu’un développeur doit savoir avant d'utiliser un framework

De nos jours, avec toute l'abondance des frameworks, beaucoup de gens sautent de l'un à l'autre sans même connaître le…
Process et boîte à outils d'un développeur Full Stack

2 oct. 2021

Process et boîte à outils d'un développeur Full Stack

C’est très facile de négliger un aspect du développement quand on est développeur full stack. La majorité de temps…

2 commentaires
Application de recherche en temps réel avec Elasticsearch, vue.js, node.js

15 août 2021

Application de recherche en temps réel avec Elasticsearch, vue.js, node.js

Introduction Ceci est la troisième partie d’une série d’articles sur elasticsearch. Si vous avez déjà des connaissances…

1 commentaire
Découverte du moteur de recherche Elasticsearch partie 1: Installation et notions de base

3 juin 2021

Découverte du moteur de recherche Elasticsearch partie 1: Installation et notions de base

Si vous lisez cet article soit vous êtes en train de découvrir le monde d'elasticsearch ou bien vous avez déjà fait vos…

See all articles

Elasticsearch partie 2 : Les requêtes

Ali Ibrahim

Développeur Full Stack | Certifié Spring | Passionné de l'IA

Match Query

Multi Match Query

Match Phrase Query

Query string

Range Query

Recommandé par LinkedIn

Fuzzy Query

Bool Query

Booster une requête

Le highlight

Conclusion

Plus d’articles de Ali Ibrahim

Autres pages consultées

ElasticSearch ou SolR pour votre moteur de recherche ?

Alimenter une BDD DynamoDB via Jupyter (Partie 1 - Configuration)

Quelques bases NoSQL émergentes : ScyllaDB

Les concepts fondamentaux d’Elasticsearch

Le NoSQL, c’est du SQL

Optimisation de PostgreSQL 5/5

La fonction ROW_NUMBER de MySQL

Alimenter une BDD DynamoDB via Jupyter (Partie 2 - Utilisation AWS CLI)

Elastic Stack, une Suite Big Data à suivre de près !

Erreurs courantes d'utilisation de MongoDB

Explorer les sujets

Match Query

Multi Match Query

Match Phrase Query

Query string

Range Query

Recommandé par LinkedIn

Fuzzy Query

Bool Query

Booster une requête

Le highlight

Conclusion

Plus d’articles de Ali Ibrahim

Développez une application intégrant l'IA générative avec Spring AI, OpenAI et Angular

Fine-Tuning et Appel de Fonctions avec OpenAI et Spring AI

Architecture et Implémentation de la génération augmentée par récupération (RAG) avec Spring AI

Spring Boot et IA Générative : Un Duo Innovant avec Spring AI

Ces concepts peu connus et très importants sur Postgresql pour les devs

Testez efficacement vos API avec Postman grâce à ces astuces

Ce qu’un développeur doit savoir avant d'utiliser un framework

Process et boîte à outils d'un développeur Full Stack

Application de recherche en temps réel avec Elasticsearch, vue.js, node.js

Découverte du moteur de recherche Elasticsearch partie 1: Installation et notions de base

Autres pages consultées

ElasticSearch ou SolR pour votre moteur de recherche ?

Alimenter une BDD DynamoDB via Jupyter (Partie 1 - Configuration)

Quelques bases NoSQL émergentes : ScyllaDB

Les concepts fondamentaux d’Elasticsearch

Le NoSQL, c’est du SQL

Optimisation de PostgreSQL 5/5

La fonction ROW_NUMBER de MySQL

Alimenter une BDD DynamoDB via Jupyter (Partie 2 - Utilisation AWS CLI)

Elastic Stack, une Suite Big Data à suivre de près !

Erreurs courantes d'utilisation de MongoDB

Explorer les sujets