Il ne fait aucun doute que le référencement sémantique est l’avenir du référencement.
La raison ?
À mesure que les moteurs de recherche évoluent vers la recherche sémantique, votre Stratégie de référencement devrait évoluer avec eux.
Le problème est que la barrière à l’entrée est élevée. En d’autres termes, pour faire du référencement sémantique, vous devez avoir une compréhension de base du fonctionnement de la recherche sémantique.
Malheureusement, dans l’état actuel des choses, si vous effectuez une recherche sur Google pour trouver des ressources simples et faciles à comprendre pour le profane, vous vous gratterez la tête.
Pour résoudre ce problème, j'ai tenté de créer des ressources de référencement sémantique que tout le monde peut comprendre.
Ce billet de blog et tous les autres de cette série représentent ma propre quête pour comprendre référencement sémantique. Je dois reconnaître que cet article provient principalement d'informations glanées dans l'ebook de Krisztian Balog. Recherche orientée entité.
Dans cet article, je traiterai de la question :
Qu'est-ce que le Knowledge Graph de Google ?
À un niveau de 30 000 pieds, le Knowledge Graph de Google est une base de connaissances d'entités structurées dans un graphique appelé Knowledge Graph.
Si vous n'avez aucune idée de ce que signifie cette déclaration, n'ayez crainte, je vais essayer de la séparer et d'expliquer chaque segment un par un. Je tenterai ensuite de reconstituer le tout en une phrase cohérente qui sera compréhensible pour le profane.
Je me considère certainement comme un profane et cela signifie que j'espère utiliser un langage simple à comprendre.
Il est intéressant de noter que le Knowledge Graph de Google interagit directement avec les SERP. L'endroit le plus évident pour voir cela est Panneaux de connaissances de Google. Les panneaux de connaissances sont un moyen pour l'utilisateur final d'interagir avec les informations sur l'entité dans le Knowledge Graph.
Pour commencer à comprendre les Knowledge Graphs de Google, nous devons d'abord comprendre pourquoi les moteurs de recherche évoluent vers la recherche sémantique.
via GIPHY
Recherche sémantique
En termes simples, un moteur de recherche sémantique est conçu pour interagir avec des personnes en utilisant un langage qu'une personne utiliserait.
Pourquoi les moteurs de recherche font-ils cela ?
Eh bien, si vous êtes dans le coin depuis un certain temps, vous vous souviendrez peut-être de ce qu'était la saisie d'une requête dans un moteur de recherche il y a quinze ou vingt ans. Si vous vous en souvenez, c'était très inexact. Vous essaieriez de trouver les bons mots à saisir dans le moteur de recherche et vous deviez ensuite fouiller pour trouver la ressource que vous recherchez.
La raison en est que les moteurs de recherche n’avaient à l’époque aucun moyen de comprendre votre requête. Ils ne pouvaient pas non plus comprendre quelle était la signification du contenu en ligne pour répondre à votre question.
Comparez cela avec votre expérience actuelle de l’utilisation des moteurs de recherche. Avez-vous déjà remarqué que Google peut vous proposer de manière presque intuitive un contenu non seulement pertinent pour votre requête, mais qui peut souvent répondre directement à votre requête dans les pages de résultats ?
Alors, comment Google fait-il cela ?
Traitement du langage naturel (NLP).
Traitement du langage naturel de Google est sa capacité à « comprendre » et à interagir avec le langage humain naturel.
Et…
Afin de réaliser le traitement du langage naturel, ils ont besoin de bases de données d'informations lisibles par machine et structurées de manière à ce que imite la façon dont les humains organisent l'information.
En organisant les informations de cette manière, les moteurs de recherche sont en mesure de « comprendre » la requête d'un utilisateur et apporter des ressources pertinentes pour répondre à la requête en « comprenant » le contenu en ligne.
Même si les machines ne comprennent pas réellement le langage, elles sont capables d’imiter la compréhension.
Désormais, pour organiser les informations de manière à permettre aux machines de le faire, elles doivent diviser les idées et les informations en entités.
D'accord, alors que sont les entités ?
Qu'est-ce qu'une entité Google ?
UN Entité Google est défini par Google comme « Une chose ou un concept singulier, unique, bien défini et distinctif ».
En termes simples, les moteurs de recherche disposent de bases de données d'entités et ces bases de données incluent des informations sur les entités telles que le nom, le type, les attributs et les relations entre les entités et les autres entités.
Comme je l'ai mentionné ci-dessus, la raison pour laquelle les moteurs de recherche conservent des bases de données d'entités est de pouvoir organiser les informations dans une structure qui imite la façon dont les gens structurent les informations.
Les entités sont les plus petits éléments de base nécessaires pour organiser les informations de cette manière.
Bon, maintenant que nous avons une compréhension de base des entités, passons aux graphes de connaissances.
Comprendre le Knowledge Graph de Google
Le Knowledge Graph de Google est composé de différents composants. La raison en est que pour que les moteurs de recherche répondent aux requêtes des utilisateurs, ils doivent :
- Avoir une source d'information fiable
- Structurez ces informations de manière à permettre au moteur de recherche de répondre aux requêtes
Cela nous amène à :
- Référentiels de connaissances (KR)
- Bases de connaissances (KB) souvent appelées graphes de connaissances (KG)
Examinons les deux.
Référentiel de connaissances (KR)
Les référentiels de connaissances sont des sources d'informations que les moteurs de recherche utilisent pour créer des bases de connaissances. Ce sont des catalogues d'entités qui organisent les entités en types d'entités.
Ils peuvent éventuellement inclure des descriptions des entités ainsi que des propriétés d'entité. Ces référentiels de connaissances existent sous des formats structurés ou semi-structurés.
L’exemple parfait de référentiel de connaissances est Wikipédia. Chaque article Wikipédia décrit une entité spécifique, ce qui en fait un catalogue d'entités.
De plus, chaque article est attribué à des catégories et nous pouvons visualiser ces catégories comme types d'entités.
Ainsi, dans la capture d'écran ci-dessus, vous pouvez voir les catégories de l'entité « traitement du langage naturel ». Comme vous pouvez le constater, le traitement du langage naturel est une catégorie d’entités. De plus, c'est une sous-catégorie de la linguistique informatique. La linguistique computationnelle est une sous-catégorie de la reconnaissance vocale, etc.
Les articles Wikipédia montrent également les relations entre les entités en ajoutant des hyperliens entre les articles. Ils incluent également des informations sur les attributs et les relations d'une entité.
Toutes ces informations sont dans un format semi-structuré.
Référentiels de connaissances semi-structurés
Les données semi-structurées font simplement référence à des informations qui ont une certaine structure telle qu'un balisage HTML comprenant des paragraphes, des tableaux et Titres HTML.
En termes simples, Wikipédia est un référentiel de connaissances semi-structuré.
Référentiels de connaissances structurés
En revanche, les données structurées (ou bases de données relationnelles) font simplement référence à des données qui ont une structure ou une structure prédéterminée. schéma. Les données structurées sont généralement organisées en tableaux. Cela signifie que chaque champ spécifié par le schéma doit recevoir une valeur (autorisée).
Une fois que les moteurs de recherche disposent de ces informations structurées ou semi-structurées, elles ne sont toujours pas ordonnées de manière à ce que les moteurs de recherche puissent les utiliser pour la recherche sémantique.
L'étape suivante concerne les bases de connaissances (ou graphiques de connaissances).
Bases de connaissances ou graphiques de connaissances
Il est important de comprendre que pour que les logiciels d'IA puissent effectuer des tâches NLP complexes, telles que la compréhension des requêtes des utilisateurs, ils ont besoin que les données soient structurées d'une manière spécifique.
En d’autres termes, les données structurées sous forme de tableaux ou les données semi-structurées comme les articles de blog Wikipédia ne donnent pas aux systèmes d’IA ce dont ils ont besoin pour traiter le langage humain.
Au lieu de cela, les informations doivent être structurées de la même manière que les gens organisent les informations dans leur esprit.
Pour ce faire, les bases de connaissances doivent extraire les informations des référentiels de connaissances et les organiser en assertions sur le monde. Ces assertions décrivent les entités et leurs relations les unes avec les autres. Je décrirai cela plus en détail plus tard.
Pour ce faire, les moteurs de recherche ont besoin d’un modèle de données appelé Resource Description Framework (RDF). RDF fournit un ensemble standard d'instructions décrivant des entités ou des ressources.
Format de description de ressource (RDF)
RDF est un langage conçu pour décrire des entités et leurs relations. Il est constitué de ressources.
Une ressource peut faire référence à :
- Une entité ou un objet
- Un type ou une classe d'entité
- Relations d'entité
Ces ressources sont organisées en instructions RDF appelées triples sémantiques.
Les triplets sémantiques sont un ensemble de trois entités disposées en un énoncé sous la forme sujet-prédicat-objet. (Représentée sous forme graphique, une instruction RDF est représentée par un nœud pour le sujet, une arête allant du sujet à l'objet et un nœud pour l'objet.)
Le sujet et le prédicat sont représentés par leur propre identifiant numérique appelé URI. L'objet de l'instruction peut être représenté par un URI ou une valeur littérale.
Pour ceux d’entre vous qui apprennent visuellement, voici une illustration :
Le sujet d'un triplet est une entité. Le prédicat peut être un type d’entité ou une relation. Par exemple, la nationalité, la date de naissance, le nom, etc. L'objet est soit une autre entité, soit une valeur telle qu'une chaîne représentant un nom ou un nombre représentant une date.
Ainsi, par exemple, regardons la première phrase de l'article Wikipédia sur Mike Tyson :
Michael Gerard Tyson (né le 30 juin 1966) est un ancien boxeur professionnel américain qui a concouru de 1985 à 2005.
Décomposons cela visuellement.
Dans l'illustration ci-dessus, j'ai représenté la première phrase comme un triplet.
Le sujet est l'entité « Mike Tyson », le prédicat est « date de naissance » et « 1966-06-30 » est l'objet. J'ai mis un rectangle autour de Mike Tyson pour représenter que Mike Tyson est une entité. 1966-06-30, en revanche, n'est pas une entité mais plutôt une valeur, je l'ai donc inclus entre guillemets.
Voici une représentation visuelle de la phrase entière :
En allant plus loin, toute entité qui existe dans l’exemple ci-dessus peut être considérée comme le sujet d’un ensemble différent de triplets, ce qui donne lieu à un vaste réseau complexe d’entités et de relations.
Le (loin d’être) le dernier mot sur les Knowledge Graphs
Vous devriez maintenant avoir une compréhension de base de ce qu’est un graphe de connaissances. De plus, vous devez avoir une compréhension profane des informations stockées dans les graphiques de connaissances et vous devez également comprendre d'où elles proviennent.
Bien qu'il n'y ait pas de stratégies concrètes dans cet article, je pense que ces connaissances constituent une base de base pour comprendre le référencement sémantique qui vous aidera plus loin sur la voie de la célébrité en matière de référencement.
Et la compréhension mène à des informations exploitables.