
25 octobre 2025
YBA MAGAR obtient un taux de réponse correct de 59,08 % sur le benchmark MuSique, ce qui correspond au modèle affiné de Microsoft et surpasse Salesforce, Google, Huawei et l'université de Pékin. Avec les meilleurs scores Exact Match (53,2 %) et F1 (69,5 %), MAGAR établit une nouvelle norme en matière de raisonnement augmenté par extraction pour l'IA d'entreprise.
Nous présentons MAGAR (Multi-Agent Graph-Augmented RAG), un framework de génération augmenté par extraction qui combine la récupération basée sur des graphes avec une orchestration multi-agents pour soutenir un raisonnement contextuel robuste en plusieurs étapes sur les connaissances de l'entreprise. Pour évaluer la généralité de MAGAR pour le raisonnement à sauts multiples, nous l'avons comparé à MuSica, un ensemble de données public multi-documents et réponses à sauts multiples. Ce rapport présente les résultats d'évaluation tirés de notre matériel d'expérimentation, explique le protocole d'évaluation et fournit une annexe contenant des notes de reproductibilité. Tous les résultats numériques de ce rapport sont tirés du matériel d'évaluation fourni et n'ont pas été modifiés. Ces résultats confirment l'efficacité de MAGAR en matière de raisonnement augmenté par extraction et positionnent YBA parmi les leaders en matière de performances de réponse aux questions à sauts multiples.



Chiffre : Comparaison des performances de YBA RAG (MAGAR) par rapport aux principaux systèmes In Context
YBA.ai crée des agents contextuels qui automatisent le travail des connaissances pour les équipes chargées de la commercialisation. Notre technologie MAGAR (Multi-Agent Graph-Augmented RAG) associe la récupération basée sur des graphes à une orchestration multi-agents pour fournir un raisonnement robuste en plusieurs étapes et des réponses étayées par des preuves à partir des données et des bases de connaissances d'une entreprise.
Présentation
Les équipes GTM d'entreprise s'appuient de plus en plus sur des réponses précises et étayées par des preuves, tirées de la documentation interne (manuels, playbooks, documents sur les produits, notes CRM). Les questions à sauts multiples, c'est-à-dire celles qui nécessitent de relier les faits entre plusieurs documents et d'effectuer un raisonnement intermédiaire, constituent toujours un défi majeur pour les pipelines standard de récupération et de génération.
MAGAR a été développé pour résoudre ce problème : il augmente la récupération vectorielle grâce à une représentation graphique des connaissances et coordonne plusieurs agents spécialisés pour produire des réponses fondées avec provenance. MuSique est une référence publique pertinente pour l'assurance qualité multi-sauts ; nous l'avons utilisée pour valider la capacité de MAGAR à enchaîner les preuves et à produire des réponses correctes dans tous les documents.
Cet ensemble de données est parfait pour valider MAGAR car il sonde rigoureusement les capacités de raisonnement complexes. Contrairement à une simple question de questions-réponses, une question MuSique nécessite que le système :
Ce besoin d'intégrer les preuves et de maintenir la séquence correspond directement aux principaux atouts de MAGAR : modéliser les relations entre les segments d'informations et préserver des séquences de tâches cohérentes grâce à sa récupération basée sur des graphiques.
Lien vers l'ensemble de données : https://arxiv.org/abs/2108.00573
Pour garantir une évaluation objective et complète des performances de MAGAR, nous avons évalué le système à l'aide de mesures standard largement adoptées dans la recherche sur la génération retrieval-augmentée (RAG)
Métriques d'évaluation :
précision = jetons correspondants/jetons générés
rappel = jetons correspondants/jetons corrects
Score de F1 = 2 x (précision x rappel)/(précision + rappel)
Nous avons testé MAGAR par rapport au kit de développement MuSique en utilisant deux scénarios pour garantir une validation complète et la confiance dans les résultats :

Les résultats de référence montrent que notre technologie a atteint Exactitude de la réponse de 46,50 % dans son intégralité 1 127 questions évaluation, avec Correspondance exacte de 36,29 % et un Score de F1 de 53,30 %. Sur le 500 questions aléatoires sous-ensemble, performances améliorées à 59,08 % Exactitude des réponses, 53,20 % Correspondance exacte, et Score de 69,50 % en F1, ce qui indique une précision et une exhaustivité accrues sur un ensemble d'évaluation plus restreint.
Voici les détails des stratégies d'évaluation utilisées par d'autres
Microsoft - PIKE RAG :
Google - RAG spéculatif :
Salesforce - GPT-4o RAG + HyDE :
Université de Pékin - HoPrag
Huawei - GeAR :
Le tableau suivant montre la comparaison de notre RAG par rapport aux autres

En comparant YBA RAG (MAGAR) à d'autres systèmes de génération augmentés par récupération, nous constatons qu'il atteint l'une des meilleures performances globales sur le benchmark MuSique. Avec un exactitude des réponses de 59,08 %, le modèle de YBA fonctionne presque à égalité avec le PIKE RAG affiné de Microsoft (59,60 %), tandis que dépassant le GPT-4o RAG + HyDE de Salesforce (52,20 %), RAG spéculatif de Google (31,57 %), HoPrag de l'université de Pékin (42,2 % EM, 54,9 F1), et L'équipement de Huawei (19 % EM, 35,6 F1). Notamment, YBA MAGAR obtient le meilleur score Exact Match (53,2 %) et le meilleur score en F1 (69,5 %) parmi tous les modèles, démontrant une cohérence supérieure entre le contexte récupéré et les réponses générées. Cela indique que le mécanisme de récupération multi-agents de MAGAR améliore efficacement la précision des réponses et l'alignement contextuel.
Veuillez vous référer à la comparaison des résultats du graphique ci-dessus.
Remarque : Tous les résultats de l'analyse comparative sont dérivés de l'ensemble de données de développement MuSique et vérifiés à l'aide de mesures d'évaluation RAG standard.