Arthur lance un outil open source pour aider les entreprises à trouver le meilleur LLM pour un emploi

Arthur, une startup de surveillance de l'apprentissage automatique, a bénéficié cette année de l'intérêt porté à l'IA générative et a développé des outils pour aider les entreprises à travailler plus efficacement avec les LLM. Aujourd'hui, il lance Arthur Bench, un outil open source pour aider les utilisateurs à trouver le meilleur LLM pour un ensemble particulier de données.

Adam Wenchel, PDG et co-fondateur d'Arthur, affirme que la société a constaté un grand intérêt pour l'IA générative et les LLM, et qu'elle a donc déployé beaucoup d'efforts pour créer des produits.

Il dit qu'aujourd'hui, et étant donné que nous sommes moins d'un an depuis la sortie de ChatGPT, les entreprises ne disposent pas d'un moyen organisé pour mesurer l'efficacité d'un outil par rapport à un autre, et c'est pourquoi elles ont créé Arthur Bench.

"Arthur Bench résout l'un des problèmes critiques que nous entendons avec chaque client, à savoir [avec tous les choix de modèles], lequel convient le mieux à votre application particulière", a déclaré Wenchel à TechCrunch.

Il est livré avec une suite d'outils que vous pouvez utiliser pour tester méthodiquement les performances, mais la vraie valeur est qu'il vous permet de tester et de mesurer la façon dont les types d'invites que vos utilisateurs utiliseraient pour votre application particulière fonctionneront par rapport à différents LLM.

Crédits images :Arthur

"Vous pourriez potentiellement tester 100 invites différentes, puis voir comment deux LLM différents - comme la comparaison d'Anthropic et d'OpenAI - sur les types d'invites que vos utilisateurs sont susceptibles d'utiliser", a déclaré Wenchel. De plus, il dit que vous pouvez le faire à grande échelle et prendre une meilleure décision quant au modèle le mieux adapté à votre cas d'utilisation particulier.

Arthur Bench est publié aujourd'hui en tant qu'outil open source. Il y aura également une version SaaS pour les clients qui ne souhaitent pas s'occuper de la complexité de la gestion de la version open source, ou qui ont des exigences de test plus importantes et sont prêts à payer pour cela. Mais pour l’instant, Wenchel a déclaré qu’ils se concentraient sur le projet open source.

Le nouvel outil fait suite à la sortie d'Arthur Shield en mai, une sorte de pare-feu LLM conçu pour détecter les hallucinations chez les modèles, tout en protégeant contre les informations toxiques et les fuites de données privées.

Crédits images :