Facebook
  • Acceuil
  • News
  • X (Twitter) lance son agent conversationnel avec une capacité de traitement d'image

X (Twitter) lance son agent conversationnel avec une capacité de traitement d'image

title..

Dans un blog post récent, la société xAI, fondée par Elon Musk, annonce le déploiement progressif de Grok-1.5V, son « modèle multimodal de première génération ». Celui-ci permettra notamment à son agent conversationnel Grok de bénéficier d’une fonctionnalité de traitement et d’analyse des images, à l’instar de ChatGPT qu’il aspire à concurrencer.

Cette nouvelle itération du modèle offre au chatbot la possibilité de traiter une large variété d’informations visuelles, dont des documents, des diagrammes, des captures d’écran et des photographies. L’objectif est d’améliorer la capacité de l’agent conversationnel à comprendre le monde physique, selon xAI.

Grâce à ces nouvelles capacités, Grok peut, par exemple, imaginer une histoire à partir d’un dessin réalisé par un enfant, expliquer la signification d’un mème ou rédiger du code à partir d’un diagramme. Selon xAI, Grok excelle particulièrement dans ce domaine et surpasse même ses concurrents disposant de la même capacité, comme ChatGPT avec GPT-4.

Pour prouver l’efficacité de Grok, xAI s’appuie sur RealWorldQA, un benchmark interne conçu pour évaluer les capacités de compréhension spatiale des modèles multimodaux. Grok aurait obtenu 68,7 % de bonnes réponses, contre 61,4 % pour GPT-4, selon xAI.

Cependant, l’utilisation de Grok reste partiellement inaccessible pour la plupart des utilisateurs, étant liée à l’offre la plus coûteuse de la plateforme Twitter, Premium +. Néanmoins, une décision récente de X offre gratuitement l’accès à Grok pour les comptes influents, ce qui pourrait annoncer un déploiement plus large à l’avenir.