Dans une démarche visant à renforcer sa présence dans le domaine de l'intelligence artificielle (IA), l’entreprise chinoise de commerce en ligne Alibaba a récemment présenté deux modèles d'IA novateurs. Ces modèles, baptisés « Qwen-VL » et « Qwen-VL-Chat », marquent une étape importante dans la stratégie de l'entreprise pour accélérer sa position dans le secteur de l'IA et répondre à la concurrence, notamment de la part de son rival Baidu.
Les modèles Qwen-VL et Qwen-VL-Chat font partie des versions multimodales de Qwen-7B et Qwen-7B-Chat, deux outils qui ont été récemment rendus open source par Alibaba. Ces nouvelles versions sont capables de traiter différents types de données, tels que le texte et les images, ce qui les rend extrêmement polyvalentes dans diverses applications.
Qwen-VL, qui signifie "Qwen Large Vision Language Model", a la capacité unique de comprendre à la fois des images et des textes en anglais et en chinois. Grâce à cette capacité multimodale, il peut répondre à des questions ouvertes en se basant sur des images et générer des légendes pour celles-ci. Par exemple, si un utilisateur soumet une photo d'un panneau d'affichage avec des idéogrammes chinois indiquant l'organisation d'un hôpital, Qwen-VL peut répondre à des questions en se basant sur le contenu visuel de l'image. De plus, il peut résoudre des équations mathématiques à partir de photos.
Le modèle Qwen-VL-Chat, quant à lui, agit comme un assistant conversationnel doté de compétences multimodales. Il peut interagir avec les utilisateurs en prenant en compte à la fois le texte et les images dans les échanges. Par exemple, il peut répondre aux questions des utilisateurs concernant le contenu des images et effectuer des tâches basées sur ces interactions.
Ces nouvelles fonctionnalités sont rendues possibles grâce à l'intégration d'un encodeur d'images dans les modèles Qwen-VL et Qwen-VL-Chat. Ces innovations ouvrent des possibilités passionnantes pour des applications diverses, allant de l'analyse d'images à la résolution de problèmes mathématiques.
Alibaba Cloud a mis en avant le caractère open source de ces modèles, les rendant disponibles gratuitement pour des usages commerciaux. Cette approche reflète l'engagement d'Alibaba à contribuer à l'avancement de l'IA tout en offrant des outils puissants aux développeurs et aux chercheurs intéressés par l'exploration de la multimodalité dans le domaine de l'IA.