Intelligence Artificielle

DeepSeek Améliore les Performances OCR grâce à l’IA Open-Source d’Alibaba

DeepSeek Améliore les Performances OCR grâce à l'IA Open-Source d'Alibaba
Les recommandations de contenu et de produits d’ADGO.ca sont entièrement indépendantes sur le plan éditorial. Nous pouvons percevoir des revenus lorsque vous cliquez sur les liens de nos partenaires.
En savoir plus

Des nouvelles prometteuses dans le domaine de l’IA

La société chinoise DeepSeek a récemment annoncé des avancées intéressantes dans le traitement de documents. Elle a présenté sa nouvelle version de système de reconnaissance optique de caractères, DeepSeek-OCR 2, qui intègre la technologie d’IA Qwen d’Alibaba pour moderniser sa plateforme.

Une technologie en évolution

Pour améliorer ses performances, DeepSeek a abandonné le cadre CLIP d’OpenAI, qui était à la base de son ancien système. À la place, elle a opté pour le modèle Qwen2-0.5b d’Alibaba Cloud, plus léger. Cette transition a permis d’obtenir un gain de performance de 3.7% par rapport à la version antérieure. Bien que ce chiffre semble modeste, il témoigne d’une approche innovante : DeepSeek-OCR 2 traite les documents comme le ferait un humain, en réorganisant dynamiquement le contenu selon le contexte et le sens, au lieu d’adopter une méthode de déchiffrage strictement mécanique.

Une avancée en matière d’efficacité

Construit sur l’architecture exclusive DeepEncoder V2 de DeepSeek, le système peut compresser des pages de documents complexes en seulement 256 à 1,120 jetons visuels. En comparaison, les systèmes traditionnels nécessitent souvent des milliers de jetons pour un traitement similaire. des tests réalisés sur OmniDocBench v1.5 ont montré un score global de 91,09%, une amélioration significative qui se traduit par de réelles avancées dans la reconnaissance de l’ordre de lecture et la compréhension de la mise en page. DeepSeek affirme que cette technologie réduit les coûts de calcul pour les modèles linguistiques, tout en preservant une précision comparable à la compréhension humaine des documents.

A lire :  Brookings Alerte : Risque de Displacement des Métiers Administratifs par l'IA

Une collaboration avec Alibaba

Cette coopération va au-delà des seules améliorations techniques. Elle illustre l’émergence d’un écosystème chinois d’IA open-source en plein essor, où les entreprises s’appuient sur les innovations des autres pour développer des outils toujours plus puissants. Il est intéressant de noter que cette mise à jour arrive à peine trois mois après le lancement de leur premier système OCR.

Impacts sur les entreprises à l’échelle mondiale

DeepSeek a rendu son système open-source sur Hugging Face, permettant ainsi à des développeurs du monde entier d’accéder à cette technologie et de l’enrichir. Les conséquences de cette démarche sont considérables pour les secteurs gérant d’importants volumes de documents, comme les cabinets d’avocats traitant des contrats ou les organisations de santé numérisant des dossiers patients.

Cette approche de raisonnement sémantique permet d’adapter les modèles de scan à différents types de documents de manière automatisée. Plutôt que d’imposer un traitement rigide, elle réorganise les informations visuelles selon leur pertinence dans chaque document spécifique. Pour les entreprises confrontées à une avalanche de paperasse, cela pourrait signifier un passage d’un traitement de documents coûteux et laborieux à une automatisation qui comprend réellement ce qu’elle lit.

Un documentaire présenté au festival de Sundance cette semaine promet de révéler la réalité troublante derrière la montée rapide de l’IA.

FAQ

Qu’est-ce que DeepSeek-OCR 2?

DeepSeek-OCR 2 est un système de reconnaissance optique de caractères (OCR) qui utilise la technologie d’IA d’Alibaba pour améliorer la compréhension des documents.

Quel est l’impact de la collaboration avec Alibaba?

Cette collaboration illustre le développement d’un écosystème open-source en Chine, permettant le partage et l’amélioration des technologies entre entreprises.

A lire :  OpenAI Finance une Application pour Aider les Parents à Gérer la Vie de leurs Enfants

Comment DeepSeek-OCR 2 se distingue-t-il des systèmes traditionnels?

Contrairement aux systèmes classiques, DeepSeek-OCR 2 utilise une approche dynamique pour traiter les documents, en tenant compte du contexte et de la signification, plutôt qu’une simple analyse mécanique.

Pourquoi rendre la technologie open-source?

En rendant la technologie open-source sur Hugging Face, DeepSeek permet aux développeurs d’accéder à des outils avancés, favorisant l’innovation collaborative et accélérant le progrès dans le traitement de documents.

Quels secteurs pourraient bénéficier de cette technologie?

Les secteurs tels que le droit et la santé, qui traînent souvent une montagne de documents, pourraient tirer un grand profit de cette technologie pour rationaliser leurs processus.