Reader-LM est un petit modèle linguistique développé par Jina AI, conçu pour convertir le contenu HTML brut et désordonné du web en un format Markdown propre. Ces modèles sont spécialement optimisés pour le traitement de longs textes, prennent en charge plusieurs langues et peuvent gérer une longueur de contexte allant jusqu'à 256 000 jetons. Le modèle Reader-LM, grâce à une conversion directe du HTML vers le Markdown, réduit la dépendance aux expressions régulières et aux règles heuristiques, améliorant ainsi la précision et l'efficacité de la conversion.