ReaderLM v2, développé par Jina AI, est un petit modèle linguistique de 1,5 milliard de paramètres, spécialisé dans la conversion HTML vers Markdown et l'extraction HTML vers JSON, offrant une précision exceptionnelle. Ce modèle prend en charge 29 langues et peut traiter des longueurs de combinaison d'entrée et de sortie jusqu'à 512 000 jetons. Il utilise un nouveau paradigme d'entraînement et des données d'entraînement de meilleure qualité, ce qui représente une amélioration significative par rapport à son prédécesseur, notamment pour le traitement de longs textes et la génération de syntaxe Markdown. Il maîtrise la syntaxe Markdown et excelle dans la génération d'éléments complexes. De plus, ReaderLM v2 introduit une fonctionnalité de génération directe HTML vers JSON, permettant aux utilisateurs d'extraire des informations spécifiques à partir de HTML brut en fonction d'une structure JSON donnée, éliminant ainsi le besoin d'une conversion Markdown intermédiaire.