Reader-LMは、Jina AIが開発した小型言語モデルで、ウェブ上の生の、雑然としたHTMLコンテンツをクリーンなMarkdown形式に変換することを目的としています。これらのモデルは特に長文処理に最適化されており、多言語に対応し、最大256Kトークンのコンテキスト長を処理できます。Reader-LMモデルは、HTMLからMarkdownへの直接変換を行うことで、正規表現やヒューリスティックなルールへの依存を減らし、変換の正確性と効率性を向上させています。