pdf-extract-api es una API que utiliza tecnología OCR moderna y modelos compatibles con Ollama para convertir cualquier documento o imagen en texto Markdown o JSON estructurado. Construida con FastAPI y utilizando Celery para el procesamiento de tareas asíncronas y Redis para el almacenamiento en caché de los resultados OCR. La API no requiere la nube ni dependencias externas; todo el procesamiento se realiza localmente en un entorno de desarrollo o servidor, garantizando la seguridad de los datos. Admite la conversión de PDF a Markdown con alta precisión, incluyendo datos de tablas, números o fórmulas matemáticas, y la conversión de PDF a JSON utilizando modelos compatibles con Ollama. Además, la API admite la mejora de los resultados OCR mediante LLM, la eliminación de información de identificación personal (PII) de los PDF, el procesamiento de colas distribuidas y el almacenamiento en caché.