pdf-एक्सट्रैक्ट-API एक ऐसा API है जो आधुनिक OCR तकनीक और Ollama-समर्थित मॉडल का उपयोग करके किसी भी दस्तावेज़ या चित्र को संरचित JSON या मार्कडाउन टेक्स्ट में बदल देता है। यह FastAPI का उपयोग करके बनाया गया है और Celery का उपयोग करके एसिंक्रोनस कार्य प्रसंस्करण करता है, Redis OCR परिणामों के कैशिंग के लिए उपयोग किया जाता है। इस API को क्लाउड या बाहरी निर्भरता की आवश्यकता नहीं है, सभी प्रसंस्करण स्थानीय रूप से विकास या सर्वर वातावरण में किया जाता है, जिससे डेटा सुरक्षा सुनिश्चित होती है। यह टेबल डेटा, संख्याओं या गणितीय सूत्रों सहित, PDF से मार्कडाउन में उच्च-परिशुद्धता रूपांतरण का समर्थन करता है, और PDF से JSON रूपांतरण के लिए Ollama-समर्थित मॉडल का उपयोग किया जा सकता है। इसके अतिरिक्त, यह API LLM-सुधारित OCR परिणामों, PDF से व्यक्तिगत पहचान जानकारी (PII) को हटाने, और वितरित कतार प्रसंस्करण और कैशिंग का भी समर्थन करता है।