Ce projet Github utilise un modèle GPT pour analyser les fichiers PDF. Il peut parfaitement analyser la mise en page, les formules mathématiques, les tableaux, les images et les graphiques contenus dans les PDF, à un coût moyen de 0,013 $ par page. Les étapes d'analyse des fichiers PDF sont les suivantes :
1. Utiliser la bibliothèque PyMuPDF pour analyser le PDF et le séparer en zones non textuelles et zones textuelles.
Utiliser la bibliothèque PyMuPDF pour analyser le PDF en zones non textuelles et zones textuelles, puis utiliser un grand modèle visuel (tel que GPT-4o) pour l'analyser et obtenir un fichier Markdown. 2. Utiliser un grand modèle visuel (tel que GPT-4o) pour analyser et obtenir un fichier Markdown.