ocr-vqgan
PublicOCR-VQGAN是一种离散图像编码器(分词器和反分词器),用于Paper2Fig100k数据集中的图表图像。该项目实现了OCR感知损失,用于生成清晰的图像内文本。它是CompVis/taming-transformers中VQGAN的衍生项目。
datasetdeep-generative-modeldeep-learningimage-generationimage-reconstructionocrocr-vqganpaper2figpaper2fig100ktaming-transformers
创建时间:2022-11-07T22:45:21
更新时间:2025-04-11T16:25:14
https://arxiv.org/abs/2210.11248
81
Stars
0
Stars Increase