ocr-vqgan

Public

OCR-VQGAN是一种离散图像编码器（分词器和反分词器），用于Paper2Fig100k数据集中的图表图像。该项目实现了OCR感知损失，用于生成清晰的图像内文本。它是CompVis/taming-transformers中VQGAN的衍生项目。

dataset deep-generative-model deep-learning image-generation image-reconstruction ocr ocr-vqgan paper2fig paper2fig100k taming-transformers

创建时间：2022-11-07T22:45:21

更新时间：2025-04-11T16:25:14

https://arxiv.org/abs/2210.11248

Stars

Stars Increase

相关项目

Tensorflow

人人皆可使用的开源机器学习框架

Stable Diffusion Webui

Stable Diffusion 的网页版界面

155340

1年前

+41today

Transformers

Hot

bert

Pytorch、TensorFlow和JAX框架下最先进的机器学习转换器

148039

2年前

+56today

30 Seconds Of Code

提升开发技能的编程文章

Generative Ai For Beginners

21堂课，开启生成式AI之旅！ https://microsoft.github.io/generative-ai-for-beginners/

94133

2个月前

+47today

Pytorch

autograd

Python中基于张量和动态神经网络的强大GPU加速计算

92185

2天前

+45today

Opencv

开源计算机视觉库

Netdata

洞悉你的基础设施！

Deep Live Cam

只需一张照片，即可实时换脸，一键生成深度伪造视频

72346

1个月前

+26today

D2l Zh

book

《动手学深度学习》是一本面向中文读者的实用型深度学习教材，提供可运行的代码和丰富的讨论内容。它已被全球70多个国家、500多所大学采用，作为深度学习课程的教材。

71475

18小时前

+49today

AI开源&商用产品

AI产品提交

模型库

MCP服务端

MCP客户端

MCP服务调试

案例教程

AI热门资讯

今日AI热点