IBMとHugging Faceがタッグを組んで大発表!オープンソースの文書解読ツールSmolDoclingで、複雑な文書をワンクリックで構造化データに変換!
コンピュータサイエンスの分野において、複雑な構造を持つ文書を整理されたデータに変換することは、長年困難な課題でした。従来の方法では、複数のモデルを組み合わせた複雑なプロセスが必要であったり、大規模なマルチモーダルモデルを使用する必要がありました。大規模モデルは強力なように見えますが、しばしば「幻覚」を起こし、コストも非常に高くなります。しかし、最近IBMとHugging Faceが共同で発表したSmolDoclingは、わずか256Mパラメータのオープンソース視覚言語モデル(VLM)です。