最好的LAION AI工具模型_精選LAION資訊

AI資訊

谷歌 DeepMind 推出千億級視覺語言數據集 WebLI-100B

谷歌 DeepMind 團隊正式推出了 WebLI-100B 數據集，這是一個包含1000億個圖像 - 文本對的龐大數據集，旨在增強人工智能視覺語言模型的文化多樣性和多語言性。通過這一數據集，研究人員希望改善視覺語言模型在不同文化和語言環境下的表現，同時減少各個子組之間的性能差異，從而提升人工智能的包容性。視覺語言模型（VLMs）依賴於大量數據集來學習如何連接圖像與文本，從而執行如圖像字幕生成和視覺問答等任務。過去，這些模型主要依賴於 Conceptual Captions 和 LAION 等大型數據集，雖然這

18.1k 1 天前

德國法院允許非營利組織LAION抓取受版權保護的圖像用於AI訓練

在人工智能快速發展的今天，一場發生在德國漢堡的法庭裁決爲AI訓練數據的收集和使用帶來了新的討論。這起案件不僅引發了公衆對AI與版權之間關係的深思，也爲未來AI發展的法律框架提供了重要參考。事件的起因是非營利組織LAION在未經授權的情況下，從一個圖片代理網站下載了一張受版權保護的圖像。LAION將這張圖像與相關描述配對，並將其納入了名爲"LAION-5B"的免費數據集中。這個龐大的數據集包含了高達58.5億對圖像和文字組合，被廣泛用於AI訓練。圖源備註：圖片由AI生成，圖片授

17.4k 2 天前

LAION 發佈全新 AI 數據集 Re-LAION-5B，徹底清除兒童性虐待內容鏈接

LAION發佈Re-LAION-5B，全球首個全面清除CSAM鏈接的AI訓練數據集，旨在解決兒童性虐待材料（CSAM）問題。該數據集在LAION-5B基礎上進行了重大改進，主要分爲Re-LAION-5B Research和Research-Safe兩個版本，共移除2236個CSAM鏈接，其中1008個來自兒童保護組織名單。數據集包含55億對文本和圖像，旨在幫助清理現有數據集，移除所有匹配的CSAM內容。LAION希望通過此舉爲網頁規模數據集的安全標準設定新基準，解決AI訓練數據集中CSAM問題的嚴重性，尤其是AI生成CSAM內容的增長對真實案件調查和社交媒體平臺報告數量的影響。

17.4k 1 天前

LAION 發佈全新 AI 數據集 Re-LAION-5B，徹底清除兒童性虐待內容鏈接

用於訓練 Stable Diffusion 的數據集背後的組織聲稱已經刪除了 CSAM

德國研究機構LAION創建併發布了新數據集Re-LAION-5B，聲稱已清除疑似兒童性虐待材料（CSAM）鏈接。該數據集是舊數據集LAION-5B的修復版，採納了互聯網觀察基金會、人權觀察、加拿大兒童保護中心和斯坦福互聯網觀察站的建議。Re-LAION-5B分爲兩個版本：Research和Research-Safe，後者額外刪除了NSFW內容。數據集旨在支持Stable Diffusion等生成式AI模型的訓練，且不包含圖像，僅提供圖像鏈接和替代文本的索引。Re-LAION-5B的發佈前，斯坦福互聯網觀察站發現LAION-5B包含非法圖片鏈接，且數據集中可能存在不當內容。LAION已暫時下線原數據集，並承諾刪除已知違規鏈接。新數據集包含約55億個文本圖像對，根據Apache2.0許可發佈。LAION強調數據集用於研究而非商業目的，並鼓勵使用元數據清理現有副本。

20.7k 2 天前