説明用ブログ

解説用ブログです

Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models 9 結論(Limitations & Conclusion) 全文翻訳

Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models

https://www.researchgate.net/publication/366093127_Diffusion_Art_or_Digital_Forgery_Investigating_Data_Replication_in_Diffusion_Models

の9 結論(Limitations & Conclusion)の全文翻訳になります。

 

9. Limitations & Conclusion
 The goal of this study was to evaluate whether diffusion models are capable of reproducing high-fidelity content from their training data, and we find that they are.  While typical images from large-scale models do not appear to contain copied content that was detectable using our feature extractors, copies do appear to occur often enough that their presence cannot be safely ignored; Stable Diffusion images with dataset similarity ≥ .5, as depicted in Fig. 7, account for approximate 1.88% of our random generations.

  Note, however, that our search for replication in Stable Diffusion only covered the 12M images in the LAION Aesthetics v2 6+ dataset.  The model was first trained on over 2 billion images, before being fine-tuned on the 600M LAION Aesthetics V2 5+ split.  The dataset that we searched in our study is a small subset of this fine-tuning data, comprising less than 0.6% of the total training data. 
  Examples certainly exist of content replication from sources outside the 12M LAION Aesthetics v2 6+ split – see Fig 12.  Furthermore, it is highly likely that replication exists that our retrieval method is unable to identify.  For both of these reasons, the results here systematically underestimate the amount of replication in Stable Diffusion and other models. 

 

9 結論(Limitations & Conclusion)
 本研究の目的は、拡散モデルが学習データから忠実度の高いコンテンツを再現できるかどうかを評価することでした。結果、それらは再現できることが分かりました。
大規模モデルの典型的な画像には、我々の特徴抽出器を用いて検出可能なコピーコンテンツは含まれていないようですが、安全性の観点からその存在を無視できないほど頻繁にコピーが発生しているようです。
図7に示すように、データセット類似度≥ .5 のStable Diffusion画像は、我々が行ったランダムな生成物のおよそ 1.88% を占めています。
 注意点として、なぜこのようなことが起きたかといえば、私たちがStable Diffusionの複製を探したのはLAION Aesthetics v2 6+データセットのうち、わずか12million(1200万枚)イメージだけであることに留意してください。
このモデルは、まず20億枚以上の画像で学習した後、600million(6億枚)のLAION Aesthetics V2 5+分割で微調整を行いました。
本研究で検索したデータセットは、この微調整データの小さなサブセットであり、全トレーニングデータの0.6%未満で構成されています。
 実際、12million(1200万枚) LAION Aesthetics v2 6+ split以外のソースからコンテンツが複製された例も確かに存在します(図12参照)。
さらに、我々の検索手法では特定できない複製が存在する可能性も高いです。
これらの理由から、今回の結果はStable Diffusionや他のモデルにおける複製の量を系統的に過小評価しています。

 

Figure12

図12. Stable Diffusionにより生成された絵画 "The Scream"。
この画像はトレーニングに使用した600million(6億枚)画像LAION-Aesthetics-5+分割内にありますが、本研究で検索した12million(1200万枚)画像LAION-Aesthetics-6+分割内にはありません。