説明用ブログ

解説用ブログです

Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models 1 導入(イントロ) 全文翻訳

Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models

https://www.researchgate.net/publication/366093127_Diffusion_Art_or_Digital_Forgery_Investigating_Data_Replication_in_Diffusion_Models

の1 導入(イントロ) 全文翻訳になります。


1 導入(イントロ)

1. Introduction

  The rapid rise of diffusion models has led to new generative tools with the potential to be used for commercial art and graphic design. The power of the diffusion paradigm stems in large part from its reliance on simple denoising networks that maintain their stability when trained on huge web-scale datasets containing billions of imagecaption pairs.

  These mega-datasets have the power to forge commercial models like DALL·E [52] and Stable Diffusion [54], but also bring with them a number of legal and ethical risks [7]. Because these datasets are too large for careful human curation, the origins and intellectual property rights of the data sources are largely unknown. This fact, combined with the ability of large models to memorize their training data [9,10,22], raises questions about the originality of diffusion outputs. There is a risk that diffusion models might, without notice, reproduce data from the training set directly, or present a collage of multiple training images. 

  We informally refer to the reproduction of training images, either in part or in whole, as content replication. In principle, replicating partial or complete information from the training data has implications for the ethical and legal use of diffusion models in terms of attributions to artists and photographers.  Replicants are either a benefit or a hazard; there may be situations where content replication is acceptable, desirable, or fair use, and others where it is “stealing.”  While these ethical boundaries are unclear at this time, we focus on the scientific question of whether replication actually happens with modern state-of-the-art diffusion models, and to what degree.

 

1. はじめに

拡散モデルの急速な台頭により、商業美術やグラフィックデザインに利用できる可能性を秘めた、画像を生成する新しいツールが誕生しました。
拡散パラダイムの威力は、根本的に、シンプルなノイズ除去ネットワークへ大きく依存しています。そのノイズ除去ネットワークは、数十億の「イメージ」ー「キャプション」ペアを含む巨大なウェブスケールのデータセットで訓練しても安定性を維持するものです。

これらの大量のデータセットはDALL-E [52]やStable Diffusion [54]のような商業モデルを形成するほどの物量がありますが、同時に多くの法的・倫理的リスクも伴っています[7]。
というのも、これらのデータセットは、人間の手による注意深い情報の収集、精査、整理等を行うには規模が大きすぎるのです。そのため、データソースの出所や知的財産権のほとんどは不明です。
この事実は、大規模なモデルが学習データを記憶する能力[9,10,22]と相まって、拡散モデルの手法による出力のオリジナリティに疑問を投げかけるものです。
そのため、拡散モデルには次の危険性があります。予告なしに学習元のデータセットのデータから直接そのまま複製物を再現したり、あるいはデータセットにある複数の学習済みの画像のコラージュを作成しうるといった危険性です。

学習用画像の一部または全部を複製することを、我々は非公式にコンテンツ複製(content replication)と呼んでいます。
原理的には、アーティストや写真家への帰属という観点から、学習データから情報の一部または全部を複製することは、拡散モデルの倫理的・法的な使用に関わってくるはずです。
レプリカント(※ブレードランナーの中の人間そっくりのアンドロイド)の存在は利益にも害にもなりえます。
すなわち、コンテンツの複製が許容される、望ましい、あるいは公正な使用である状況と、"盗用 "である状況があるかもしれないのです。
このような倫理的な境界線は現時点では不明瞭ですが、私たちは、現代の最先端の拡散モデルにおいて、「複製が実際に起こるのか、またその程度はどの程度なのか」という科学的な問題に焦点を合わせました。

 

  Our contributions are as follows. We begin with a study of how to detect content replication, and we consider a range of image similarity metrics developed in the selfsupervised learning and image retrieval communities. 
We benchmark the performance of different image feature extractors using real and purpose-built synthetic datasets and show that state-of-the-art instance retrieval models work well for this task.
  Armed with new and existing tools, we search for data replication behavior in a range of diffusion models with different dataset properties. 
We show that for small and medium dataset sizes, replication happens frequently, while for a model trained on the large and diverse ImageNet dataset, replication seems undetectable.

  This latter finding may lead one to believe that replication is not a problem for large-scale models.
However, the even larger Stable Diffusion model exhibits clear replication in various forms (Fig 1).   Furthermore, we believe that the rate of content replication we identify in Stable Diffusion likely underestimates the true rate because the model is trained on a large 2B image split of LAION, but we only search for matches in the much smaller 12M “Aesthetics v2 6+” subset.

  The level of image similarity required for something to count as “replication” is subjective and may depend on both the amount of diversity within the image’s class as well as the observer.   Some replication behaviors we uncover are unambiguous, while in other instances they fall into a gray area.   Rather than choosing an arbitrary definition, we focus on presenting quantitative and qualitative results to the reader, leaving each person to draw their own conclusions based on their role and stake in the process of generative AI.

 

本研究において、我々が取り組んだ箇所は以下の通りです。まず、コンテンツの複製を検出する方法についての研究から始め、自己教師あり学習(selfsupervised learning)分野と画像検索のコミュニティで開発された様々な画像の類似性の測定基準(メトリック)について検討しました。我々は、実データと目的に応じて構築された合成データセット(purpose-built synthetic datasets)を用いて、複数の画像の特徴抽出器の性能をベンチマークし、最先端の事例の検索モデルがこのタスクに上手く対応できることを示しました。

そして、新しいツールや既存のツールを用いて、それぞれ異なるデータセットのプロパティ(dataset properties)を持つ様々な拡散モデルにおけるデータの複製するふるまいを調査しました。その結果、小規模、中規模のデータセットでは、複製が頻繁に起こることが示されました。一方、大規模で多様なImageNetデータセットで学習したモデルでは、複製は検出されないように見えました。

この後者の発見により、大規模なデータセットを用いたモデル(large-scale models)では複製は問題ないと思われるかもしれません。しかし、実際には、もっと大規模なデータセットのモデルであるはずのStable Diffusionモデルにおいて、様々な形で明らかな複製が発生しています(図1)。
さらに、我々は以下のように考えています。
Stable Diffusion確認されたコンテンツの複製率は、複製画像の真の比率を過小評価しているようなのです。おそらくその理由は、Stable Diffusionは学習時にはLAIONの大規模な2 Billion枚(=20億枚)の画像をモデルに学習させていたのに対して、私たちの調査ではずっと少ない12 Million枚(=1200万枚)の “Aesthetics v2 6+” サブセットのみの一致(match)を検索したためでしょう、と。

「複製物」と判断するための画像の類似度は主観的なものであり、画像におけるクラス内の多様性(diversity within the image’s class)や観察者に依存する場合があります。
私たちが発見したいくつかの複製のふるまいの中には、明確なものもあれば、グレーゾーンに入るものもあります。ここで、この結果を受けて私たちは、恣意的な定義を行うよりも、読者の皆様に定量的・定性的な結果を提示したいと思っています。AI生成のプロセスにまつわる各々の人の役割と利害関係に基づいて、それぞれの人が独自の結論を導き出すことに重点を置いているのです。

 

(図1)

 

〈1 導入 全文翻訳終わり〉