説明用ブログ

解説用ブログです

機械学習による合成画像装置のテスト論文の翻訳&解説(簡易版)1

こんにちは。

前回の宣言通り、本記事では論文の解説をします。

解説は以下の3回に分けようと思っています

1)要旨(アブスト)を説明する回

2)論文本編を説明する回

3)追加試験(補足の部分)を説明する回

 

今回は1)の要旨(アブスト)を説明する回になります。

最初は全文日本語翻訳を掲載するつもりはなかったんですけど、一周回って翻訳を掲載したほうが楽かもしれないと思ったので本編の論文の英語を必要に応じて翻訳していこうと思っています。

 

↓元論文(PDFダウンロードできます)

https://www.researchgate.net/publication/366093127_Diffusion_Art_or_Digital_Forgery_Investigating_Data_Replication_in_Diffusion_Models

 

fig1

図1. (fig1)
 Stable Diffusionは、学習データを再現し、記憶した前景と背景の物体をつなぎ合わせて画像を作成することが可能です。さらに、このシステムは、記憶されたものに元づいた次の再構成を行うことがあります。
 ピクセル単位では同一でないものの、人間の目から見た全体の画像の意味としては、それらの元の物体(source object)の意味に関して等価な画像を生成するのです。ここでは、LAIONから抽出した様々なプロンプトと、手作業で作成したプロンプト(一番右のペア)において、このような振る舞いが起こることを示します。
 このような画像の存在は、データ記憶の性質や拡散画像の所有権について疑問を投げかけるものです。
上段:生成された画像。
下段:LAIONAesthetics v2 6+の学習元画像のセットの中で最も近いマッチング。
 ソース(source)とマッチプロンプト(match prompts)は非常に似ていることもあれば、全く異なることもあります。プロンプトのある他の例については図7を(Figure 7)、この図からのプロンプトについては付録(Appendix)を参照してください。

 

 

 

論文の読み方

まずはじめに、一般的に、理系の論文はだいたい次の構成になっています。

0 タイトル、著者のチームと名前

1 要旨(アブスト

2 本編 

 2-1 仮説、実験環境、実験内容の説明とか)

 2-2 実際の実験結果

3 考察、結論

4 出典 引用文献等

 

したがって、時間がない人は、

0のタイトルを読んで方向性を掴む→1の要旨(アブスト)で筆者の主張したいこと(結論も含んだ要旨)をざっと眺めればOKです。
ん?細かいところどうなってんの?と思った方に向けて、2からあとの詳細な内容が記載されている、というシステムになっています。

 

今回もその考え方に応じて、まずはざっと要旨(アブスト)からつかんでいきましょう。

 

要旨(アブスト)(※時間ない人はここまででOK)

大事なので今回の記事ではこのパートだけ全文翻訳します。

abstract_word1

最先端の拡散モデルを用いた機械学習モデルは、高い品質を画像を生成することを可能にしました。
また、カスタマイズ性もあり、ツールとしては、一見、商業美術やグラフィックデザイン用途に耐えうるほどの水準まで完成しているように見えます。

しかし、拡散モデルはほんとうに独自の(唯一無二の)作品を作り出しているのでしょうか?
それとも学習セットから直接コンテンツを複製してしまっているのでしょうか?

私たちは普段、画像検索のフレームワークを研究しています。
このフレームワーク(ツールのようなもの)を使うと、生成された画像を学習用サンプルと比較し、コンテンツが複製されていることを検出することができます。

本研究では、私たちの、このフレームワークをOxford flowers, Celeb-A, ImageNet, LAIONなどの複数のデータセットで学習させた拡散モデルに適用し、学習セットのサイズなどの要因が、どのように拡散モデルに影響を与えるかを考察しました。
この論文ではとくに、学習セットのサイズ(=使用した画像の枚数)などの要因が、コンテンツの複製率にどのような影響を与えるかについて議論しています。

またこの研究では、私たちは、有名なStable Diffusionモデルを含む拡散モデルが、機械学習の際の教師データとして使用した学習元画像をあからさまにコピーしているケースも確認しました。

 

こちらが、要旨(アブスト)deepLに入れて文章が変なところを主導で直した和訳です。読みやすさ重視で日本語をわかりやすくしています。信用ならない人はご自身で元の英語の文章を翻訳機に入れてみてください。たぶんだいたい同じはずです。

 

これによると、この論文は、学習する元画像の枚数の量によって、学習元に酷似したコピー画像の出やすさの結果が変わるのではないか?ということを調べている研究をまとめた論文だそうです。

最後のあたり、だいぶ物騒なことを言っていますね。

 

論文本編の内容

ここから、論文本編の内容に入っていきます。

 

 

……と思ったんですが、思いのほか長くなりそうなので、次の記事以降に分割させてください

 

とりあえず、物騒な画像が一杯貼ってあるので、その図だけ引用して貼ってみます。

中身知りたい人は上のリンク先のサイトのPDFを翻訳してみてください。

 

Fig2-Fig4

Fig7-Fig10

 

Fig12

 

 

付録(Appendix)

Fig13-15

 

 

こちらの内容が日本国内にも知れ渡ると、だいぶ法律等の議論の印象の方向が変わるかなーとか思います。みなさま、この知見の共有のほど、よろしくお願いいたします