説明用ブログ

解説用ブログです

Reasoning in Artificial Intelligence(※機械翻訳しました。)

AIにおけるReasoning (論理的な判断)について

Reasoning in Artificial Intelligence - MBA Knowledge Base (mbaknol.com)

(※機械翻訳しました。)

Reasoning in Artificial Intelligence

The reasoning is deemed as the key logical element that provides the ability for human interaction in a given social environment. The key aspect associated with reasoning is the fact that the perception of a given individual is based on the reasons derived from the facts that relative to the environment as interpreted by the individual involved. This makes it clear that in a computational environment involving electronic devices or machines, the ability of the machine to deliver a given reason depends on the extent to which the social environment is quantified as logical conclusions with the help of a reason or combination of reasons.

The major aspect associated with reasoning is that in the case of human reasoning the reasoning is accompanied by introspection which allows the individual to interpret the reason through self-observation and reporting of consciousness. This naturally provides the ability to develop resilience to exceptional situations in the social environment thus providing a non-feeble-minded human to react in one way or other to a given situation that is unique in its nature in the given environment. It is also critical to appreciate the fact that the reasoning in the mathematical perspective mainly corresponds to the extent to which a given environmental status can be interpreted using probability in order to help predict the reaction or consequence in any given situation through a sequence of actions.

The aforementioned corresponds with the case of uncertainty in the environment that challenges the normal reasoning approach to derive a specific conclusion or decision by the individual involved. The introspective nature developed in humans and some animals provides the ability to cope with the uncertainty in the environment. This adaptive nature of the non-feeble-minded human is the key ingredient that provides the ability to interpret the reasons to a given situation as opposed to merely following the logical path that results through the reasoning process. The reasoning in the case of Artificial Intelligence (AI) which aims to develop the aforementioned in the electronic devices to perform complex tasks with minimal human intervention is presented in the next section.

「Reasoning (論理的な判断)」は、与えられた社会環境における人間の相互作用のための能力を提供する重要な論理的要素であると考えられています。Reasoningに関連する重要な側面は、与えられた個人の知覚が、関係する個人によって解釈される環境に相対する事実から導かれる理由に基づいているという事実である。このことは、電子機器や 電子機械を含む計算環境において、機械が与えられた理由を提供する能力は、社会環境が理由または理由の組み合わせの助けを借りて論理的結論として定量化される程度に依存することを明確にする。

Reasoningに関連する大きな側面は、人間の推論の場合、推論は自己観察と意識の報告を通じて、個人が理由を解釈することを可能にする内観を伴うということです。このことは、社会環境における例外的な状況に対するレジリエンスを発達させる能力を自然に提供し、与えられた環境においてその性質上ユニークである与えられた状況に対して、何らかの方法で反応する非弱気な人間を提供します。また、数学的な観点からの推論は、主に、一連の行動を通じて与えられた状況における反応や結果を予測するために、確率を用いて与えられた環境状態を解釈することができる程度に対応するという事実を理解することは重要です。

前述したように、環境における不確実性は、関係する個人が特定の結論や決定を導き出すための通常の推論アプローチに挑戦するケースに相当する。人間や一部の動物に備わっている内省的な性質は、環境の不確実性に対処する能力を提供します。このような人間の適応的な性質は、Reasoningプロセスを通じて得られる論理的な経路に従うだけでなく、与えられた状況に対して理由を解釈する能力を提供する重要な要素である。電子機器に前述のような機能を持たせ、人間の介入を最小限に抑えて複雑なタスクを実行することを目的とした人工知能(AI)の場合のReasoningを次節で紹介する。

Reasoning in Artificial Intelligence

The reasoning is deemed to be one of the key components to enable effective artificial programs in order to tackle complex decision-making problems using machines. This is naturally because of the fact that the logical path followed by a program to derive a specific decision is mainly dependant on the ability of the program to handle exceptions in the process of delivering the decision. This naturally makes it clear that the effective use of logical reasoning to define the past, present and future states of the given problem alongside the plausible exception handlers is the basis for successfully delivering the decision for a given problem in the chosen environment. The key areas of challenge in the case of reasoning are discussed below.

 

人工知能における「Reasoning (論理的な判断)」

機械を使って複雑な意思決定を行う人工的なプログラムを効果的に実現するためには、「Reasoning (論理的な判断)」が重要な要素の1つと考えられています。これは、プログラムが特定の意思決定を導き出すためにたどる論理的な経路が、意思決定の過程で例外を処理するプログラムの能力に主に依存しているという事実があるためです。このことから、与えられた問題の過去、現在、未来の状態を定義するために論理的推論を効果的に使用し、もっともらしい例外処理を行うことが、選択した環境において与えられた問題に対する決定を成功させるための基礎であることが明らかになりました。「Reasoning (論理的な判断)」の場合の主な課題領域は、以下で議論されます。

 

Adaptive Software – This is the area of computer programming under Artificial Intelligence that faces the major challenge of enabling effective decision-making by machines. The key aspect associated with adaptive software development is the need for effective identification of the various exceptions and the ability to enable dynamic exception handling based on a set of generic rules. The concept of fuzzy matching and de-duplication that are popular in the case of software tools used for cleansing data cleansing in the business environment follow the above-mentioned concept of adaptive software. This is the case there the ability of the software to decide the best possible outcome for a given situation is programmed using a basic set of directory rules that are further enhanced using references to a variety of combinations that comprise the database of logical combinations for reasons that can be applied to a given situation. The concept of fuzzy matching is also deemed to be a major breakthrough in the implementation of adaptive programming of machines and computing devices in Artificial Intelligence. This is naturally because of the fact that the ability of the program to not only refer to a set of rules and associated references but also to interpret the combination of reasons derived relative to the given situation prior to arriving at a specific decision. From the aforementioned, it is evident that the effective development of adaptive software for an AI device in order to perform effective decision-making in the given environment mainly depends on the extent to which the software is able to interpret the reasons prior to deriving the decision. This makes it clear that the adaptive software programming in artificial intelligence is not only deemed as an area of the challenge but also the one with extensive scope for development to enable the simulation of complex real-world problems using Artificial Intelligence.

It is also critical to appreciate the fact that the adaptive software programming in the case of Artificial Intelligence is mainly focused on the ability to not only identify and interpret the reasons using a set of rules and combination of outcomes but also to demonstrate a degree of introspection. In other words, the adaptive software in the case of Artificial Intelligence is expected to enable the device to become a learning machine as opposed to an efficient exception handler. This further opens room for exploring knowledge management as part of the AI device to accomplish a certain degree of introspection similar to that of a non-feeble-minded human.

 

適応型ソフトウェア - 人工知能に属するコンピュータプログラミングの分野で、機械による効果的な意思決定を可能にするという大きな課題に直面しています。適応型ソフトウェア開発に関連する重要な側面は、様々な例外を効果的に識別する必要性と、一連の汎用ルールに基づく動的な例外処理を可能にする能力である。ビジネス環境におけるデータクレンジングに使用されるソフトウェアツールの場合に普及しているファジーマッチングと重複排除の概念は、上述の適応型ソフトウェアの概念に従う。これは、与えられた状況に対して最良の結果を決定するソフトウェアの能力が、ディレクトリルールの基本セットを使用してプログラムされ、与えられた状況に適用できる理由の論理的組み合わせのデータベースを構成する様々な組み合わせへの参照を使用してさらに強化されている場合である。ファジーマッチングの概念は、人工知能における機械やコンピューティングデバイスの適応的プログラミングを実現する上で、大きなブレークスルーとなるとも考えられている。これは当然、プログラムが一連のルールと関連する参照を参照するだけでなく、特定の決定に到達する前に、与えられた状況に関連して導き出された理由の組み合わせを解釈する能力があるためである。以上のことから、与えられた環境において効果的な意思決定を行うためのAIデバイス用適応型ソフトウェアの効果的な開発は、主にソフトウェアが意思決定を導き出す前に理由を解釈することができる程度に依存することが明らかである。このことから、人工知能における適応型ソフトウェアプログラミングは、人工知能を用いた複雑な実世界の問題のシミュレーションを可能にするために、課題となっている分野であると同時に、開発の余地が大きい分野であることがわかります。

また、人工知能の場合の適応型ソフトウェアプログラミングは、一連のルールと結果の組み合わせを使って理由を特定し解釈するだけでなく、ある程度の内省を示す能力に主眼が置かれているという事実を理解することは極めて重要である。言い換えれば、人工知能の場合の適応型ソフトウェアは、デバイスが効率的な例外処理装置ではなく、学習機械になることを可能にすることが期待されています。このことはさらに、AIデバイスの一部としてナレッジマネジメントを探求し、非能動的な人間のような一定の内省を達成する余地を開くものである。

 

 

Speech Synthesis/Recognition – This area of Artificial Intelligence can be deemed to be a derivative of the adaptive software whereby the speech/audio stream captured by the device deciphers the message for performs the appropriate task. The speech recognition in the AI field of science poses key issues of matching, reasoning to enable access control/ decision-making, and exception handling on top of the traditional issues of noise filtering and isolation of the speaker’s voice for interpretation. The case of speech recognition is where the aforementioned issues are faced whilst in the case of speech synthesis using computers, the major issue is the decision-making as the decision through the logical reasoning alone can help produce the appropriate response to be synthesized into speech by the machine.

Speech synthesis, as opposed to speech recognition, depends only on the adaptive nature of the software involved. This is due to the fact that the reasons derived from the interpretation of the input captured using the decision-making rules and combinations for fuzzy matching form the basis for the actual synthesis of the sentences that comprise the speech. The grammar associated with the sentences so framed and its reproduction depends heavily on the initial decision of the adaptive software using the logical reasons identified for the given environmental situation. Hence the complexity of speech synthesis and recognition poses a great challenge for effective reasoning in Artificial Intelligence.

 

音声合成/認識 - 人工知能のこの分野は、デバイスが取り込んだ音声/オーディオストリームがメッセージを解読し、適切なタスクを実行するための適応型ソフトウェアの派生物とみなすことができます。人工知能分野の音声認識では、ノイズフィルタリングや話者の声を分離して解釈するという従来の問題に加え、マッチング、アクセス制御や意思決定を可能にする推論、例外処理という重要な問題が発生します。音声認識の場合、上記のような問題に直面しますが、コンピュータを使った音声合成の場合、論理的な推論による判断だけで、機械が音声合成するのに適した応答を生み出すことができるため、主要な問題は意思決定です。

音声合成は、音声認識とは対照的に、ソフトウェアの適応性にのみ依存します。これは、ファジーマッチングのための意思決定ルールと組み合わせを使用して取り込まれた入力の解釈から得られた理由が、音声を構成する文の実際の合成の基礎を形成するという事実によるものである。このように構成された文に関連する文法とその再生は、与えられた環境状況に対して特定された論理的理由を用いた適応型ソフトウェアの最初の決定に大きく依存する。したがって、音声合成音声認識の複雑さは、人工知能の効果的な推論に大きな課題を突きつけている。

Neural Networks – This is deemed to be yet another key challenge faced by Artificial Intelligence programming using reasoning. This is because of the fact that neural networks aim to implement the local behavior observed by the human brain. The layers of perception and the level of complexity associated with the interaction between different layers of perception alongside decision-making through logical reasoning. This makes it clear that the computation of the decision using the neural network’s strategy is aimed at solving highly complex problems with a greater level of external influence due to uncertainties that interact with each other or demonstrate a significant level of dependency on one another. This makes it clear that the adaptive software approach to the development of reasoned decision-making in machines forms the basis for neural networks with a significant level of complexity and dependencies involved.

The Single Layer Perceptions (SLP) and the representation of Boolean expressions using SLPs further make it clear that the effective deployment of the neural networks can help simulate complex problems and also provide the ability to develop resilience within the machine. The learning capability and the extent to which the knowledge management can be incorporated as a component in the AI machine can be defined successfully through identification and simulation of the SLPs and their interaction with each other in a given problem environment.

 

The case of neural networks also opens the possibility of handling multi-layer perceptions as part of adaptive software programming through independently programming each layer before enabling interaction between the layers as part of the reasoning for the decision-making. The key influential element for the aforementioned is the ability of the programmer(s) to identify the key input and output components for generating the reasons to facilitate the decision-making.

The backpropagation or backward error propagation algorithm deployed in the neural networks is a salient feature that helps achieve the major aspect of learning from mistakes and errors in a given computer program. The backpropagation algorithm in the multi-layer networks is one of the major areas where the adaptive capabilities of the AI application program can be strengthened to reflect the real-world problem-solving skills of the non-feeble-minded human.

 

From the aforementioned, it is clear that the neural network implementation of AI applications can be achieved to a sustainable level using the backpropagation error correction technique. This self-correcting and learning system using the neural networks approach is one of the major elements that can help implement complex problems’ simulation using AI applications. The case of reasoning discussed earlier in the light of the neural networks proves that the effective use of the layer-based approach to simulate the problems in order to allow for the interaction will help achieve reliable AI application development methodologies.

The discussion presented also reveals that reasoning is one of the major elements that can help simulate real-world problems using computers or robotics regardless of the complexity of the problems.

 

ニューラルネットワーク - これは、推論を用いた人工知能のプログラミングが直面するもう一つの重要な課題であると考えられています。これは、ニューラルネットワークが、人間の脳が観察する局所的な動作を実現することを目的としているためです。知覚の層と、異なる知覚の層間の相互作用に関連する複雑さのレベルは、論理的な推論による意思決定と並んでいます。このことから、ニューラルネットワークの戦略を用いた意思決定の計算は、互いに影響し合う、あるいは互いに依存する重要なレベルを示す不確実性による外部影響のレベルがより高い、非常に複雑な問題の解決を目的としていることが明らかになります。このことから、機械における理性的な意思決定の開発に対する適応的なソフトウェアのアプローチは、かなりのレベルの複雑さと依存性が関与するニューラルネットワークの基礎を形成することが明らかである。

単層知覚(SLP)とSLPを用いたブール式の表現は、さらに、ニューラルネットワークの効果的な展開が、複雑な問題のシミュレーションに役立ち、また、マシン内の回復力を開発する能力を提供することを明確にするものである。学習能力と知識管理をAIマシンのコンポーネントとして組み込むことができる程度は、与えられた問題環境におけるSLPとその相互作用の特定とシミュレーションを通じてうまく定義することができます。
 

また、ニューラルネットワークの場合、適応型ソフトウェアプログラミングの一環として、各層を独立にプログラミングしてから、意思決定の理由の一部として層間の相互作用を可能にすることで、多層知覚を扱う可能性がある。前述したような重要な影響力を持つ要素は、意思決定を促進するための理由を生成するための主要な入力と出力のコンポーネントを特定するプログラマーの能力である。

ニューラルネットワークに採用されているバックプロパゲーション(後方誤差伝播)アルゴリズムは、コンピュータプログラムにおけるミスやエラーからの学習という主要な側面を実現するのに役立つ顕著な特徴である。多層ネットワークのバックプロパゲーションアルゴリズムは、AIアプリケーションプログラムの適応能力を強化し、非力な人間の現実世界の問題解決能力を反映させることができる主要な領域の1つである。

 

以上のことから、AIアプリケーションのニューラルネットワーク実装は、バックプロパゲーションのエラー訂正技術を用いることで、持続可能なレベルで実現できることが明らかにされた。このニューラルネットワークのアプローチによる自己修正・学習システムは、AIアプリケーションによる複雑な問題のシミュレーションを実現するための大きな要素の1つである。先に述べたニューラルネットワークを用いた推論の事例は、レイヤーベースのアプローチを効果的に用いて問題をシミュレートし、相互作用を可能にすることが、信頼性の高いAIアプリケーション開発手法の実現に役立つことを証明している。

また、推論は、問題の複雑さに関わらず、コンピュータやロボットを使って現実世界の問題をシミュレートするのに役立つ主要な要素の1つであることが明らかになった。

 

 

Issues in the philosophy of Artificial Intelligence

The first and foremost issue faces in the case of AI implementation of simulating complex problems of the real world is the need for replication of the real-world environment in the computer/artificial world for the device to compute the reasons and derive upon a decision. This is naturally due to the fact that the simulation process involved in the replication of the environment for the real-world problem cannot always account for exceptions that arise due to unique human behavior in the interaction process. The lack of this facility and the fact that the environment so created cannot alter itself fundamentally apart from being altered due to the change in the state of the entities interacting within the simulated environment makes it a major hurdle for effective AI application development.

Apart from the real-world environment replication, the issue faced by the AI programmers is the fact that the reasoning processes and the exhaustiveness of the reasoning are limited to the knowledge/skills of the analysts involved. This makes it clear that the process of reasoning depending upon a non-feeble-minded human’s response to a given problem in the real world varies from one individual to another. Hence the reasons that can be simulated into the AI application can only be the fundamental logical reasons and the complex derivation of the reasons’ combination which is dependant on the individual cannot be replicated effectively in a computer.

Finally, the case of reasoning in the world of Artificial Intelligence is expected to provide a mathematical combination to the delivery of the desired results which cannot be accomplished in many cases due to the uniqueness of the decision made by the non-feeble-minded individual involved. This poses a great challenge to the successful implementation of AI in computers and robotics especially for complex problems that have various possibilities to choose from as result.

 

現実世界の複雑な問題をシミュレートするAIの実装において、まず第一に直面する問題は、デバイスが理由を計算し、決定を導き出すために、現実世界の環境をコンピュータ/人工世界に再現する必要があるということです。これは当然ながら、現実世界の問題に対する環境の再現に関わるシミュレーション・プロセスでは、対話プロセスにおける人間特有の行動によって生じる例外を常に考慮することができないという事実に起因します。この機能の欠如と、そのように作成された環境は、シミュレートされた環境内で相互作用するエンティティ(※)の状態の変化による変更を除いて、それ自体を根本的に変更できないという事実は、効果的な AI アプリケーション開発の大きなハードルになります。

現実世界の環境の再現とは別に、AIプログラマーが直面する問題は、推論プロセスと推論の網羅性が、関係する分析者の知識/スキルに制限されるという事実である。このことから、実世界で与えられた問題に対する非能率的な人間の反応に依存する推論のプロセスは、個人によって異なることが明らかです。したがって、AIアプリケーションにシミュレートできる理由は、基本的な論理的理由だけであり、個人に依存する理由の組み合わせの複雑な導出は、コンピュータで効果的に再現することはできません。

最後に、人工知能の世界における推論は、数学的な組み合わせで望ましい結果をもたらすことが期待されますが、これは、非力な個人が下した判断がユニークであるために、多くの場合、達成できません。このことは、コンピュータやロボットにAIを導入する際に、特に様々な可能性を秘めた複雑な問題に対して大きな挑戦となる。

 

 

続きを読む

Extracting Training Data from Diffusion Models (要旨)翻訳

arxiv.org

Nicholas Carlini, Jamie Hayes, Milad Nasr, Matthew Jagielski, Vikash Sehwag, Florian Tramèr, Borja Balle, Daphne Ippolito, Eric Wallace
[Submitted on 30 Jan 2023]



Abstract

Image diffusion models such as DALL-E 2, Imagen, and Stable Diffusion have attracted significant attention due to their ability to generate high-quality synthetic images. In this work, we show that diffusion models memorize individual images from their training data and emit them at generation time. With a generate-and-filter pipeline, we extract over a thousand training examples from state-of-the-art models, ranging from photographs of individual people to trademarked company logos. We also train hundreds of diffusion models in various settings to analyze how different modeling and data decisions affect privacy. Overall, our results show that diffusion models are much less private than prior generative models such as GANs, and that mitigating these vulnerabilities may require new advances in privacy-preserving training.

 

要旨

DALL-E 2、Imagen、Stable Diffusionなどの画像拡散モデルは、高品質な合成画像を生成することができるため、大きな注目を浴びている。我々のチームは本研究において、拡散モデルが学習データから個々の画像を記憶し、生成時にその画像を再度出力することが可能であることを示した。生成とフィルタリングのパイプラインを用いることで、個人の人物写真から商標登録された企業ロゴまで幅広い分野の、千点以上の学習データの例が最先端のモデルから抽出された。また、私たちのチームは、様々な設定の何百種類もの拡散モデルを学習させ、モデリングの方法とデータ決定の方法の種類の差異がプライバシーにどのように影響するかを分析した。その結果、今回検証した拡散モデルはGANのような先行手法の生成モデルよりもプライバシー性が低く、この脆弱性を緩和するためには、プライバシーを保護する学習手法を新たに提唱する必要であることが示された。

 

 

Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models 3 複製とは?(What Counts as Replication?) 全文翻訳

Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models

https://www.researchgate.net/publication/366093127_Diffusion_Art_or_Digital_Forgery_Investigating_Data_Replication_in_Diffusion_Models

の3 背景(バックグラウンド)の全文翻訳になります。

 

3 複製とは?(What Counts as Replication?)

3. What Counts as Replication?
  There are many different notions of replication from creative work, but we will narrow our scope for the purpose of designing a detection system for replicated content. 
We consider the following (informal) definition:
  We say that a generated image has replicated content if it contains an object (either in the foreground or background) that appears identically in a training image, neglecting minor variations in appearance that could result from data augmentation.

  We focus on object-level similarity because it is likely to be the subject of intellectual property disputes. 
We also discount minor differences in appearance that can be explained by data augmentation as these variations would typically not be relevant to a copyright claim.   An alternative notion is style-wise or semantic similarity.   We do not focus on such definitions here as they are highly subjective, typically are not considered an infringement of intellectual property, and also because many images lack a well-defined style (e.g.,natural, unfiltered images from a standard camera).

 

 

3. 何が複製としてカウントされるのか?
  創作物の複製にはさまざまな概念がありますが、ここでは複製されたコンテンツの検出システムを設計する際には、その範囲を狭めて考えることにします。
ここでは、以下のような(非公式な)定義を考えています。
  生成された画像に、学習用画像と同じように見えるオブジェクト(前景または背景のいずれか)が含まれている場合、その画像には複製されたコンテンツがあると言います(データの拡張によって生じる可能性のある見た目の微小な変化は無視します)。

  オブジェクトレベルの類似性は知的財産権に関する係争の対象となる可能性が高いため、これに着目しています。
また、データ拡張によって説明できる見た目の小さな違いは、通常、著作権の主張には関係しないため、無視します。
別の概念として、スタイル的類似性(style-wise similarity)または意味的類似性(semantic similarity)があります。
このような定義にはここでは焦点を当てないことにします。それらは非常に主観的であり、一般的に知的財産の侵害とは見なされないためです。
また、多くの画像には明確に定義されたスタイルもないためです。(例えば、標準カメラからの自然でフィルターなしの画像、等)

Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models 9 結論(Limitations & Conclusion) 全文翻訳

Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models

https://www.researchgate.net/publication/366093127_Diffusion_Art_or_Digital_Forgery_Investigating_Data_Replication_in_Diffusion_Models

の9 結論(Limitations & Conclusion)の全文翻訳になります。

 

9. Limitations & Conclusion
 The goal of this study was to evaluate whether diffusion models are capable of reproducing high-fidelity content from their training data, and we find that they are.  While typical images from large-scale models do not appear to contain copied content that was detectable using our feature extractors, copies do appear to occur often enough that their presence cannot be safely ignored; Stable Diffusion images with dataset similarity ≥ .5, as depicted in Fig. 7, account for approximate 1.88% of our random generations.

  Note, however, that our search for replication in Stable Diffusion only covered the 12M images in the LAION Aesthetics v2 6+ dataset.  The model was first trained on over 2 billion images, before being fine-tuned on the 600M LAION Aesthetics V2 5+ split.  The dataset that we searched in our study is a small subset of this fine-tuning data, comprising less than 0.6% of the total training data. 
  Examples certainly exist of content replication from sources outside the 12M LAION Aesthetics v2 6+ split – see Fig 12.  Furthermore, it is highly likely that replication exists that our retrieval method is unable to identify.  For both of these reasons, the results here systematically underestimate the amount of replication in Stable Diffusion and other models. 

 

9 結論(Limitations & Conclusion)
 本研究の目的は、拡散モデルが学習データから忠実度の高いコンテンツを再現できるかどうかを評価することでした。結果、それらは再現できることが分かりました。
大規模モデルの典型的な画像には、我々の特徴抽出器を用いて検出可能なコピーコンテンツは含まれていないようですが、安全性の観点からその存在を無視できないほど頻繁にコピーが発生しているようです。
図7に示すように、データセット類似度≥ .5 のStable Diffusion画像は、我々が行ったランダムな生成物のおよそ 1.88% を占めています。
 注意点として、なぜこのようなことが起きたかといえば、私たちがStable Diffusionの複製を探したのはLAION Aesthetics v2 6+データセットのうち、わずか12million(1200万枚)イメージだけであることに留意してください。
このモデルは、まず20億枚以上の画像で学習した後、600million(6億枚)のLAION Aesthetics V2 5+分割で微調整を行いました。
本研究で検索したデータセットは、この微調整データの小さなサブセットであり、全トレーニングデータの0.6%未満で構成されています。
 実際、12million(1200万枚) LAION Aesthetics v2 6+ split以外のソースからコンテンツが複製された例も確かに存在します(図12参照)。
さらに、我々の検索手法では特定できない複製が存在する可能性も高いです。
これらの理由から、今回の結果はStable Diffusionや他のモデルにおける複製の量を系統的に過小評価しています。

 

Figure12

図12. Stable Diffusionにより生成された絵画 "The Scream"。
この画像はトレーニングに使用した600million(6億枚)画像LAION-Aesthetics-5+分割内にありますが、本研究で検索した12million(1200万枚)画像LAION-Aesthetics-6+分割内にはありません。

 

Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models 2 背景(バックグラウンド) 全文翻訳

Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models

https://www.researchgate.net/publication/366093127_Diffusion_Art_or_Digital_Forgery_Investigating_Data_Replication_in_Diffusion_Models

の2 背景(バックグラウンド)の全文翻訳になります。

 

2 背景(バックグラウンド)

2. Background
 Below, we review the background and related work in image retrieval, generative models, and memorization literature.

 

2. 背景(バックグラウンド)
まずはじめに、以下に、画像検索(image retrieval)、生成モデル(generative models)、記憶方法(memorization)に関する文献の背景と関連研究について説明します。

[Image retrieval and copy detection. ]

  The process of searching a database for images containing reference features from a source image is known as image retrieval.   The related task of inexact copy detection requires high semantic similarity between the source and match [17].  Image retrieval works with image descriptors based on all types of neural networks [3, 53].   High-performance descriptors can be fine-tuned specifically for retrieval after unsupervised training [49, 50] using structure-from-motion (SfM) or contrastive objectives [14, 27].  A natural basis for image retrieval methods are self-supervised models that inherently learn strong feature descriptors, matching similar images to similar representations [11,13,15,28,30].  A particularly relevant SSL method for our purposes is DINO [12], which is shown to perform competitively on instance retrieval tasks.

  Recent approaches adopt strong vision transformers as architectural backbones for retrieval [6, 19, 26, 34, 58].  Historical progress in this field is tracked by public image similarity challenges [18].  A recent SOTA approach is SSCD [47], which builds on previous work in self-supervised representation learning and optimizes a descriptor for copy detection using entropic regularization and an array of task-specific data augmentations.

ソース画像から参照画像(リファレンス)の特徴を含む画像をデータベースから検索する処理は、画像検索として知られています。関連するタスクについての不正確なコピーの検出を認定するには、元画像とマッチした画像の間に高い意味的な類似性が要求されます[17]画像検索は、あらゆる種類のニューラルネットワークに基づく画像記述子(image descriptors)を用いて行われます[3, 53]高性能の記述子は、(※1)運動からの構造復元(structure-from-motion)(SfM)や対照的なオブジェクト(contrastive objectives)を用いたの教師なし学習[49, 50] の後、検索専用にファインチューニング(fine-tuned)することができます[14, 27]画像検索手法の自然な基礎となるのは、強い特徴記述子(strong feature descriptors)を本質的に学習する自己教師ありモデルです。それらは、類似画像を類似表現にマッチングさせます[11,13,15,28,30]我々の目的に特に適したSSL手法はDINO [12]であり、実例を検索するタスク(instance retrieval tasks)において競争力のある性能を示します。

 最近のアプローチでは、検索のためのアーキテクチャのバックボーンとして強力なビジョン変換器(vision transformers)を採用しています[6, 19, 26, 34, 58]

この分野の歴史的な進歩は、公共のイメージ画像の類似度に関する課題調査[18]によって追跡されています。最近のSOTAアプローチ(SOTA approach)はSSCD [47]であり、自己教師あり表現学習における過去の研究を基に、エントロピック正則化とタスク固有のデータ拡張の配列を用いて、コピー検出のための記述子を最適化します。


(※1)

運動からの構造復元(structure-from-motion)(SfM

structure from motion の概要 - MATLAB & Simulink - MathWorks

https://jp.mathworks.com/help/vision/ug/structure-from-motion.html

 

 

[Memorization in deep learning. ]

  While it is widely known and discussed that large models can memorize their data, there is no universally accepted definition of memorization.  To ML theorists, memorization is synonymous with overfitting [2, 21, 23].   In the field of membership in#ference attacks, one seeks to determine whether a chosen image was part of the training set [8, 32, 63, 64].   Indeed, it has been shown that models retain a memory of the contents of their training set, particularly when training samples are repeated [64].   Note that membership inference can be done by reconstructing original training data from the model [63], although this is not the goal of most membership inference methods.  The problem of explicitly reconstructing images from the training set of a classifier is known as model inversion, and recent research has been able to do this with both convolutional and transformer models [25, 67].  However, it is crucial to note the relationship of memorization, membership inference, inversion and replication: A generative model that memorizes data might allow for model inversion or only membership inference, yet the same model might never spontaneously generate the training data by accident.

 

[深層学習における記憶方法]

 大規模なモデルがデータを記憶することは広く知られており、そのことについての議論はなされていますが、普遍的に受け入れられている記憶の定義はまだ存在しません。機械学習理論家(ML theorists)にとって、記憶はオーバーフィッティングと同義であるとみなされています[2, 21, 23]メンバーシップ推論攻撃の分野では、選ばれた画像がトレーニングセットの集合の一部であったかどうかを判断しようとします [8, 32, 63, 64]実際、特に学習サンプルが繰り返される場合、モデルは学習セットの内容を記憶していることが示されている[64]なお、ほとんどのメンバーシップ推論手法の目的ではないものの、モデルから元の学習データを再構成することによって、メンバーシップ推論を行うこともできます[63]分類器(classifier)の学習セットから明示的に画像を再構成する問題はモデルインバージョン(model inversion)として知られており、最近の研究では,畳み込みモデルとトランスフォーマーモデル(transformer models)の両方でこれを行われる可能性があります[25, 67]
 しかし、次に述べる、記憶(memorization)、メンバーシップ推論(membership inference)、反転(inversion)、複製(replication)の関係に注意することは非常に重要です。「データを記憶する生成モデルは、モデルの反転やメンバーシップの推論だけを可能にするかもしれず、同じモデルが偶然に学習データを自発的に生成することはないだろう」という関係性についてです。

 

[Memorization in language. ]

 It is well known that generative language models risk replication from their training set [9, 10] and the amount of replicated data is broadly proportional to the size of the model, amount of duplication of the data point in the training set, and the amount of prompting.  Interestingly, such replication behavior occurs even for models that are not overfitting to their training data [33,60].

 

[言語分野における記憶]

 言語生成モデルの分野においては、学習元データから文章が複製される危険性があることはよく知られており[9, 10]、複製されるデータの量はモデルの大きさ、学習データ中のデータ点の重複量、プロンプトの量に大きく比例します。興味深いことに、このような複製動作は、学習データに対してオーバーフィットしていないモデルでも起こっています[33,60]

 

[Diffusion models. ]

 Diffusion is a process for converting samples from a Gaussian noise distribution into samples from an arbitrary and more complex distribution, such as the distribution of natural images.

 We consider several variants of diffusion models.  Stable Diffusion is a state-of-the-art text-conditional latent diffusion model [54], trained on the LAION database [57].  The version we analyze in this work (v1.4) was initially trained on over 2B images and then fine-tuned with 600M images from the LAION Aesthetics v2 5+ subset, which is filtered for image quality.  We search for matches only in the much smaller 12M LAION Aesthetics v2 6+ split to keep storage costs manageable.

 

[拡散モデル]

 この分野における拡散とは、ガウスノイズ分布からのサンプルを、自然画像の分布のような、任意の、より複雑な分布からのサンプルに変換するためのプロセスです。

 ここで私達は拡散モデルのいくつかの変種を検討しました。Stable Diffusionは最新のテキスト条件付き潜在拡散モデル[54]であり、LAIONデータベース[57]でトレーニングされたものです。この研究で分析するバージョン(v1.4)は、最初2Billion(=20)枚以上の画像で学習され、その後画質のためにフィルタリングされたLAION Aesthetics v2 5+サブセットからの600Million(=6)枚の画像で微調整されたものです。今回私達は容量のコスト(storage costs)を管理しやすくするために、それよりずっと小さい小さい12MLAION Aesthetics v2 6+分割でのみマッチングを検索しました。

 

[Related work.]

 Replication behavior in GANs has been studied in a number of works.  Meehan et al [39] describe a hypothesis test that discerns whether generated images are on average closer to the training data than a random sample from a hold-out set.  Note that this test is at the population level, and is not designed to flag individual instances of replication.  Feng et al.[24] study the conditions that lead GANs to replicate training data.  They look for copies in pixel-space and find that such replications are inversely proportional to dataset complexity and dataset size.  Webster et al [63] show on face datasets that GANs canoccasionally replicate.  Interestingly, these models can produce novel images of known identities from the training data without making verbatim copies.  FID scores for ranking GANs favor models that memorize training data [4], leading toward a search for measures of generalization without memorization [29].  This includes “authenticity scores” that detect replication [1], but only in the form of noisy pixel-by-pixel copies of the training data.  Similarly, authors of large-scale diffusion models have investigated image replication themselves [40], reducing replication through training data de-duplication, and checking for simple nearest-neighbor matches.

[関連論文]

 GANにおける複製動作は多くの著作で研究されています。Meehan[39]は、生成された画像が平均してホールドアウト集合からのランダムなサンプルよりも学習データに近いかどうかを識別する仮説検定について述べています。このテストは母集団レベルであり、複製の個々のインスタンスにフラグを立てるように設計されていないことに注意してください。Feng[24]は、GANが学習データを複製する条件について研究しています。彼らはピクセル空間における複製を探し、そのような複製はデータセットの複雑さとデータセットに反比例していることを発見しました。Webster[63]は顔のデータセットにおいて、ときおり、GANが複製を行うことを示しました。興味深いことに、これらのモデルは逐語的な複製を行うことなく、学習データに含まれる特徴を含む新しい画像を生成することができます。GANのランキングのためのFIDスコアは、学習データを記憶するモデルに有利であり[4]、記憶の工程を踏まない一般化の尺度の探索につながります[29]これには複製を検出する「真正性スコア」[1]が含まれますが、訓練データ内でもノイズの多い、ピクセル単位のコピーの形のものしか検出できません。同様に、大規模拡散モデルの制作者も、画像の複製を調査を行い[40]、彼らは学習データの重複を排除し、単純な最近傍(Nearest neighbor)の一致をチェックすることにより、複製を削減しています。




References
(引用文献)

続きを読む

Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models 1 導入(イントロ) 全文翻訳

Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models

https://www.researchgate.net/publication/366093127_Diffusion_Art_or_Digital_Forgery_Investigating_Data_Replication_in_Diffusion_Models

の1 導入(イントロ) 全文翻訳になります。


1 導入(イントロ)

1. Introduction

  The rapid rise of diffusion models has led to new generative tools with the potential to be used for commercial art and graphic design. The power of the diffusion paradigm stems in large part from its reliance on simple denoising networks that maintain their stability when trained on huge web-scale datasets containing billions of imagecaption pairs.

  These mega-datasets have the power to forge commercial models like DALL·E [52] and Stable Diffusion [54], but also bring with them a number of legal and ethical risks [7]. Because these datasets are too large for careful human curation, the origins and intellectual property rights of the data sources are largely unknown. This fact, combined with the ability of large models to memorize their training data [9,10,22], raises questions about the originality of diffusion outputs. There is a risk that diffusion models might, without notice, reproduce data from the training set directly, or present a collage of multiple training images. 

  We informally refer to the reproduction of training images, either in part or in whole, as content replication. In principle, replicating partial or complete information from the training data has implications for the ethical and legal use of diffusion models in terms of attributions to artists and photographers.  Replicants are either a benefit or a hazard; there may be situations where content replication is acceptable, desirable, or fair use, and others where it is “stealing.”  While these ethical boundaries are unclear at this time, we focus on the scientific question of whether replication actually happens with modern state-of-the-art diffusion models, and to what degree.

 

1. はじめに

拡散モデルの急速な台頭により、商業美術やグラフィックデザインに利用できる可能性を秘めた、画像を生成する新しいツールが誕生しました。
拡散パラダイムの威力は、根本的に、シンプルなノイズ除去ネットワークへ大きく依存しています。そのノイズ除去ネットワークは、数十億の「イメージ」ー「キャプション」ペアを含む巨大なウェブスケールのデータセットで訓練しても安定性を維持するものです。

これらの大量のデータセットはDALL-E [52]やStable Diffusion [54]のような商業モデルを形成するほどの物量がありますが、同時に多くの法的・倫理的リスクも伴っています[7]。
というのも、これらのデータセットは、人間の手による注意深い情報の収集、精査、整理等を行うには規模が大きすぎるのです。そのため、データソースの出所や知的財産権のほとんどは不明です。
この事実は、大規模なモデルが学習データを記憶する能力[9,10,22]と相まって、拡散モデルの手法による出力のオリジナリティに疑問を投げかけるものです。
そのため、拡散モデルには次の危険性があります。予告なしに学習元のデータセットのデータから直接そのまま複製物を再現したり、あるいはデータセットにある複数の学習済みの画像のコラージュを作成しうるといった危険性です。

学習用画像の一部または全部を複製することを、我々は非公式にコンテンツ複製(content replication)と呼んでいます。
原理的には、アーティストや写真家への帰属という観点から、学習データから情報の一部または全部を複製することは、拡散モデルの倫理的・法的な使用に関わってくるはずです。
レプリカント(※ブレードランナーの中の人間そっくりのアンドロイド)の存在は利益にも害にもなりえます。
すなわち、コンテンツの複製が許容される、望ましい、あるいは公正な使用である状況と、"盗用 "である状況があるかもしれないのです。
このような倫理的な境界線は現時点では不明瞭ですが、私たちは、現代の最先端の拡散モデルにおいて、「複製が実際に起こるのか、またその程度はどの程度なのか」という科学的な問題に焦点を合わせました。

 

  Our contributions are as follows. We begin with a study of how to detect content replication, and we consider a range of image similarity metrics developed in the selfsupervised learning and image retrieval communities. 
We benchmark the performance of different image feature extractors using real and purpose-built synthetic datasets and show that state-of-the-art instance retrieval models work well for this task.
  Armed with new and existing tools, we search for data replication behavior in a range of diffusion models with different dataset properties. 
We show that for small and medium dataset sizes, replication happens frequently, while for a model trained on the large and diverse ImageNet dataset, replication seems undetectable.

  This latter finding may lead one to believe that replication is not a problem for large-scale models.
However, the even larger Stable Diffusion model exhibits clear replication in various forms (Fig 1).   Furthermore, we believe that the rate of content replication we identify in Stable Diffusion likely underestimates the true rate because the model is trained on a large 2B image split of LAION, but we only search for matches in the much smaller 12M “Aesthetics v2 6+” subset.

  The level of image similarity required for something to count as “replication” is subjective and may depend on both the amount of diversity within the image’s class as well as the observer.   Some replication behaviors we uncover are unambiguous, while in other instances they fall into a gray area.   Rather than choosing an arbitrary definition, we focus on presenting quantitative and qualitative results to the reader, leaving each person to draw their own conclusions based on their role and stake in the process of generative AI.

 

本研究において、我々が取り組んだ箇所は以下の通りです。まず、コンテンツの複製を検出する方法についての研究から始め、自己教師あり学習(selfsupervised learning)分野と画像検索のコミュニティで開発された様々な画像の類似性の測定基準(メトリック)について検討しました。我々は、実データと目的に応じて構築された合成データセット(purpose-built synthetic datasets)を用いて、複数の画像の特徴抽出器の性能をベンチマークし、最先端の事例の検索モデルがこのタスクに上手く対応できることを示しました。

そして、新しいツールや既存のツールを用いて、それぞれ異なるデータセットのプロパティ(dataset properties)を持つ様々な拡散モデルにおけるデータの複製するふるまいを調査しました。その結果、小規模、中規模のデータセットでは、複製が頻繁に起こることが示されました。一方、大規模で多様なImageNetデータセットで学習したモデルでは、複製は検出されないように見えました。

この後者の発見により、大規模なデータセットを用いたモデル(large-scale models)では複製は問題ないと思われるかもしれません。しかし、実際には、もっと大規模なデータセットのモデルであるはずのStable Diffusionモデルにおいて、様々な形で明らかな複製が発生しています(図1)。
さらに、我々は以下のように考えています。
Stable Diffusion確認されたコンテンツの複製率は、複製画像の真の比率を過小評価しているようなのです。おそらくその理由は、Stable Diffusionは学習時にはLAIONの大規模な2 Billion枚(=20億枚)の画像をモデルに学習させていたのに対して、私たちの調査ではずっと少ない12 Million枚(=1200万枚)の “Aesthetics v2 6+” サブセットのみの一致(match)を検索したためでしょう、と。

「複製物」と判断するための画像の類似度は主観的なものであり、画像におけるクラス内の多様性(diversity within the image’s class)や観察者に依存する場合があります。
私たちが発見したいくつかの複製のふるまいの中には、明確なものもあれば、グレーゾーンに入るものもあります。ここで、この結果を受けて私たちは、恣意的な定義を行うよりも、読者の皆様に定量的・定性的な結果を提示したいと思っています。AI生成のプロセスにまつわる各々の人の役割と利害関係に基づいて、それぞれの人が独自の結論を導き出すことに重点を置いているのです。

 

(図1)

 

〈1 導入 全文翻訳終わり〉

機械学習による合成画像装置のテスト論文の翻訳&解説(簡易版)1

こんにちは。

前回の宣言通り、本記事では論文の解説をします。

解説は以下の3回に分けようと思っています

1)要旨(アブスト)を説明する回

2)論文本編を説明する回

3)追加試験(補足の部分)を説明する回

 

今回は1)の要旨(アブスト)を説明する回になります。

最初は全文日本語翻訳を掲載するつもりはなかったんですけど、一周回って翻訳を掲載したほうが楽かもしれないと思ったので本編の論文の英語を必要に応じて翻訳していこうと思っています。

 

↓元論文(PDFダウンロードできます)

https://www.researchgate.net/publication/366093127_Diffusion_Art_or_Digital_Forgery_Investigating_Data_Replication_in_Diffusion_Models

 

fig1

図1. (fig1)
 Stable Diffusionは、学習データを再現し、記憶した前景と背景の物体をつなぎ合わせて画像を作成することが可能です。さらに、このシステムは、記憶されたものに元づいた次の再構成を行うことがあります。
 ピクセル単位では同一でないものの、人間の目から見た全体の画像の意味としては、それらの元の物体(source object)の意味に関して等価な画像を生成するのです。ここでは、LAIONから抽出した様々なプロンプトと、手作業で作成したプロンプト(一番右のペア)において、このような振る舞いが起こることを示します。
 このような画像の存在は、データ記憶の性質や拡散画像の所有権について疑問を投げかけるものです。
上段:生成された画像。
下段:LAIONAesthetics v2 6+の学習元画像のセットの中で最も近いマッチング。
 ソース(source)とマッチプロンプト(match prompts)は非常に似ていることもあれば、全く異なることもあります。プロンプトのある他の例については図7を(Figure 7)、この図からのプロンプトについては付録(Appendix)を参照してください。

 

 

 

論文の読み方

まずはじめに、一般的に、理系の論文はだいたい次の構成になっています。

0 タイトル、著者のチームと名前

1 要旨(アブスト

2 本編 

 2-1 仮説、実験環境、実験内容の説明とか)

 2-2 実際の実験結果

3 考察、結論

4 出典 引用文献等

 

したがって、時間がない人は、

0のタイトルを読んで方向性を掴む→1の要旨(アブスト)で筆者の主張したいこと(結論も含んだ要旨)をざっと眺めればOKです。
ん?細かいところどうなってんの?と思った方に向けて、2からあとの詳細な内容が記載されている、というシステムになっています。

 

今回もその考え方に応じて、まずはざっと要旨(アブスト)からつかんでいきましょう。

 

要旨(アブスト)(※時間ない人はここまででOK)

大事なので今回の記事ではこのパートだけ全文翻訳します。

abstract_word1

最先端の拡散モデルを用いた機械学習モデルは、高い品質を画像を生成することを可能にしました。
また、カスタマイズ性もあり、ツールとしては、一見、商業美術やグラフィックデザイン用途に耐えうるほどの水準まで完成しているように見えます。

しかし、拡散モデルはほんとうに独自の(唯一無二の)作品を作り出しているのでしょうか?
それとも学習セットから直接コンテンツを複製してしまっているのでしょうか?

私たちは普段、画像検索のフレームワークを研究しています。
このフレームワーク(ツールのようなもの)を使うと、生成された画像を学習用サンプルと比較し、コンテンツが複製されていることを検出することができます。

本研究では、私たちの、このフレームワークをOxford flowers, Celeb-A, ImageNet, LAIONなどの複数のデータセットで学習させた拡散モデルに適用し、学習セットのサイズなどの要因が、どのように拡散モデルに影響を与えるかを考察しました。
この論文ではとくに、学習セットのサイズ(=使用した画像の枚数)などの要因が、コンテンツの複製率にどのような影響を与えるかについて議論しています。

またこの研究では、私たちは、有名なStable Diffusionモデルを含む拡散モデルが、機械学習の際の教師データとして使用した学習元画像をあからさまにコピーしているケースも確認しました。

 

こちらが、要旨(アブスト)deepLに入れて文章が変なところを主導で直した和訳です。読みやすさ重視で日本語をわかりやすくしています。信用ならない人はご自身で元の英語の文章を翻訳機に入れてみてください。たぶんだいたい同じはずです。

 

これによると、この論文は、学習する元画像の枚数の量によって、学習元に酷似したコピー画像の出やすさの結果が変わるのではないか?ということを調べている研究をまとめた論文だそうです。

最後のあたり、だいぶ物騒なことを言っていますね。

 

論文本編の内容

ここから、論文本編の内容に入っていきます。

 

 

……と思ったんですが、思いのほか長くなりそうなので、次の記事以降に分割させてください

 

とりあえず、物騒な画像が一杯貼ってあるので、その図だけ引用して貼ってみます。

中身知りたい人は上のリンク先のサイトのPDFを翻訳してみてください。

 

Fig2-Fig4

Fig7-Fig10

 

Fig12

 

 

付録(Appendix)

Fig13-15

 

 

こちらの内容が日本国内にも知れ渡ると、だいぶ法律等の議論の印象の方向が変わるかなーとか思います。みなさま、この知見の共有のほど、よろしくお願いいたします