言語生成AIとは、膨大な情報を学習したモデルに「質問」を与え、その質問に対する「答え」を生成させて会話を成立させる仕組みである。
そして、生成AIの回答には幅が持たされており、常に同じ答えにならないように設定されている。
もう一つ重要なのは、「質問」が毎回モデルを通して解釈され、その都度あらためて回答が生成されるという点である。 言い換えれば、生成AIは一定の回答を保持しているのではなく、即興的に答えを作り出しているともいえる。
そのため、前回の回答に直接「補足する」形での応答は苦手であり、あくまでその都度の質問内容に基づいて返答が作られる。
次のようなやり取りを例に説明する。
バナナを使ったご飯に合う主菜を考えて。
激辛にして。
このように、AIは直前のやり取りをそのまま「文脈」として正確に参照しているわけではない。
実際には、
「バナナを使ったご飯に合う主菜を考えて。激辛にして。」
という一つの質問として再解釈し、そこから回答を生成している。
画像生成を例にすると、
「高層ビル群を見上げて青い空を見ている絵を収めた額縁」
という条件で画像を生成したあと、

「この絵で額縁をメタリックにして」
と指示した場合でも、AIは

「高層ビル群を見上げて青い空を見ている絵を収めた額縁。額縁をメタリックに」
という条件で再生成するだけであり、 「この絵」という過去の生成結果そのものを理解・保持しているわけではない。
このような生成AIの特性を理解しておくと、 質問の与え方によって、回答をより望む方向に導くことができるはずだ。
ぜひ参考にして!