言語生成AIとは、膨大な情報を学習したモデルに「質問」を与え、その質問に対する「答え」を返すことで、会話を成立させる仕組みである。
そして、生成AIの回答に幅をもたせ、常に同じ答えにならないようにするためのパラメータが設定されている。
つまり、生成AIは状況に応じて即興的に答えを作り出しているともいえる。
もう一つ重要なのは、「質問」が毎回モデルを通して解釈され、そのたびに回答が生成されるという点である。
そのため、前回の回答に直接「補足する」形での応答は苦手であり、あくまでその都度の質問内容に基づいて返答が作られる。
たとえば、次のような問答を例に説明する。
(質問)
バナナを使ったご飯に合う主菜を考えて。
(返答)
- バナナポークカレー炒め
- 鶏もも肉とバナナの照り焼き
- バナナエビチリ
(質問)
激辛にして。
(返答)
バナナキーマカレー炒め(激辛版)
このように、AIは直前のやり取りを「文脈」として正確に参照しているわけではなく、
「バナナを使ったご飯に合う主菜を考えて。激辛にして。」という一つの質問として再解釈し、回答を生成している。
画像生成を例にすると、
「高層ビル群を見上げて青い空を見ている絵を収めた額縁」という条件を指定して画像を生成したあと、

「この絵で額縁をメタリックにして」と指示した場合でも、AIは「高層ビル群を見上げて青い空を見ている絵を収めた額縁。額縁をメタリックに」という条件で再生成するだけであり、

「この絵」という過去の生成結果そのものを理解・保持しているわけではない。
このような生成AIの特性を理解しておくと、質問や指示をより望む方向に導くことができるはず。
ぜひ参考にして!
コメントを残す