AIチャットのハルシネーション | 賢脳トピックス

AIも平気でウソをつきますが、その情報の正確度・精度はかなりあがってきています。

しかし、いまだによくAIのウソ、つまりハルシネーションに遭遇したりすることはまれではありません。

AIのハルシネーション

AI企業のVectaraは、オープンソースの幻覚評価モデルであるH2EM(Hughes Hallucination Evaluation Model)を使い、ChatGPTに代表される大規模言語モデルが、要約のタスクにおいて、どのくらいのウソを発生するかの調査を行っています。

幻覚評価モデルの『幻覚』とは、別名『ハルシネーション』と呼ばれ、AIチャットの裏側で動いている大規模言語モデルが、事実とは異なる内容を真実のように言ってしまうというものです。

つまり、平たくいえば、AIがウソをつくということになります。

ウソをつかないチャットGPT

OpenAIのGPT-4GoogleのGeminiMetaのLlama2などの様々な大規模言語モデルがテストされ、結果がランキングされています。

その結果、一番正確で一番ウソをつかないということで判定されたのが、GTP-4、GTP-4 Turbo、GPT-3.5 Turboとなっていて、OpenAIの大規模言語モデルが上位を独占する結果になっています。

次点として、Googleから発表された大規模言語モデルであるGemini Proがランクインしています。

オープンソースで人気の大規模言語モデルのMetaのLlama2が、その次に続いています。

Googleは、1つ前の大規模言語モデルであるPalm2から比べると、かなりハルシネーションが抑えられていて、大健闘しています。

もっとも、どのような内容を、どのような質問するのか、AIにどのようなことをやらせるのかによっても、この精度はだいぶ変わってきますし、そもそも評価しているのもAIということを考えると、本当に100%正確に評価されているのかとも思ってしまいます。

G-フェルミ先生

GTPsの一つとして、最近話題となっているのが、『G-フェルミ先生』です、

これは、お題を与えると、フェルミ推定をしてお題に答えてくれるというものです。

フェルミ推定とは、一見予想もつかないような数字を、論理的思考能力を頼りに概算していくという思考です。

例えば、日本にはマンホールはいくつあるのかといったことを考えるとき、具体的なデータはありません。

そこで、いろいろな推定材料をそろえて、それを論理的に予測していくのです。

フェルミ推定で大切なのは、答えに行きつくまでの思考や考え方、その考え方を他人に説明できる能力が求められます。

例えば、日本にあるコンビニの数を教えてくださいと入力すると、フェルミ推定を使って割り出してくれます。

日本の都市と田舎の地域を考え、都市部は発展していて、多くの人が住んでいる一方で、田舎の地域も考慮に入れます。

次にコンビニの密度を考えます。といった具合に推定していきます。

最新情報をチェックしよう!