AIも平気でウソをつきますが、その情報の正確度・精度はかなりあがってきています。
しかし、いまだによくAIのウソ、つまりハルシネーションに遭遇したりすることはまれではありません。
AIのハルシネーション
AI企業のVectaraは、オープンソースの幻覚評価モデルであるH2EM(Hughes Hallucination Evaluation Model)を使い、ChatGPTに代表される大規模言語モデルが、要約のタスクにおいて、どのくらいのウソを発生するかの調査を行っています。
幻覚評価モデルの『幻覚』とは、別名『ハルシネーション』と呼ばれ、AIチャットの裏側で動いている大規模言語モデルが、事実とは異なる内容を真実のように言ってしまうというものです。
つまり、平たくいえば、AIがウソをつくということになります。
ウソをつかないチャットGPT
OpenAIのGPT-4、GoogleのGemini、MetaのLlama2などの様々な大規模言語モデルがテストされ、結果がランキングされています。
その結果、一番正確で一番ウソをつかないということで判定されたのが、GTP-4、GTP-4 Turbo、GPT-3.5 Turboとなっていて、OpenAIの大規模言語モデルが上位を独占する結果になっています。
次点として、Googleから発表された大規模言語モデルであるGemini Proがランクインしています。
オープンソースで人気の大規模言語モデルのMetaのLlama2が、その次に続いています。
Googleは、1つ前の大規模言語モデルであるPalm2から比べると、かなりハルシネーションが抑えられていて、大健闘しています。
もっとも、どのような内容を、どのような質問するのか、AIにどのようなことをやらせるのかによっても、この精度はだいぶ変わってきますし、そもそも評価しているのもAIということを考えると、本当に100%正確に評価されているのかとも思ってしまいます。
G-フェルミ先生
GTPsの一つとして、最近話題となっているのが、『G-フェルミ先生』です、
これは、お題を与えると、フェルミ推定をしてお題に答えてくれるというものです。
フェルミ推定とは、一見予想もつかないような数字を、論理的思考能力を頼りに概算していくという思考です。
例えば、日本にはマンホールはいくつあるのかといったことを考えるとき、具体的なデータはありません。
そこで、いろいろな推定材料をそろえて、それを論理的に予測していくのです。
フェルミ推定で大切なのは、答えに行きつくまでの思考や考え方、その考え方を他人に説明できる能力が求められます。
例えば、日本にあるコンビニの数を教えてくださいと入力すると、フェルミ推定を使って割り出してくれます。
日本の都市と田舎の地域を考え、都市部は発展していて、多くの人が住んでいる一方で、田舎の地域も考慮に入れます。
次にコンビニの密度を考えます。といった具合に推定していきます。