『AIの心理学』が今年イチ面白かった件【『アルゴリズミック・バイアス』の実用書】

AIの心理学

※タイトルの”今年”というのは、当ページをリリースした”2021年”のことです

AIの心理学』という本を読みました。

久々に感動レベル(語彙力)の面白い本だったので、これからも手元に置いて何度も読むことになりそうです…。というか、もう何回も読んでいますが。

内容はというと、『アルゴリズミック・バイアス』といって、『アルゴリズムに内在するバイアス』がテーマの一冊です。

あまり聞き慣れない方にあえて身近な例を挙げるとするならば、YouTubeやECサイトなどの『レコメンデーション・システム』でおなじみの以下のような現象のことです。

アルゴリズミック・バイアスの身近な例
  1. 『YouTubeで別に見たくもない動画をおすすめされた…』
  2. 『ECサイトで欲しくもない商品が表示される…』

本書は「これらの誤差(つまりはアルゴリズミック・バイアス)がなぜ起こるのか?」が体系的に考察され、その原因や対処法が垣間見れる実用書となります。

それでは今回は、そんな本書の書評をさせていただくこととします(`・ω・´)ゞ

※出版に携わった方々のご迷惑にならぬよう、ネタバレには最大限配慮致しました

『AIの心理学』の書評【著者/翻訳者の紹介と本書の特徴】

まずは本書の著者情報と特徴です。

著者はデータサイエンティスト&心理学者:トバイアス・ベア

著者Tobias Baer(トバイアス・ベア)というデータサイエンティスト&心理学者のお方になります。

専門的な内容を最大限噛み砕いて説明しているのが印象的で、さらに機械学習の分野では、自身の経験則を元にパフォーマンスとコストの両面を考慮した最適解を提示しているところが印象的でした。

翻訳もとても読みやすく、自分が今までに読んだオライリーの本のなかでは一番だった気がします。

(これも何かのバイアスかもしれませんが。笑)

ーーーーー

ちなみに著者の経歴からすると本書のタイトル『AIの心理学』にピッタリの方といえそうですが、実は原著のタイトルは『Understand, Manage, and Prevent Algorithmic Bias: A Guide for Business Users and Data Scientists』となっているので、『AI』も『心理学』も入っていません。

これは翻訳者である武舎 広幸(むしゃ ひろゆき)さん、武舎 るみ(むしゃ るみ)さんの意向だったとのこと。

個人的にはキャッチーな翻訳タイトルなので良いかと思いました。原著タイトルのまま翻訳すると売れなさそうですし…。笑

ーーーーー

スポンサーリンク

ジャンルは心理学&計算機科学

内容は冒頭で少しご紹介した通り、アルゴリズミック・バイアスにまつわる実用書となっています。

ジャンル的には、心理学&計算機科学…といったところでしょうか。

本書の構成としては、序盤は心理学の側面からバイアス全般に焦点を当て、終盤にかけて計算機科学の色合いが強くなっていく形となっています。

とはいえ、本書曰く、本書の想定読者は『全国民』とのこと。

自分が読んだ限りでは、少なくともアルゴリズミック・バイアスもしくは認知バイアスに何らかの対策をしたい方には一見の価値はあると感じました。

機械学習

スポンサーリンク

批判的思考を終始促している

しかしながら、本書には「これだけやっておけば間違いない!」といった安直な答えが用意されているわけではございません。

理由はバイアスの問題が複雑だからに他なく、その証拠に本書では、読者に一貫して『批判的思考』を促しています。

(前略)何より重要なのは、この本がさまざまな状況下で投げかけるべき具体的な質問を提示することで批判的思考(クリティカルシンキング)を促しているところです。

(はじめに より)

そのため、本の内容を使うには、自分の頭で考察を深める必要があります。

『AIの心理学』で推奨されていたバイアスの回避方法【2つの分析法】

肝心のバイアスの回避方法もちょこっとご紹介させていただきます。

色んな方法が列挙されていましたが、ここでは著者が強く推奨しており、個人的にも印象に残った計算機科学による施策を2つ厳選しました。

どちらもバイアスとなり得るデータ品質を俯瞰して評価でき得る方法です。

<1>欠損値の構造が類似する変数を使う

欠損値の構造が似ている複数の変数群を特定し、それをモデルに応用する方法です。変数群特定までの表層な手順は下記になります。

欠損値構造の特定方法
  1. 各変数ごとにミラー変数を作成
  2. 変数の相関を調べる
  3. 欠損値の指標の相関が強い変数群を特定

ダミー変数の相関を調べるには、二変量の相関係数が載ったテーブルの作成を推奨しています。

言うまでもなく(複雑でない限り)実用性が高いことが理由です。

スポンサーリンク

<2>『主成分分析(PCA)』を使う

2つ目は機械学習でもおなじみの『主成分分析(PCA)』を使う方法です。

著者は経験則から、PCAによる変数のフィルタリングは20~40個弱を推奨しています。

この理由は、変数が膨大になりがちな機械学習を使う側の労力の面から都合が良く、さらにはモデルを構築するまでにバイアスを精査するチャンスは残されているからとのこと。

またこれも著者の経験則ながら、このやり方でもモデルが明らかに劣ることは”少なかった”としています。

とはいえ、当然変数をフィルタリングする方法は一様ではないため、留意すべきは試行錯誤し、経験を積み重ねることといえそうです。

 

ーーーーー

著者が推奨するPCAによる手法には、『IV(情報価値)』を事前に算出することを必須としています。理由は2つです。

1.欠損値を補完できる『WOE(ウェイト・オブ・エビデンス)』が観測値に付く

2.各PCA内の変数の優先順位が付きやすくなる

※PCAを使う前にカテゴリー変数を数値変数に変換し、欠損値を漏れなく補完する必要があるため

ーーーーー

『AIの心理学』まとめ

本書は心理学と計算機科学の両面からバイアスに焦点を当てている独自性の高い一冊です。

そして何よりも実用的です。

考察が必要にはなりますが、理論に留まらない情報が知りたい方にとって、とても興味深い内容となるに間違いありません。

それでは。