■ - [旧] midnight in a perfect world

「統計学が最強の学問である」を読む。

「実践編」「数学編」「ビジネス編」とか色んなバージョンがあるうちの一番基本形なのかな。テキストマイニングの仕事で若干触れるようになってきた機械学習とかディープラーニング、過去に大学の必修で受講した社会調査法、映画のマネーボール(セイバー・メトリクス)とかマンガの「僕はまだ野球を知らない」とか、統計学に関するこれまでの知識や関心が高まってきたので本作を読んでみた。すげー面白かった。著者がこの本を書いた時、自分と同年代位だったというのがまた凄い。無味乾燥な統計学の数式を紹介するのでなく、フィクションだったりビジネスの現場だったり統計学村に住む統計学を使う人々の生態だったり、結構下世話な筆致や大げさなタイトルもあって派手で読みやすく、楽しめる。
あみだくじの必勝法という、無意識に選択する何気ない行動が統計的に分析するときちんと説明できる、という分かりやすい例から「統計リテラシーのない者がカモられる」ことを初っ端から説明してくれて惹きこまれる。個人の経験とか勘みたいなものを重視して無駄な熟考するより、統計学を使って最善最速の正解を出す方が良くない？というシンプルでぐうの音も出ない説明でひれ伏した。統計的に有意な差をきちんと踏まえて行動するという、生きてく上で指針にしたい考え方だ。著者の専門は疫学という領域になるそうだが、19世紀のロンドンで流行したコレラに対するスノウという人物の調査で、「知性も見識も十分にある彼らが知恵を絞って出したアイデアも、時間と労力をつぎ込んだ事業も、ムダか、もしくは有害だったのだ」という事態になりかねない。自分の専門や知識すら過信せず、データと向き合う姿勢が必要だと痛感。仕事だけに関わらず、政治や医療や教育の現場でも、こういったきちんとした根拠に基づく意志決定を徹底しなければいけないと改めて納得した。まぁ、近年の政府や官僚はその判断となる貴重な一次データを積極的に廃棄したり改竄したりしてるから目も当てられない状況であるが。
あと、基本として本書は図解や索引などの体裁がとても整っており、非常に親切で初学者にも優しいのがポイント。
とりあえず専門用語も多数なので、忘れないようにメモっておく。
・「「心臓病を発症するか否か」のような二値の変数と多様な調査項目の関連性を見るといった解析には、ロジスティック回帰という分析方法が一般的に使われる」
・分散処理するためのオープンソースのJAVA フレームワークであるHadoop。
・オープンソースの統計解析用言語であるR言語。
・「適切なサンプリングさえすれば、必要な情報を得るためのコストが激減する」「まず正しい判断に必要な最小十分のデータを扱うこと」を推奨する
・サンプリングした結果の標準誤差が0.5％だったとすれば、全数調査をした結果とほとんど変わらない。
・「果たしてその解析はかけたコスト以上の利益を自社にもたらすような判断につながるのだろうか？」という視点。
・ナイチンゲールが挙げた最も大きな業績は、兵士の死因を集計して戦死の内訳を明らかにしたこと。
・「因果関係を考えない統計解析」では有効な施策が実施できない。意味のあるクロス集計をすべき。そして、因果関係には向きがあるので注意して、「フェアな比較」を行う。例として、「ゲームと少年犯罪の関係」など。
・その時、「誤差を考えない資産は皮算用」となる。p値５％以下を目指すべき。これを推し進めたのが統計学の父フィッシャーの功績。彼は自然科学だけでなく、「誤差」のある社会的事象も科学で扱うことを可能としたたため科学哲学を揺るがし、オカルトやペテンも統計学的手法で見破るための思考法を与えた。「実験計画法」という、農場の生産性を挙げるための手法として考えられた。
・得た結果はとりあえずA/Bテストで小さく試していき、有効な施策を比較していく。その時もカイ二乗検定でそれが「統計的に有意な差」なのかを検証する。
・「ミシン2台買うと1割引き」というキャンペーンで大ヒット。
・とはいえ、倫理的に許されない実験はダメ。ナチスの人体実験みたいな。「煙草と肺がんの関係」を調べるために被験者に煙草を吸わせ続けるとか。微妙なのが、「一部の貧困家庭のみに家賃の補助券を配る」みたいなもの。もらえる家庭はずるい！とか却って働かなくなるだろ等の色々反発も起きる。
・「揃えきれていない条件」にどこまでこだわるべきかは考えなければいけない。厳密性にこだわると意志決定が出来ない。
・一般化線形モデルと回帰分析。
・「全集団同士での単純比較は、その内訳となる小集団同士との比較の結果と矛盾することもある」
・オッズ比を用いるロジスティック回帰分析によって、
2変数間で「◇◇で○○だと、事象が起きる確率が××倍になる」
・「相関とは、「一方の値が大きいときに他方も大きい」という傾向を示しているだけで、「一方の値が大きいから他方も大きい」かどうかという因果関係とはまったく別物」
・マーケティングの現場で生まれたデータマイニング。バスケット分析。amazonの関連商品も、カイ二乗値を使って関連性の強い商品をレコメンドしている。
・椅子と机を区別するための分析。データマイニングと回帰分析。
・シェイクスピアは平民の割りに貴族社会の描写がうまく、同時代にいきたフランシス・ベーコンの変名だったんじゃないか？という分析がされたらしい。形態素解析やテキストマイニングした結果、特に共通した特徴はなかったらしいが。
・テキストマイニングの結果はカスタマーサポートの問い合わせ内容に使われてきた。「オペレータの報告書や問い合わせのメールに対して頻出後の集計やクラスタリングを行えば、「どのような内容の問い合わせが多いか」が明らかになる。それさえわかれば対応マニュアルやFAQの整備によってオペレータの人件費を削減できる」
・計量経済学者は演繹的に統計学の手法を用いる。疫学では帰納的。
・迷惑メールの判別に威力を発揮するベイズ統計
・エビデンスの確度に注意すべし。「系統的レビュー」や「メタアナリシス」は最高のエビデンス。専門家の意見や基礎研修は最下位。
・エビデンスやデータや論文に対するアクセスはめちゃ簡単になっている。皆もきちんとしたデータを使って「不毛な議論」を脱出しよう。