機械学習による予測確率は真の確率とは異なる
以下の記事では傾向スコアをロジスティク回帰で求めてその傾向スコアをもとにATEなどを求めた。
機械学習で出した確率は、予測確率が0.5未満ならラベル0、0.5以上ならラベル1にする、といったような分類器として使う場合は(おおむね)問題ないがそのとき出る予測確率そのものは真の確率とは異なるみたい。
そのため、機械学習を用いて確率自体を出したい場合は予測確率に対してProbability calibrationと呼ばれる補正が必要となる。
1.16. Probability calibration — scikit-learn 0.21.2 documentation