不均衡なデータ

February 9, 2022

Bioinformaticsの分野をやっていると、不均衡なデータによく出くわすものである。特に、正例 positive が少なく、負例 negative が多いケースが多い。このような状態だと、何も考えずに構築したモデルは、いかなるデータが来ようとも負例として予測してしまうことすらある。

from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

# 不均衡データ（1対50）を作成
X, y = make_blobs(n_samples=[500,10], centers=None, random_state=0)
plt.scatter(*X[y==0].T, label="negative")
plt.scatter(*X[y==1].T, label="positive")
plt.legend()
plt.show()

データの散布図

from sklearn.svm import SVC

# 予測モデルの構築
# （説明のためにgammaを下げて問題を誘発している）
svc = SVC(gamma=0.01)
svc.fit(X, y)

svc.predict([[3,-1]])

これを行うと、[3, -1] は負例である、という予測結果が出てくる。しかし、これを先ほど示した図に載せるとどこになるだろうか。以下のようになり、明らかに正例であるべき場所である。

不均衡データの学習

これは意図的に変数 \(\gamma\) を下げることで（モデルの複雑度を下げて）誘発しているが、単なる正解率に基づくハイパーパラメータ探索はいつのまにかこの問題に入りこんでしまう事がある。注意しなければならない。

柳澤渓甫

不均衡なデータ

関連参考文献（順不同）

関連記事

東京都のCOVID-19モニタリングデータ(1)

ブログを書き始めた理由

検証誤差と汎化誤差

共溶媒分子動力学 (MSMD) 法における共溶媒セットの構築手法 EXPRORER