まずは蝋の翼から。

学んだことを書きながら確認・整理するためのメモブログ。こういうことなのかな?といったことをふわっと書いたりしていますが、理解が浅いゆえに的はずれなことも多々あると思うのでツッコミ歓迎

Python

交差検証法あれこれ

交差検証 何故モデルの評価に交差検証が必要か書く。 学習元は「Pythonではじめる機械学習」。 Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎作者:Andreas C. Muller,Sarah Guido発売日: 2017/05/25メディア: 単行本…

LightGBMを試す

LightGBMを試してみる。 LightGBMはBoosted treesアルゴリズムを扱うためのフレームワークで、XGBoostよりも高速らしい。 XGBoostやLightGBMに共通する理論のGradient Boosting Decision Treeとは、弱学習器としてDecision Treeを用いたBoostiongアンサンブ…

編集距離を用いた固有名詞の名寄せ

編集距離(レーベンシュタイン距離)を用いて、名寄せ作業をおこなった。 レーベンシュタイン距離については過去記事参照。 knknkn.hatenablog.com 今回の目的は前述のように、データソースAとBで、同じ固有名詞を示していても表記ゆれがあったため名寄せを…