まずは蝋の翼から。

学んだことを書きながら確認・整理するためのメモブログ。こういうことなのかな?といったことをふわっと書いたりしていますが、理解が浅いゆえに的はずれなことも多々あると思うのでツッコミ歓迎

2019-01-01から1ヶ月間の記事一覧

編集距離を用いた固有名詞の名寄せ

編集距離(レーベンシュタイン距離)を用いて、名寄せ作業をおこなった。 レーベンシュタイン距離については過去記事参照。 knknkn.hatenablog.com 今回の目的は前述のように、データソースAとBで、同じ固有名詞を示していても表記ゆれがあったため名寄せを…

プロビットモデルとトービットモデルの理論

はじめに 昔、非線形モデルのプロビット・トービット・へーキッドについて記事を書いた。 knknkn.hatenablog.com 実際に中身の確認および、当時はなんとなく理解だったので改めて書き直す 非線形モデル ある事象に対して、xxするか/xxしないかというダミー変…

文字列の類似度を測る編集距離

仕事である固有名詞に対してデータソースがAのものとBのもので、微妙に表記ゆれがあったため名寄せ作業をおこなう必要があった。 目で見ていくとキリがないので文字列の類似度測って閾値以上のものをリストアップした上で目で見ると効率が良くなりそうなので…

Rではじめるデータサイエンス 演習3章 2,3,7節

続き。 Rではじめるデータサイエンス作者:Hadley Wickham,Garrett Grolemund発売日: 2017/10/25メディア: 単行本(ソフトカバー) なお、目的は思い出すためなので割と省略している。 knknkn.hatenablog.com knknkn.hatenablog.com 3-2.演習 1.次のようなフ…

Rではじめるデータサイエンス 演習1章② 5~8節

続き。 Rではじめるデータサイエンス作者:Hadley Wickham,Garrett Grolemund発売日: 2017/10/25メディア: 単行本(ソフトカバー) knknkn.hatenablog.com 1.5演習問題 1. 連続変数でファセットを作るとどうなるか。 ggplot(data = mpg) + geom_point(mapping…

Rではじめるデータサイエンス 演習1章① 2,3節

tidyverse系を思い出すためにHadley神の「Rではじめるデータサイエンス」の演習問題をやる。 Rではじめるデータサイエンス作者:Hadley Wickham,Garrett Grolemund発売日: 2017/10/25メディア: 単行本(ソフトカバー) ちなみに英語版はここで読める。 r4ds.h…

良い推定量としての最小二乗推定量(OLS推定量)

過去にも計量経済学系記事を書きましたが、その後同じような内容の本を多読して大体整理がついたのでまとめ。 何故計量経済学でOLSか 計量経済学の目標は、変数間の数量的な因果関係、すなわち「変数Xの変化で、別の変数Yがどれだけ変化するか」の実証にあり…

2019年1月期個人OKR

OKRについてちゃんと調べたので、個人OKRを立てようと思う。 knknkn.hatenablog.com ちなみに過去記事で読んだOKR本はOは1つだけだったが3つくらいまでならOを立ててもいいらしい。 どういう方向性でいくか 去年の振り返りをした結果、 - データ抽出(SQL)ば…

OKRについて調べた

2期前から、会社の目標管理としてOKRを利用している。 検索したりでなんとなく知っていたが、今年は色々とちゃんとしたいのでプライベートの個人OKRを立てるために以下の本を読んだ。 OKR(オーケーアール)作者:クリスティーナ・ウォドキー発売日: 2018/03/…

2018年振り返り

お久しぶりのブログです。 仕事が次々と来て、ほそぼそと日々の勉強をするのに精一杯で書く余裕がなかったです。 最近やっと余裕が出てきたのと思うところがあった(今回の本題)のでできる限り再開させようかと思いました。 そのあたりも含めて去年の振り返り…