まずは蝋の翼から。

学んだことを書きながら確認・整理するためのメモブログ。こういうことなのかな?といったことをふわっと書いたりしていますが、理解が浅いゆえに的はずれなことも多々あると思うのでツッコミ歓迎

2019-01-01から1年間の記事一覧

ggplot2覚書⑨ 回帰線

引き続き「Rグラフィッククックブック」。 Rグラフィックスクックブック ―ggplot2によるグラフ作成のレシピ集作者:Winston Chang発売日: 2013/11/30メディア: 大型本 今回がとりあえずラスト。 過去分 ggplot2覚書① 棒グラフ - まずは蝋の翼から。 ggplot2覚…

ggplotで別々のデータを使った2軸グラフを使いたい

ggplot2で異なるグラフを重ねて、yの値が左右で異なるグラフを2軸グラフという。 イメージ的には、下記の2グラフ(平均価格をpoint、平均カラット数を棒グラフ)を1画面に収めるイメージ(※棒グラフの数値テキストは、以降での値を確かめる用なので除く)。 ~ …

週単位にまとめた時系列データで軸目盛を週初め日付ベースにしたい

事象 表題通り。 データとして、週初めの日付が入っているデータがある。その日付単位でplotをすると軸がdateゆえに目盛が週初め刻みではなく、通常通りの1日刻みとなる。そのため、下記グラフのように欲しい部分(週初め日付)とは別の日付が目盛に表示され…

ggplot2覚書⑧ theme詳細 color

引き続き「Rグラフィッククックブック」。 Rグラフィックスクックブック ―ggplot2によるグラフ作成のレシピ集作者:Winston Chang発売日: 2013/11/30メディア: 大型本 過去記事は以下。 ggplot2覚書① 棒グラフ - まずは蝋の翼から。 ggplot2覚書② 散布図 - ま…

ggplot2覚書⑦ theme詳細 facet

引き続き「Rグラフィッククックブック」。 Rグラフィックスクックブック ―ggplot2によるグラフ作成のレシピ集作者:Winston Chang発売日: 2013/11/30メディア: 大型本 過去記事は以下。 ggplot2覚書① 棒グラフ - まずは蝋の翼から。 ggplot2覚書② 散布図 - ま…

ggplot2覚書⑥ theme詳細 凡例の設定

引き続き「Rグラフィッククックブック」。 Rグラフィックスクックブック ―ggplot2によるグラフ作成のレシピ集作者:Winston Chang発売日: 2013/11/30メディア: 大型本 過去記事は以下。 ggplot2覚書① 棒グラフ - まずは蝋の翼から。 ggplot2覚書② 散布図 - ま…

ggplot2覚書⑤ 体裁(theme、テキストgeom)に関しての大枠

引き続き「Rグラフィッククックブック」。 Rグラフィックスクックブック ―ggplot2によるグラフ作成のレシピ集作者:Winston Chang発売日: 2013/11/30メディア: 大型本 過去記事は以下。 ggplot2覚書① 棒グラフ - まずは蝋の翼から。 ggplot2覚書② 散布図 - ま…

ggplot2覚書④ 軸について

引き続き「Rグラフィッククックブック」。 Rグラフィックスクックブック ―ggplot2によるグラフ作成のレシピ集作者:Winston Chang発売日: 2013/11/30メディア: 大型本 過去記事は以下。 ggplot2覚書① 棒グラフ - まずは蝋の翼から。 ggplot2覚書② 散布図 - ま…

ggplot2覚書③ 注釈(解釈補助)

引き続き「Rグラフィッククックブック」。 Rグラフィックスクックブック ―ggplot2によるグラフ作成のレシピ集作者:Winston Chang発売日: 2013/11/30メディア: 大型本 過去記事は以下 ggplot2覚書① 棒グラフ - まずは蝋の翼から。 ggplot2覚書② 散布図 - まず…

ggplot2覚書② 散布図

以下をベースに覚え書く。 Rグラフィックスクックブック ―ggplot2によるグラフ作成のレシピ集作者:Winston Chang発売日: 2013/11/30メディア: 大型本 前回のは以下 knknkn.hatenablog.com 散布図 テキストをつける aesでマッピングされた位置にlabelでテキス…

tidylogでミスを減らす

tidylogというライブラリがなかなか良さげ。 簡単に概要を書くと、「tidy系の処理結果のサマリーを実行時に表示してくれる」。 製作者のgit丸写しだけど挙動を以下に示す。 GitHub - elbersb/tidylog: Tidylog provides feedback about basic dplyr operatio…

ifelse関数が挙動不審なのでdplyr::if_else関数を使う

Rでifelse関数を使ったら思った結果が帰ってこなかった。 yes <- as.Date('2018-01-01') no <- '2018-12-31' ifelse(c(TRUE,FALSE), yes, no) # => [1] "17532" "2018-12-31" yes <- as.factor('hoge') no <- as.POSIXct('2018-01-01') ifelse(c(TRUE,FALSE)…

ggplot2覚書① 棒グラフ

今までなんとなくでggplot2を使っていたので「Rグラフィッククックブック」を使って、ちゃんと覚えてなかったりする部分のメモ Rグラフィックスクックブック ―ggplot2によるグラフ作成のレシピ集作者:Winston Chang発売日: 2013/11/30メディア: 大型本 なお…

分位点回帰の使い方

分位点回帰(Quantile Regression)について。 OLSと比較した分位点回帰の特徴 OLSは条件付き期待値を推定する手法。 QRは条件付き分位点を推定する手法。任意の分位点なので、例えば50%分位点を指定することは、条件付き中央値を推定することになる。 外れ値…

クラス分類の評価手法あれこれ

評価手法 クラス分類の評価手法について書く。 学習元は引き続き「Pythonではじめる機械学習」。 Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎作者:Andreas C. Muller,Sarah Guido発売日: 2017/05/25メディア: 単行…

交差検証法あれこれ

交差検証 何故モデルの評価に交差検証が必要か書く。 学習元は「Pythonではじめる機械学習」。 Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎作者:Andreas C. Muller,Sarah Guido発売日: 2017/05/25メディア: 単行本…

データ解析のための統計モデリング入門② 一般化線形モデル

緑本こと、「データ解析のための統計モデリング入門」のメモその②。 knknkn.hatenablog.com データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)作者:久保 拓弥発売日: 2012/05/19メディア: 単行本 一般化…

データ解析のための統計モデリング入門① 2章 最尤推定

通称緑本こと、「データ解析のための統計モデリング入門」の再読をしたのでメモ。 今回は最尤推定について(2章) データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)作者:久保 拓弥発売日: 2012/05/19メデ…

RのDB操作でハマったので備忘録

RPostgresを使った処理で、割と初歩的なことを2連続でハマったのでメモ。 CollectしたものとしていないものはJOINできない library(RPostgres) library(dbplyr) tbl_A = tbl(con, in_schema("hoge", "tbl_a")) tbl_B = tbl(con, in_schema("hoge", "tbl_b"))…

日付を加工するのに便利なパッケージlubridate

Rのパッケージでlubridateというパッケージが、日付や日時をパースするのに非常に便利だった。 > test_date <- as.Date('2019-02-08') #dateデータの作成 > year(test_date) #年のみパース [1] 2019 > day(test_date) #日のみパース [1] 8 > floor_date(test…

LightGBMを試す

LightGBMを試してみる。 LightGBMはBoosted treesアルゴリズムを扱うためのフレームワークで、XGBoostよりも高速らしい。 XGBoostやLightGBMに共通する理論のGradient Boosting Decision Treeとは、弱学習器としてDecision Treeを用いたBoostiongアンサンブ…

編集距離を用いた固有名詞の名寄せ

編集距離(レーベンシュタイン距離)を用いて、名寄せ作業をおこなった。 レーベンシュタイン距離については過去記事参照。 knknkn.hatenablog.com 今回の目的は前述のように、データソースAとBで、同じ固有名詞を示していても表記ゆれがあったため名寄せを…

プロビットモデルとトービットモデルの理論

はじめに 昔、非線形モデルのプロビット・トービット・へーキッドについて記事を書いた。 knknkn.hatenablog.com 実際に中身の確認および、当時はなんとなく理解だったので改めて書き直す 非線形モデル ある事象に対して、xxするか/xxしないかというダミー変…

文字列の類似度を測る編集距離

仕事である固有名詞に対してデータソースがAのものとBのもので、微妙に表記ゆれがあったため名寄せ作業をおこなう必要があった。 目で見ていくとキリがないので文字列の類似度測って閾値以上のものをリストアップした上で目で見ると効率が良くなりそうなので…

Rではじめるデータサイエンス 演習3章 2,3,7節

続き。 Rではじめるデータサイエンス作者:Hadley Wickham,Garrett Grolemund発売日: 2017/10/25メディア: 単行本(ソフトカバー) なお、目的は思い出すためなので割と省略している。 knknkn.hatenablog.com knknkn.hatenablog.com 3-2.演習 1.次のようなフ…

Rではじめるデータサイエンス 演習1章② 5~8節

続き。 Rではじめるデータサイエンス作者:Hadley Wickham,Garrett Grolemund発売日: 2017/10/25メディア: 単行本(ソフトカバー) knknkn.hatenablog.com 1.5演習問題 1. 連続変数でファセットを作るとどうなるか。 ggplot(data = mpg) + geom_point(mapping…

Rではじめるデータサイエンス 演習1章① 2,3節

tidyverse系を思い出すためにHadley神の「Rではじめるデータサイエンス」の演習問題をやる。 Rではじめるデータサイエンス作者:Hadley Wickham,Garrett Grolemund発売日: 2017/10/25メディア: 単行本(ソフトカバー) ちなみに英語版はここで読める。 r4ds.h…

良い推定量としての最小二乗推定量(OLS推定量)

過去にも計量経済学系記事を書きましたが、その後同じような内容の本を多読して大体整理がついたのでまとめ。 何故計量経済学でOLSか 計量経済学の目標は、変数間の数量的な因果関係、すなわち「変数Xの変化で、別の変数Yがどれだけ変化するか」の実証にあり…

2019年1月期個人OKR

OKRについてちゃんと調べたので、個人OKRを立てようと思う。 knknkn.hatenablog.com ちなみに過去記事で読んだOKR本はOは1つだけだったが3つくらいまでならOを立ててもいいらしい。 どういう方向性でいくか 去年の振り返りをした結果、 - データ抽出(SQL)ば…

OKRについて調べた

2期前から、会社の目標管理としてOKRを利用している。 検索したりでなんとなく知っていたが、今年は色々とちゃんとしたいのでプライベートの個人OKRを立てるために以下の本を読んだ。 OKR(オーケーアール)作者:クリスティーナ・ウォドキー発売日: 2018/03/…