2019-01-01から1年間の記事一覧
引き続き「Rグラフィッククックブック」。 Rグラフィックスクックブック ―ggplot2によるグラフ作成のレシピ集作者:Winston Chang発売日: 2013/11/30メディア: 大型本 今回がとりあえずラスト。 過去分 ggplot2覚書① 棒グラフ - まずは蝋の翼から。 ggplot2覚…
ggplot2で異なるグラフを重ねて、yの値が左右で異なるグラフを2軸グラフという。 イメージ的には、下記の2グラフ(平均価格をpoint、平均カラット数を棒グラフ)を1画面に収めるイメージ(※棒グラフの数値テキストは、以降での値を確かめる用なので除く)。 ~ …
事象 表題通り。 データとして、週初めの日付が入っているデータがある。その日付単位でplotをすると軸がdateゆえに目盛が週初め刻みではなく、通常通りの1日刻みとなる。そのため、下記グラフのように欲しい部分(週初め日付)とは別の日付が目盛に表示され…
引き続き「Rグラフィッククックブック」。 Rグラフィックスクックブック ―ggplot2によるグラフ作成のレシピ集作者:Winston Chang発売日: 2013/11/30メディア: 大型本 過去記事は以下。 ggplot2覚書① 棒グラフ - まずは蝋の翼から。 ggplot2覚書② 散布図 - ま…
引き続き「Rグラフィッククックブック」。 Rグラフィックスクックブック ―ggplot2によるグラフ作成のレシピ集作者:Winston Chang発売日: 2013/11/30メディア: 大型本 過去記事は以下。 ggplot2覚書① 棒グラフ - まずは蝋の翼から。 ggplot2覚書② 散布図 - ま…
引き続き「Rグラフィッククックブック」。 Rグラフィックスクックブック ―ggplot2によるグラフ作成のレシピ集作者:Winston Chang発売日: 2013/11/30メディア: 大型本 過去記事は以下。 ggplot2覚書① 棒グラフ - まずは蝋の翼から。 ggplot2覚書② 散布図 - ま…
引き続き「Rグラフィッククックブック」。 Rグラフィックスクックブック ―ggplot2によるグラフ作成のレシピ集作者:Winston Chang発売日: 2013/11/30メディア: 大型本 過去記事は以下。 ggplot2覚書① 棒グラフ - まずは蝋の翼から。 ggplot2覚書② 散布図 - ま…
引き続き「Rグラフィッククックブック」。 Rグラフィックスクックブック ―ggplot2によるグラフ作成のレシピ集作者:Winston Chang発売日: 2013/11/30メディア: 大型本 過去記事は以下。 ggplot2覚書① 棒グラフ - まずは蝋の翼から。 ggplot2覚書② 散布図 - ま…
引き続き「Rグラフィッククックブック」。 Rグラフィックスクックブック ―ggplot2によるグラフ作成のレシピ集作者:Winston Chang発売日: 2013/11/30メディア: 大型本 過去記事は以下 ggplot2覚書① 棒グラフ - まずは蝋の翼から。 ggplot2覚書② 散布図 - まず…
以下をベースに覚え書く。 Rグラフィックスクックブック ―ggplot2によるグラフ作成のレシピ集作者:Winston Chang発売日: 2013/11/30メディア: 大型本 前回のは以下 knknkn.hatenablog.com 散布図 テキストをつける aesでマッピングされた位置にlabelでテキス…
tidylogというライブラリがなかなか良さげ。 簡単に概要を書くと、「tidy系の処理結果のサマリーを実行時に表示してくれる」。 製作者のgit丸写しだけど挙動を以下に示す。 GitHub - elbersb/tidylog: Tidylog provides feedback about basic dplyr operatio…
Rでifelse関数を使ったら思った結果が帰ってこなかった。 yes <- as.Date('2018-01-01') no <- '2018-12-31' ifelse(c(TRUE,FALSE), yes, no) # => [1] "17532" "2018-12-31" yes <- as.factor('hoge') no <- as.POSIXct('2018-01-01') ifelse(c(TRUE,FALSE)…
今までなんとなくでggplot2を使っていたので「Rグラフィッククックブック」を使って、ちゃんと覚えてなかったりする部分のメモ Rグラフィックスクックブック ―ggplot2によるグラフ作成のレシピ集作者:Winston Chang発売日: 2013/11/30メディア: 大型本 なお…
分位点回帰(Quantile Regression)について。 OLSと比較した分位点回帰の特徴 OLSは条件付き期待値を推定する手法。 QRは条件付き分位点を推定する手法。任意の分位点なので、例えば50%分位点を指定することは、条件付き中央値を推定することになる。 外れ値…
評価手法 クラス分類の評価手法について書く。 学習元は引き続き「Pythonではじめる機械学習」。 Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎作者:Andreas C. Muller,Sarah Guido発売日: 2017/05/25メディア: 単行…
交差検証 何故モデルの評価に交差検証が必要か書く。 学習元は「Pythonではじめる機械学習」。 Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎作者:Andreas C. Muller,Sarah Guido発売日: 2017/05/25メディア: 単行本…
緑本こと、「データ解析のための統計モデリング入門」のメモその②。 knknkn.hatenablog.com データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)作者:久保 拓弥発売日: 2012/05/19メディア: 単行本 一般化…
通称緑本こと、「データ解析のための統計モデリング入門」の再読をしたのでメモ。 今回は最尤推定について(2章) データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)作者:久保 拓弥発売日: 2012/05/19メデ…
RPostgresを使った処理で、割と初歩的なことを2連続でハマったのでメモ。 CollectしたものとしていないものはJOINできない library(RPostgres) library(dbplyr) tbl_A = tbl(con, in_schema("hoge", "tbl_a")) tbl_B = tbl(con, in_schema("hoge", "tbl_b"))…
Rのパッケージでlubridateというパッケージが、日付や日時をパースするのに非常に便利だった。 > test_date <- as.Date('2019-02-08') #dateデータの作成 > year(test_date) #年のみパース [1] 2019 > day(test_date) #日のみパース [1] 8 > floor_date(test…
LightGBMを試してみる。 LightGBMはBoosted treesアルゴリズムを扱うためのフレームワークで、XGBoostよりも高速らしい。 XGBoostやLightGBMに共通する理論のGradient Boosting Decision Treeとは、弱学習器としてDecision Treeを用いたBoostiongアンサンブ…
編集距離(レーベンシュタイン距離)を用いて、名寄せ作業をおこなった。 レーベンシュタイン距離については過去記事参照。 knknkn.hatenablog.com 今回の目的は前述のように、データソースAとBで、同じ固有名詞を示していても表記ゆれがあったため名寄せを…
はじめに 昔、非線形モデルのプロビット・トービット・へーキッドについて記事を書いた。 knknkn.hatenablog.com 実際に中身の確認および、当時はなんとなく理解だったので改めて書き直す 非線形モデル ある事象に対して、xxするか/xxしないかというダミー変…
仕事である固有名詞に対してデータソースがAのものとBのもので、微妙に表記ゆれがあったため名寄せ作業をおこなう必要があった。 目で見ていくとキリがないので文字列の類似度測って閾値以上のものをリストアップした上で目で見ると効率が良くなりそうなので…
続き。 Rではじめるデータサイエンス作者:Hadley Wickham,Garrett Grolemund発売日: 2017/10/25メディア: 単行本(ソフトカバー) なお、目的は思い出すためなので割と省略している。 knknkn.hatenablog.com knknkn.hatenablog.com 3-2.演習 1.次のようなフ…
続き。 Rではじめるデータサイエンス作者:Hadley Wickham,Garrett Grolemund発売日: 2017/10/25メディア: 単行本(ソフトカバー) knknkn.hatenablog.com 1.5演習問題 1. 連続変数でファセットを作るとどうなるか。 ggplot(data = mpg) + geom_point(mapping…
tidyverse系を思い出すためにHadley神の「Rではじめるデータサイエンス」の演習問題をやる。 Rではじめるデータサイエンス作者:Hadley Wickham,Garrett Grolemund発売日: 2017/10/25メディア: 単行本(ソフトカバー) ちなみに英語版はここで読める。 r4ds.h…
過去にも計量経済学系記事を書きましたが、その後同じような内容の本を多読して大体整理がついたのでまとめ。 何故計量経済学でOLSか 計量経済学の目標は、変数間の数量的な因果関係、すなわち「変数Xの変化で、別の変数Yがどれだけ変化するか」の実証にあり…
OKRについてちゃんと調べたので、個人OKRを立てようと思う。 knknkn.hatenablog.com ちなみに過去記事で読んだOKR本はOは1つだけだったが3つくらいまでならOを立ててもいいらしい。 どういう方向性でいくか 去年の振り返りをした結果、 - データ抽出(SQL)ば…
2期前から、会社の目標管理としてOKRを利用している。 検索したりでなんとなく知っていたが、今年は色々とちゃんとしたいのでプライベートの個人OKRを立てるために以下の本を読んだ。 OKR(オーケーアール)作者:クリスティーナ・ウォドキー発売日: 2018/03/…