まずは蝋の翼から。

学んだことを書きながら確認・整理するためのメモブログ。こういうことなのかな?といったことをふわっと書いたりしていますが、理解が浅いゆえに的はずれなことも多々あると思うのでツッコミ歓迎

Rの並び替えをfactorのlevelsで制御する

概要 問題 Rで列の並び順を固定したい 解決方法 factorを用いてfactor型に変換し、その際にlevelを指定する。 実践 データを読み込む library(tidyverse) library(tidylog) df_iris = iris %>% tibble() %>% select(species=Species, sepal_length=Sepal.Len…

Rで縦持ち・横持ち化する

Rでは、今まで縦持ち化するときにはtidyr::gather、横持ち化するときはtidyr::spreadを使っていたがオプションが毎回よくわからずドキュメントを読んでいたが、それはみんな同じことを思ってたみたいでdplyr1.0以降では再設計されてtidyr::gather→tidyr::piv…

BUSINESS DATA SCIENCE 4章 Classification② 多値分類

BUSINESS DATA SCIENCEの続き。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21メディア: ハードカバー 最…

BUSINESS DATA SCIENCE 4章 Classification① k-NNとlasso回帰での分類

BUSINESS DATA SCIENCEの続き。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21メディア: ハードカバー 最…

BUSINESS DATA SCIENCE 3章 Regularization④ Lassoに対する定量的な信頼性

BUSINESS DATA SCIENCEの続き。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21メディア: ハードカバー 最…

BUSINESS DATA SCIENCE 3章 Regularization③ 情報量基準を用いた評価(CI)

BUSINESS DATA SCIENCEの続き。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21メディア: ハードカバー 最…

BUSINESS DATA SCIENCE 3章 Regularization② ペナルティを用いた変数選択

BUSINESS DATA SCIENCEの続き。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21メディア: ハードカバー 最…

BUSINESS DATA SCIENCE 3章 Regularization① 予測のためのR^2

仕事が落ち着いてきたのでBUSINESS DATA SCIENCEを再開。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21…

EDAでpandas_profilingを使う

pandas_profilingがめっちゃ便利だった。 特徴量のEDAにおいて、一般的にはinfo()を使ってデータ量や型を見たり、describe()を使って統計量を見たり、isnull().sum() を使ってNull数を見たり、関係性や分布などを自分で可視化したりする。 pandas_profiling …

pandasのMultiindexを整理する

この記事はなにか こういうデータフレームを こういう形にしたい。 以下の記事の「集約」という節でpandasのMultiindexをもとの形式に戻すやり方を書いたがもうちょっとわかりやすい方法があったのでメモ。ただし、メソッドチェーンで完結していない。 knknk…

BUSINESS DATA SCIENCE 2章 Regression③ 推定の不確か性

BUSINESS DATA SCIENCEという本を最近読んでいるので内容を自分なりにまとめる。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, M…

BUSINESS DATA SCIENCE 2章 Regression② 回帰の当てはまりのよさ

BUSINESS DATA SCIENCEという本を最近読んでいるので内容を自分なりにまとめる。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, M…

BUSINESS DATA SCIENCE 2章 Regression① 回帰の解釈

BUSINESS DATA SCIENCEという本を最近読んでいるので内容を自分なりにまとめる。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, M…

BUSINESS DATA SCIENCE 1章 Uncertainty② 検定

BUSINESS DATA SCIENCEという本を最近読んでいるので内容を自分なりにまとめる Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21メディア: …

BUSINESS DATA SCIENCE 1章 Uncertainty① ブートストラップ法

BUSINESS DATA SCIENCEという本を最近読んでいるので内容を自分なりにまとめる。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21メディア:…

アナリスト系DS1年生が今年を振り返りつつ来年以降やるべきことを考えた

この記事は何か 2019年の振り返り記事です。 アナリスト系データサイエンスを仕事でやり始めた1年の軌跡 という見方もできるかもです。 また、数ヶ月前にデータラーニングギルドというDSのコミュニティに所属したため、そこでのAdvent Calendarとしても投稿…

DatagatewayTalk vol4の初LT枠で話してきた

表題通り。 data-gateway-talk.connpass.com speakerdeck.com クライアント分析業務を初めたこの10ヶ月で上長から言われた中で一番よく言われることについて書いてみました。 まぁ偉そうに書いて語ってますが、上長からアドバイスされている内容をまとめただ…

tidyverseの世界からpandasの世界に入ってみた

これはなにか 最近pandasを触っているが、色々なことにモヤモヤしている。 例えば、人によっては書き方がdf[[絞りたい行条件],[列1, 列2]]みたいな書き方なので、df %>% select(列1, 列2) %>% filter(絞り込みたい行条件)に慣れた身からすると可読性が悪い。…

Kaggle初挑戦にあたり2019 Data Science Bowlを2日間やってみた記録

概要 これはなにか この3連休に12時間くらいKaggleに初挑戦(Titanic除く)をしてみたので、現在開催中に2019 Data Science Bowlをやってみたのでそのメモ。 www.kaggle.com 何故やったか 仕事で使いそう 予測系は仕事でほぼ使わないので学習コストに対するリ…

モデル式における項の意味(層別モデルとダミー変数モデルの違いなど)

)前回の記事で、作成したモデル式はどういうことを仮定しているかちゃんと考えようという旨のことを書いた。 そのため、具体的に置いている仮定によってどうモデル式が変わるかを改めて考える。 knknkn.hatenablog.com 例えば同じ数の変数を使っていても以下…

線形モデルにおける最小二乗推定と最尤推定の使い分けはどうするか

線形回帰においてパラメータの推定に関して。 最小二乗推定量(OLS推定量)については昔書いたが、 最小二乗推定量 (以下OLS推定量)で出すか、 最尤推定量 (以下ML推定量)で出すかの違いを書いてなかったことを思い出したのでテキトーに追記。 knknkn.hatena…

文字列からformulaを作りたい

やりたいこと リストにある文字を組み合わせて作った式をfor文で動的に変えていきたい。 問題点 以下のコードのように、felm関数のformulaに文字列で式を渡した場合エラー。 ちなみに、lfe::felmは固定効果モデルを使うときの関数。 knknkn.hatenablog.com l…

モデルにおける"仮定を強める"ということの意味とメリット

分析において、仮定を強める という言葉をよく聞く。 よく考えると「仮定を強める」って具体的にどういう事象のことを指すか、またそのメリットが整理できていなかったので考えてみる。 仮定を強めるとは ざっくりいうと、値に対して「自由に動ける部分を減…

データサイエンティストがプロジェクトを回す際に何を"考える"べきか

仕事において「なぜ(Why, So What)を3回くりかえせ!」という話をよく聞く。これは「何故これをやったのか/必要があるか?」をあぶり出すために非常に有効となる。 逆にその問に答えれないということは、 「どういう思考のプロセスでそのアウトプットに至っ…

データサイエンティストチームをどう作って維持していくかについての本を読んだ(要約)

「The Care and Feeding of Data Scientists. How to Build, Manage, and Retain a Data Science Team」を読んだ データサイエンティストをどうチームに迎え入れてマネジメントするのかが書かれた書籍。データサイエンティストへのアンケートでは前職の在籍…

TV視聴行動のシミュレーションに関する論文を読んだ

Journal of Marketing Research(2018)の「TV Viewing and Advertising Targeting」を読んだ。 シミュレーションモデルをどう作るかしか興味がなかったので、どう活用するかは流し読みなのでちょいテキトーです。 概要 TV視聴行動を捉えるモデルと、CMを観た…

TVCMが検索に与えるインパクトの予測に関する論文を読んだ

前回はTVCMの各要素(内容や出稿タイミングなど)が与える検索への効果の論文を読んだ。 knknkn.hatenablog.com 今回は、インパクト自体の予測論文 TV Impact on Online Searches ちなみにこの論文は以下のリツイートが回ってきて知ったんですが、ここに書い…

TVCMの各要素が、ブランド検索・価格検索に与える影響に関する論文を読んだ

論文メモ。 Journal of Marketingの2019年論文「Immediate Responses of Online Brand Search and Price Search to TV Ads」を読んだ。 概要 TVCMを打ったときのブランド検索、価格検索への各要素の影響を調査する内容。 予測というより、どういう変数がどれ…

2019年4Q OKR

前の期を踏まえつつ。 knknkn.hatenablog.com あと前から思っていた「KRの立て方がなんか違う気がする」問題。 OKRはObjective達成のための具体的アクション(KR)。つまりKR達成したらOも達成となる。 今までの内容は、そもそもO達成の定義が微妙ゆえにKRも微…

2019年3Q OKR 振り返り

振り返り。 knknkn.hatenablog.com Objective:「独立したDSに!」 軸としては以下の2つ。 ①ドメイン知識に沿った需要を満たす目的 ②目的を達成するために道具をどう使うか 途中から記録し忘れてるし、そもそも定量の意味がない気がしたので達成率は感覚で。 K…