概要 問題 Rで列の並び順を固定したい 解決方法 factorを用いてfactor型に変換し、その際にlevelを指定する。 実践 データを読み込む library(tidyverse) library(tidylog) df_iris = iris %>% tibble() %>% select(species=Species, sepal_length=Sepal.Len…
Rでは、今まで縦持ち化するときにはtidyr::gather、横持ち化するときはtidyr::spreadを使っていたがオプションが毎回よくわからずドキュメントを読んでいたが、それはみんな同じことを思ってたみたいでdplyr1.0以降では再設計されてtidyr::gather→tidyr::piv…
BUSINESS DATA SCIENCEの続き。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21メディア: ハードカバー 最…
BUSINESS DATA SCIENCEの続き。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21メディア: ハードカバー 最…
BUSINESS DATA SCIENCEの続き。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21メディア: ハードカバー 最…
BUSINESS DATA SCIENCEの続き。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21メディア: ハードカバー 最…
BUSINESS DATA SCIENCEの続き。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21メディア: ハードカバー 最…
仕事が落ち着いてきたのでBUSINESS DATA SCIENCEを再開。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21…
pandas_profilingがめっちゃ便利だった。 特徴量のEDAにおいて、一般的にはinfo()を使ってデータ量や型を見たり、describe()を使って統計量を見たり、isnull().sum() を使ってNull数を見たり、関係性や分布などを自分で可視化したりする。 pandas_profiling …
この記事はなにか こういうデータフレームを こういう形にしたい。 以下の記事の「集約」という節でpandasのMultiindexをもとの形式に戻すやり方を書いたがもうちょっとわかりやすい方法があったのでメモ。ただし、メソッドチェーンで完結していない。 knknk…
BUSINESS DATA SCIENCEという本を最近読んでいるので内容を自分なりにまとめる。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, M…
BUSINESS DATA SCIENCEという本を最近読んでいるので内容を自分なりにまとめる。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, M…
BUSINESS DATA SCIENCEという本を最近読んでいるので内容を自分なりにまとめる。 データなどは作者のgitにある。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, M…
BUSINESS DATA SCIENCEという本を最近読んでいるので内容を自分なりにまとめる Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21メディア: …
BUSINESS DATA SCIENCEという本を最近読んでいるので内容を自分なりにまとめる。 Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions作者:Taddy, Matt発売日: 2019/08/21メディア:…
この記事は何か 2019年の振り返り記事です。 アナリスト系データサイエンスを仕事でやり始めた1年の軌跡 という見方もできるかもです。 また、数ヶ月前にデータラーニングギルドというDSのコミュニティに所属したため、そこでのAdvent Calendarとしても投稿…
表題通り。 data-gateway-talk.connpass.com speakerdeck.com クライアント分析業務を初めたこの10ヶ月で上長から言われた中で一番よく言われることについて書いてみました。 まぁ偉そうに書いて語ってますが、上長からアドバイスされている内容をまとめただ…
これはなにか 最近pandasを触っているが、色々なことにモヤモヤしている。 例えば、人によっては書き方がdf[[絞りたい行条件],[列1, 列2]]みたいな書き方なので、df %>% select(列1, 列2) %>% filter(絞り込みたい行条件)に慣れた身からすると可読性が悪い。…
概要 これはなにか この3連休に12時間くらいKaggleに初挑戦(Titanic除く)をしてみたので、現在開催中に2019 Data Science Bowlをやってみたのでそのメモ。 www.kaggle.com 何故やったか 仕事で使いそう 予測系は仕事でほぼ使わないので学習コストに対するリ…
)前回の記事で、作成したモデル式はどういうことを仮定しているかちゃんと考えようという旨のことを書いた。 そのため、具体的に置いている仮定によってどうモデル式が変わるかを改めて考える。 knknkn.hatenablog.com 例えば同じ数の変数を使っていても以下…
線形回帰においてパラメータの推定に関して。 最小二乗推定量(OLS推定量)については昔書いたが、 最小二乗推定量 (以下OLS推定量)で出すか、 最尤推定量 (以下ML推定量)で出すかの違いを書いてなかったことを思い出したのでテキトーに追記。 knknkn.hatena…
やりたいこと リストにある文字を組み合わせて作った式をfor文で動的に変えていきたい。 問題点 以下のコードのように、felm関数のformulaに文字列で式を渡した場合エラー。 ちなみに、lfe::felmは固定効果モデルを使うときの関数。 knknkn.hatenablog.com l…
分析において、仮定を強める という言葉をよく聞く。 よく考えると「仮定を強める」って具体的にどういう事象のことを指すか、またそのメリットが整理できていなかったので考えてみる。 仮定を強めるとは ざっくりいうと、値に対して「自由に動ける部分を減…
仕事において「なぜ(Why, So What)を3回くりかえせ!」という話をよく聞く。これは「何故これをやったのか/必要があるか?」をあぶり出すために非常に有効となる。 逆にその問に答えれないということは、 「どういう思考のプロセスでそのアウトプットに至っ…
「The Care and Feeding of Data Scientists. How to Build, Manage, and Retain a Data Science Team」を読んだ データサイエンティストをどうチームに迎え入れてマネジメントするのかが書かれた書籍。データサイエンティストへのアンケートでは前職の在籍…
Journal of Marketing Research(2018)の「TV Viewing and Advertising Targeting」を読んだ。 シミュレーションモデルをどう作るかしか興味がなかったので、どう活用するかは流し読みなのでちょいテキトーです。 概要 TV視聴行動を捉えるモデルと、CMを観た…
前回はTVCMの各要素(内容や出稿タイミングなど)が与える検索への効果の論文を読んだ。 knknkn.hatenablog.com 今回は、インパクト自体の予測論文 TV Impact on Online Searches ちなみにこの論文は以下のリツイートが回ってきて知ったんですが、ここに書い…
論文メモ。 Journal of Marketingの2019年論文「Immediate Responses of Online Brand Search and Price Search to TV Ads」を読んだ。 概要 TVCMを打ったときのブランド検索、価格検索への各要素の影響を調査する内容。 予測というより、どういう変数がどれ…
前の期を踏まえつつ。 knknkn.hatenablog.com あと前から思っていた「KRの立て方がなんか違う気がする」問題。 OKRはObjective達成のための具体的アクション(KR)。つまりKR達成したらOも達成となる。 今までの内容は、そもそもO達成の定義が微妙ゆえにKRも微…
振り返り。 knknkn.hatenablog.com Objective:「独立したDSに!」 軸としては以下の2つ。 ①ドメイン知識に沿った需要を満たす目的 ②目的を達成するために道具をどう使うか 途中から記録し忘れてるし、そもそも定量の意味がない気がしたので達成率は感覚で。 K…