はじめに
このページは仕事や趣味でデータサイエンスを触っている筆者が興味を持った情報を集めるページだ。
かなりバラバラと情報を載せているが、そのうちきれいにまとめるかもしれない。
情報は随時更新している。
おことわり
このページのAmazonのリンクにはアフィリエイトが入っている。しかし、書籍に対するコメントはポジティブな面もネガティブな面も率直に書いているので、変に構えないでほしい。営利目的で作っているページではないが、お金は好きなので書籍が購入されると嬉しい。
耳が痛くなるけど、まず読んでおきたい記事
https://todes-mentor.hatenablog.com/entry/help_todesko
データサイエンティスト推薦書籍リスト
ここでは、データサイエンスの分野で活躍されている方々がどんな書籍を推薦しているのかをまとめていく。
それぞれのバックグラウンドを空想しながら追うのも面白いし、アンドをとってみるのも良い
TJOさん
https://tjo.hatenablog.com/entry/2020/02/03/190000
かめさん
- 統計学 超入門編
https://datawokagaku.com/statistics_book_beginner/ - 統計学基礎編
https://datawokagaku.com/statistics_basic/ - 機械学習
https://datawokagaku.com/machinelearning_books/ - 読み物
https://datawokagaku.com/easy_books/
村上(みどり)さん
https://note.com/green_midori/n/n6bed07efe1bb?magazine_key=m31bca302b70a
からあげさん
https://karaage.hatenadiary.jp/entry/2020/06/15/073000
共通してでてきた書籍
データサイエンティスト養成読本 ビジネス活用編
- TJOさん、村上(みどり)さん
- 未読
- ムック本
リンク
Rによるやさしい統計学
- TJOさん、かめさん
- 未読
- Pythonが強すぎて、今さらRってどうなの?と思うが、かめさんも読める程度にはR出来たほうがいいよwという趣旨のことを書いているし、そのとおりだと思う。
個人的には、これのPython版が以下だという仮説を持っていて、いつか結論をだしたい。
こちらも有力。
ビッグデータ分析・活用のためのSQLレシピ
- TJOさん、村上(みどり)さん
- 未読
- 黒魔術本のようだ。SQL弱者なので、もう少し勉強してから読む。
リンク
図解速習DEEP LEARNING
- TJOさん、からあげさん
- 未読
- 実装メインの本。動かして理解したい人向け。
リンク
統計的学習の基礎 ―データマイニング・推論・予測―
- TJOさん、かめさん
- 未読
- 通称カステラ本。どうみても基礎ではないので注意する、辞書的に使う。kindle版がない。英語版は無料で読める。
はじめてのパターン認識
- TJOさん、かめさん、村上(みどり)さん
- 未読
- kindle版がないのが玉にキズ。少し内容が古くなってきたので、そろそろ代替する書籍がでてきそう(ありそう)
Kaggleで勝つデータ分析の技術
- TJOさん、村上(みどり)さん
- 既読
- Kaggleのお供に。これを持ってないとKaggleでは不利とすら言える。
共通してでてこなかったけど良い書籍
私とアンドが取れているのでOKという暴論。
言語処理のための機械学習入門
- かめさん
- 既読
- 「言語処理のための」とあるが「機械学習のための数学入門」という感じの本。もちろん自然言語処理の基礎にも触れられておいしいが、機械学習部分だけでも価値がある。
リンク
FACTFULNESS(ファクトフルネス) 10の思い込みを乗り越え、データを基に世界を正しく見る習慣
- 村上(みどり)さん
- 既読
ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装
- からあげさん
- 既読
- 言わずとしれた名著。続編(2,3)も名著だけど、特に1は誰にでもおすすめ。
リンク
効果検証入門〜正しい比較のための因果推論
- TJOさん
- 読書中
- 間違った分析をしないために、すべてのビジネスマンに読んでほしい本。Rを使う。
リンク
マンガでわかる統計学(オーム社)
- かめさん
- 既読
- マンガでわかる、とあるが数式もそれなりに載っている。
- 2時間くらいあれば読めます。
- サイエンス・アイ新書の同名の書籍があるので注意。ちなみにそちらもとても良い書籍。
リンク
統計学がわかる ファーストブック
- かめさん
- 読了。演習問題も解くと6時間くらい。
- ストーリー仕立てなので、「これ、どう使うんだっけ?」という部分が腑に落ちやすい
- 確認テストがついており、手を動かしながら学べます。後半はエクセルやプログラミングで計算しないと厳しい。
個人的におすすめの入門書籍
ここまでいくつかの書籍を紹介してきました。ここまで紹介してきた書籍は素晴らしいデータサイエンティストたちが推薦している書籍で間違いはないのですが、彼らが基本的な部分を勉強したのは当然昔のことで、入門書という意味だと古い本も多いです。
そこで私が超おすすめする書籍を紹介しておきます。
マンガでわかる統計学
同名の書籍がいくつかありますが、こちらはサイエンス・アイ新書の書籍です。
「一番最初に読んでOK」な本ですが、とても重要な概念も説明されています。特に良かったのが、「平均を取る前にデータが単峰性であることを確認せよ」といったアドバイスがあり、手法だけ覚えて頭でっかちになるのを防げる良い心構えを示してくれます。
まずはこの一冊から意味がわかる統計学
数式が出てくる書籍です。よく使う検定を体系的にまとめている割には内容が平易で、「完全独習 統計学入門」の代わりになる書籍ですが、個人的にはこちらのほうが読みやすくおすすめです。
データ分析のための数理モデル入門
若干、データサイエンティストの守備範囲から外れる分野(PID制御、微分方程式)もありますが、数理モデルというものの全体像を見れるので、データサイエンティスト必読だと思います。数式も出てきますがそこまで難しくはないですし、わからなければ数式は流し読みでも話題が独立しているので問題ありません。
データサイエンスに限らずですが、人は「とんかちを持つと、すべて釘に見える」というように、勉強したばかり・得意な技術を使いがちです。なので、こういった書籍を利用して「特に詳しくはないが適当なモデルが存在することを知っている」ことはとても重要です。
有益なリンク
- 知らないと損をする「データ分析·サイエンス」サイト37選(ブログ&オンラインコース)(未読)
https://qiita.com/Hailee/items/8828a265091f4b0c23d8 - データエンジニアの私が機械学習・データサイエンスでオススメしたいスキルマップと本まとめ - 2020年版
あとで先述の書籍紹介にマージする
https://shinyorke.hatenablog.com/entry/data-science-2020 - データサイエンス100本ノック(構造化データ加工編)
これが無料とは・・。コンテナも用意されている。
https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess
コミュニティ
データラーニングギルド
- https://data-learning.com/guild
- 村上(みどり)さん
- 4,980円/月
DataScienceHub
- https://datawokagaku.com/community/
- かめさん
- 月額$15
データサイエンスに関するAudible
Audible
はAmazon
のオーディオブックサービス。家事しながら、散歩しながら本を読めるのでおすすめ。とはいえ数学的な内容はきついし、そもそもオーディオブック化されているものが少ない。あと、アフィリエイトの報酬が高い。
イシューからはじめよ ― 知的生産の「シンプルな本質」
- 既読
- 解くべき課題を精査しないと時間ばかり溶けて、アウトプットの質が上がりません。
- データサイエンスに限らない話だけど、超おすすめ。Audibleにも向いてる。何度も聞くと良い。
- あまりにも良すぎるので書籍版が欲しくなる。
仮説思考
- 既読
- データサイエンスに限らない話だけど、超おすすめ。Audibleにも向いてる。何度も聞くと良い。
大学4年間のデータサイエンスが10時間でざっと学べる
- 既読
- 数式を読み上げるシーンは地獄。とはいえ読み物部分はそれなりに面白い。これでデータサイエンスを学ぶというよりは、データサイエンスを少し勉強してから頷きながら聞くのが良い。
完全独習 統計学入門
- 既読
- 数式を読み上げるシーンは地獄。内容自体はとても良いので、書籍版も買っておき頭に刷り込むためにAudibleを使うのがおすすめ。
入門 考える技術・書く技術
- 既読
- 考えて、書くってどこでも使う技術だけど、データサイエンスとも親和性は高いので紹介させてもらう。
- 図が多くて地獄。書籍版も合わせて買いたい(未購入)
Kaggle
このブログ読んでいる人でまだKaggle
をやったことがない人はとりあえずアカウントを作ってタイタニックを解くこと。話はそれからだ。Kaggleをやると、
- Python
- 機械学習
がそれなりに分かるようになる。ただし - SQL
- 数学
- 統計学
あたりの知識は使わないことが多い。(上位に食い込むために数学・統計学を使わないとは言えないが、未経験者にそれを言っても仕方がないだろう。)
そのあたりはこのページを中心に勉強方法を考えてくれ。
SQL
SQLの勉強方法。
スッキリわかるSQL入門 第2版
- 読書中
- とりあえずこれを読んどけば良さそう。WebにSQLの環境が用意されている点が素晴らしい。
リンク
10年戦えるデータ分析入門 SQLを武器にデータ活用時代を生き抜く
- 未読
- 入門書を読んだ後はこれを読むと良さそう
リンク
SQLデータ分析・活用入門 データサイエンスの扉を開くための技術 MySQL/PostgreSQL 両対応
- 未読
- データ分析を意識して書かれていそうなので、分析目的でSQLを勉強している人には良いかも
ブログ
なにこれ楽しい!SQLをブラウザ上で学習できるSQLZOO!
https://hatena.aaafrog.com/entry/2015/11/29/084718
120+ Data Scientist Interview Questions and Answers You Should Know in 2021
2021年 データサイエンティストの面接の想定質問集・回答集
https://towardsdatascience.com/120-data-scientist-interview-questions-and-answers-you-should-know-in-2021-b2faf7de8f3e
コンペ
Kaggle
映画
マネーボール
記事情報
- 投稿日:2020年10月22日
- 最終更新日:2020年11月15日