『Rによる自動データ収集』を読んだ
訳者の方からご恵贈いただきました。
本文だけで500ページを超える重厚な書籍で、HTMLやXMLの基礎、正規表現やXpathの仕組み、データ分析のプロジェクトの管理までちゃんと押さえつつ、ネットワーク分析、ツイートマイニング、地理的データの可視化、ECサイトからのマイニング・センチメント分析などなど事例も豊富。
それら事例のそれぞれに紙幅をふんだんに割いて記述されてあり、 入門者がいざ実際の課題に取り組む際に重宝しそうな、単にデータ収集するコードだけでなく分析の進め方や考え方がきっと役に立つ、と思わされる一冊でした。
確かに値段は高めだけど、分量を考えたらむしろお得なので、Rを使うならデータ分析の部署にひとつ買って置いといて損はないはず。
出版社のページはこちら。
Rによる自動データ収集 ―Webスクレイピングとテキストマイニングの実践ガイド― / Simon Munzert 他著 石田 基広 工藤 和奏 熊谷 雄介 高柳 慎一 牧山 幸史 訳 | 共立出版
原著のサイトはこちら。
Automated Data Collection with R - Welcome
原著であるAutomated Data Collection with R (2014年初版刊行)のコードは対象サービスの仕様変更もありそのままではやや古く、訳者によってかなりの修正が加えられています。Webは生き物だししょうがない。なので英語が読めても日本語版を読むべき。
この本の使い所としては、なにがしかの入門書でRを触ってみたことがあり、もうちょっと複雑な課題に取り組んでみたい、という場合に最も効果を発揮しそうだな、と思います。
あわせて読みたい
今年4月にC&R研究所から刊行された Rによるスクレイピング入門 もいい本で、こちらは多くの手法やツールの紹介がコンパクトに集まっている感じなので「Rでどんなことができるか」をカタログ的に眺めるのに最適だと思います。両方買おう。
- 作者: 石田基広,市川太祐,瓜生真也,湯谷啓明
- 出版社/メーカー: シーアンドアール研究所
- 発売日: 2017/04/10
- メディア: Kindle版
- この商品を含むブログを見る
あとは今月末(6/28)に改定新版が出るRによるテキストマイニング入門も個人的には大注目です。
Enjoy!
Rによる自動データ収集: Webスクレイピングとテキストマイニングの実践ガイド
- 作者: Simon Munzert,Christian Rubba,Peter Meissner,Dominic Nyhuis,石田基広,工藤和奏,熊谷雄介,高柳慎一,牧山幸史
- 出版社/メーカー: 共立出版
- 発売日: 2017/06/08
- メディア: 単行本
- この商品を含むブログ (1件) を見る