『Rによる自動データ収集』を読んだ

訳者の方からご恵贈いただきました。

 f:id:wakuteka:20170614074602j:plain

本文だけで500ページを超える重厚な書籍で、HTMLやXMLの基礎、正規表現Xpathの仕組み、データ分析のプロジェクトの管理までちゃんと押さえつつ、ネットワーク分析、ツイートマイニング、地理的データの可視化、ECサイトからのマイニング・センチメント分析などなど事例も豊富。

それら事例のそれぞれに紙幅をふんだんに割いて記述されてあり、 入門者がいざ実際の課題に取り組む際に重宝しそうな、単にデータ収集するコードだけでなく分析の進め方や考え方がきっと役に立つ、と思わされる一冊でした。

確かに値段は高めだけど、分量を考えたらむしろお得なので、Rを使うならデータ分析の部署にひとつ買って置いといて損はないはず。

 

出版社のページはこちら。

Rによる自動データ収集 ―Webスクレイピングとテキストマイニングの実践ガイド― / Simon Munzert 他著 石田 基広 工藤 和奏 熊谷 雄介 高柳 慎一 牧山 幸史 訳 | 共立出版

原著のサイトはこちら。

Automated Data Collection with R - Welcome

原著であるAutomated Data Collection with R (2014年初版刊行)のコードは対象サービスの仕様変更もありそのままではやや古く、訳者によってかなりの修正が加えられています。Webは生き物だししょうがない。なので英語が読めても日本語版を読むべき。

この本の使い所としては、なにがしかの入門書でRを触ってみたことがあり、もうちょっと複雑な課題に取り組んでみたい、という場合に最も効果を発揮しそうだな、と思います。

 

あわせて読みたい

今年4月にC&R研究所から刊行された Rによるスクレイピング入門 もいい本で、こちらは多くの手法やツールの紹介がコンパクトに集まっている感じなので「Rでどんなことができるか」をカタログ的に眺めるのに最適だと思います。両方買おう。

Rによるスクレイピング入門

Rによるスクレイピング入門

 あとは今月末(6/28)に改定新版が出るRによるテキストマイニング入門も個人的には大注目です。

 

Enjoy!

Rによる自動データ収集: Webスクレイピングとテキストマイニングの実践ガイド

Rによる自動データ収集: Webスクレイピングとテキストマイニングの実践ガイド