2008年5月15日木曜日

スクレイピング

今いろんなサイトをスクレイピングしていろいろゴチョゴチョやっている。

最初、蟹君がBeautifuleSoupなんかを話していて、「ふーん」位にしか思っていなかったが、まさか自分がいろいろスクレイピングするとはおもわなかった。でもやってて結構面白い。

まあ、音楽でもコンシューマ映像でもウェブでもマッシュアップというか、サンプリング、再編集といった物が盛んになってきている。もちろんこういった現象が起こるためには再構成・編集するための豊かな素材環境がなければならない。これがデジタル化、インターネット化によって豊富なデジタルデータが流通するようになった。それがこの現象の根底であることは間違いない。

それと、マッシュアップするための道具が一般に普及してきたということもある。
音楽ではサンプラーとサンプリング音源を組み立てるDTMソフトウェア。
あとは簡単にPCで動画編集可能になったこと。
ウェブプログラミングでも大きなWebサービス自体がAPIを提供していることとか、いろいろなライブラリの発達が根底にはある。

で、公開されているAPIをつかってデータをゴニョゴニョして再構築再構成するのはわりと「表の全うな道」である。
正当性としてはこうあるべきであろうし、こういった方向で発展すべきであろう。

で、俺のやっているスクレイピングはもっと「裏のヤクザな道」を想起させる。
なんかこそこそAPIで公開されていないデータをハックして奪い取るような感じだ。

いずれにせよ、これからは既にあるウェブの固まりやデータをそれぞれパーツとしてみることができるかという、ちょっとかわった知識が必要になってくるであろう。それらをどう組み合わせたら面白く魅力的なことができるかということに長けている人が面白いと思う。

根底にあるのは移り変わりの早いウェブの世界でネタになりそうなサービスやデータの固まりをよりよく知っていること。これは蓄積される財産である。トライブ・コールド・クエストのQ-tipがすばらしいサンプリングアートをヒップホップという音楽で提示したのも、彼のもっている豊かな黒人音楽の古くから蓄積されたレコードライブラリがあったからこそで、それが焼けてなくなった後に、彼が創作意欲をかなり長期間にわたって失ってしまったというのは、よく分かる話である。

あとは、その豊富な資産をそれぞれ分割してパーツとしてとらえることのできる知識である。
どこの部分がつかえて、どこがコアで、どこがいらないのかがわかること。

あとはそれをどうつなげていけばいいのかというのは、いささか技術的な話になるだろう。
そこら辺は多分に技術やの領分である。
Web技術でいえば、DOMの理解とかHTTPリクエストの構成をハックしないといけない。

こういったことをしてハックするのは、実は非常に楽しい。
いくつか楽しいコンテンツがフィリピンから出てくるとおもうので、その際は紹介したいと思います。


1 件のコメント:

DJ Roncino さんのコメント...

Qtipのレコードやけたの良くご存知ですね!
ビューティフルスープわかりやすくてナイスですよね〜