トップ >> 想いを語るコラム >> スクレイピング

2009年10月22日

●スクレイピング

スクレイピング(scraping)という言葉を知っていますか?元々は開発者の技術的な用語で、必要な部分だけを削り取り抽出する事を意味します。へばりついたゴミなどを削り取るスクレーパーなんて道具もありますので想像しやすいかと思いますが、スクレイピングを直訳すると「こすり取る」「そぎ落とす」といったような意味合いになります。

元々はXMLなどで構造化されていない、つまり自動処理に向いていない古いサイトなどから必要なデータを抽出する目的で使われていましたが、これを悪用する人が出始めています。いわゆるスプログです。


実は本ブログも被害にあっていますが、要はweb上から色々な文章を抽出し、自動的につなげ、ひとつのwebページを作ってしまうのです。当然、文脈はめちゃくちゃで文章自体は意味を成しません。でも検索エンジンには認識されるんです。検索エンジンはキーワード(単語)で見てますからね。

そんなスプログの目的の1番はアフィリエイトです。どこかにアフィリエイトリンクが潜んでいる事も多いです。そして、もう1つの目的にSEO対策があるんです。こういったページを量産して被リンク稼ぎに使おうとするんですね。しかも最近の検索エンジンは関連性の高い被リンクしか評価しなくなってきていますので、関連するキーワードでページを量産したりするんです。

まぁこういうのはそのうち淘汰されるんでしょうけど、それでも自分の書いた文章が勝手に使われるのは気持ちがよくないですね…。会社名とか個人名まで一緒に抽出されているケースもありますので、スプログの運営者と勘違いされたり、めちゃくちゃな文章を書いている張本人と認識されたら困ってしまいます。

もしあなたが、わけのわからない文章の書いてあるホームページに出会ったら、「あー、これがスクレイピングで作られたページか」と思って下さい。本当にめちゃくちゃな文章ですので、すぐわかると思います。





この情報は役に立ちましたか?  

お役に立ちましたら「はい」をクリックしてランキングへのご協力をお願いします。


<< 前の記事(多種言語) 次の記事(Windows7)>>

トラックバックURL

このエントリーのトラックバックURL:
http://www.folksworks.com/blog.folksworks.com/mt/mt-tb.cgi/1568

コメントする