【ISSUE】Ruby + Nokogiriでスクレイピング
2025年01月03日 23:57
最近業務で使うことがあったのでスクレイピングのネタでQiita初投稿します。
ウェブスクレイピング(英: Web scraping)とは、ウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。 ウェブ・クローラーあるいはウェブ・スパイダーとも呼ばれる。
https://ja.wikipedia.org/wiki/ウェブスクレイピング より引用
ようするに特定のウェブサイトからほしい情報を抜き取ることっすね!
Rubyでスクレイピングするときの定番ライブラリ
公式サイト
http://www.nokogiri.org/
まずは以下のコマンドでNokogiriをインストールしましょう
インストールに成功していれば、以下のコマンドでバージョンを確認できます
ファイルを作成してライブラリを読み込むための記述を追加します
追加したgemをインストールしたら準備完了です
今回はQiitaに投稿されているRubyに関する記事のタイトルを取得してみます
出力結果
もうちょっといろいろやってみたいっすね
RubyとPHPとSwiftに関する記事のタイトルを取得してCSVに出力してみます
同じディレクトリにcsvファイルが作成されます
ぼくが実際に業務で行った作業は、サイト内のimgタグをスクレイピングして特定のパスに置換したものをCSVとして出力するというものでした。
初めてスクレイピングをやってみましたが、ほしいデータを取得して出力できたときは快感でした!
簡単かつ工夫次第でいろんなデータの取得ができるのでぜひ試してみてください!
[cv:issue_marketplace_engineer]
診断を受けるとあなたの現在の業務委託単価を算出します。今後副業やフリーランスで単価を交渉する際の参考になります。また次の単価レンジに到達するためのヒントも確認できます。