民主主義・人権プログラム
【GGRワークショップ】テキストデータのスクレイピング方法
日にち2023年9月28日および2023年10月5日
時間15:15~18:15
開催場所マーキュリータワー会議室
イベント概要

2023年9月28日と10月5日計2回にわたって、一橋大学グローバル・ガバナンス研究センター(GGR)はパブロ・アンドレス・ブゲーニョ・エチブル氏(ソフトウェアエンジニア)を講師にお招きし、GGRワークショップ「テキストデータのスクレイピング方法」を開催しました。ワークショップは英語で行われ、一橋大学の学生及び教職員を含む合計26人が2回のセッションに参加しました。

ワークショップを2つのセッションで構成されました。1回目のセッションで、ブゲーニョ氏は参加者に機械学習、データの入手方法、スクレイピング、適切なツール、および課題について紹介し、PythonとBeautifulSoupのチュートリアルなどの教材を共有しました。データリポジトリに関して、ブゲーニョ氏はデータマイニング(データの抽出)、アナログリポ(物理的な文書)、API(アプリケーションプログラムインターフェース)、データベース(整理および管理されたもの)、およびウェブスクレイピング(ウェブからの構造化データの抽出)などの異なる種類を指定しました。参加者の理解を促すために、ウェブページからコンテンツを効果的にスクレイピングする方法や、データプロジェクトのためにデータや情報を手動で選択する方法について説明しました。参加者は、ブゲーニョ氏の指示に従い、スクレイパーの例とデータフレームを使用してウェブスクレイピングに挑戦しました。その後、ブゲーニョ氏は参加者に対し、GGRウェブサイトのスクレイピングソリューションに取り組むように奨励しました。

2回目のセッションで、ブゲーニョ氏はまず前回の講義を振り返りました。その後、彼はHTMLページからコンテンツをスクレイピングする方法を説明し、参加者に対して、リクエスト用の2つのライブラリとBeautifulSoup自体を読み込む必要のあるBeautifulSoupの活用を奨励しました。ブゲーニョ氏はワークショップ中、講義内容を理解することや、参加者自らがコードを実行することに難しさを感じていないか定期的に確認しました。参加者はHTMLファイルパスや技術用語の理解についての懸念も表明しました。

【イベントレポート作成】
アウン ニン テ テ (国際・公共政策大学院 修士課程)

【翻訳】
金 浚晤(法学部 学士課程)