二手产品经理

二手产品经理

THIS IS RENO

スクレイピング - 95~96日 - オンラインでPythonを100日間学ぶ

記録#

  1. 95 日は news から 5 つのニュースを取得し、openai にキーワードを生成させ、そのキーワードを spotipy に送って曲を返す日でした。openai の関係で、今日の練習はスキップしました。
  2. 96 日は HTML コンテンツの取得と解析の学習であり、ついに Python で最も強力な機能であるウェブスクレイピングを学びました!
  3. response = requests.get(url) html = response.text を使用してウェブページの HTML コンテンツを取得します。
  4. soup = BeautifulSoup(html, 'html.parser') を使用して HTML を整形します。これに先立ち、ライブラリをインポートする必要があります:from bs4 import BeautifulSoup
  5. soup.find_all("span", {"class", "titleline"}) を使用して指定されたコンテンツを取得します。span はタグ名であり、後ろにはクラスとクラス名が続きます。
  6. 今日の練習は:hacker news からコンテンツのタイトルを取得し、その中に python と replit が含まれている場合に print します。この過程で、これらのキーワードを含むタイトルがないことがわかったため、別のキーワードである SQL を追加しました。

コード#

main.py#

from bs4 import BeautifulSoup
import requests

url = "https://news.ycombinator.com"

respone = requests.get(url)
html = respone.text

soup = BeautifulSoup(html, 'html.parser')
title = soup.find_all("span", {"class", "titleline"})
print(len(title))

for txt in title:
  if "python" in txt.text or "replit" in txt.text or "SQL" in txt.text:
    print(txt.text)
読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。