記録#
- 95 日は news から 5 つのニュースを取得し、openai にキーワードを生成させ、そのキーワードを spotipy に送って曲を返す日でした。openai の関係で、今日の練習はスキップしました。
- 96 日は HTML コンテンツの取得と解析の学習であり、ついに Python で最も強力な機能であるウェブスクレイピングを学びました!
response = requests.get(url)
html = response.text
を使用してウェブページの HTML コンテンツを取得します。soup = BeautifulSoup(html, 'html.parser')
を使用して HTML を整形します。これに先立ち、ライブラリをインポートする必要があります:from bs4 import BeautifulSoup
soup.find_all("span", {"class", "titleline"})
を使用して指定されたコンテンツを取得します。span
はタグ名であり、後ろにはクラスとクラス名が続きます。- 今日の練習は:hacker news からコンテンツのタイトルを取得し、その中に python と replit が含まれている場合に print します。この過程で、これらのキーワードを含むタイトルがないことがわかったため、別のキーワードである SQL を追加しました。
コード#
main.py#
from bs4 import BeautifulSoup
import requests
url = "https://news.ycombinator.com"
respone = requests.get(url)
html = respone.text
soup = BeautifulSoup(html, 'html.parser')
title = soup.find_all("span", {"class", "titleline"})
print(len(title))
for txt in title:
if "python" in txt.text or "replit" in txt.text or "SQL" in txt.text:
print(txt.text)