導航:首頁 > 電影題材 > 電影採集器有哪些

電影採集器有哪些

發布時間：2024-01-18 19:20:09

『壹』 Python豆瓣電影《肖申克的救贖》評論爬取

先看效果圖：

地址：（ https://movie.douban.com/subject/1292052/comments?sort=time&status=P）

爬取前1w條評論

存儲成txt文檔

數據預處理

中文分詞

統計top10的高頻詞

可視化展示高頻詞

根據詞頻生成詞雲

審核評論

================================================================

配置准備

中文分詞需要jieba

詞雲繪制需要wordcloud

可視化展示中需要的中文字體

網上公開資源中找一個中文停用詞表

根據分詞結果自己製作新增詞表

准備一張詞雲背景圖（附加項，不做要求）

paddlehub配置

#安裝jieba分詞和詞雲

pip install jieba

pip install wordcloud

#安裝paddle

pip install --upgrade PaddlePaddle

#安裝模型

#hub install porn_detection_lstm==1.1.0

pip install --upgrade paddlehub

pip install numpy

#安裝Beautifulsoup

pip install BeautifulSoup4

Github地址： https://github.com/mikite/python_sp_shawshank

有可能遇到的問題：

1.UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe8 in position 1: invalid continuation byte

解決方法：

1.不使用urlLib換做requests

2.去掉請求頭中的 'Accept-Encoding': 'gzip, deflate, br'

3.返回值reponse 轉字元串指定編碼utf-8

# 'Accept-Encoding': 'gzip, deflate, br',

2.關於cookie

解決方法：

1.去豆瓣請求頭中復制cookie設置到請求頭中

'Cookie': 'bid=WD6_t6hVqgM'

3.請求返回418的問題

解決方案模擬設置請求頭，設置user-agent

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36',

4.使用beautifulsoup獲取不到評論

解決方法：

第一步：指定解析參數為'lxml'

soupComment = BeautifulSoup(html, 'lxml')

第二步：

findAll方法指定css文件的class名

print('網頁內容：', soupComment.prettify())

comments = soupComment.findAll(class_='short')

點擊獲取源碼

『貳』 Python爬蟲實戰（1）requests爬取豆瓣電影TOP250

爬取時間：2020/11/25
系統環境：Windows 10
所用工具：Jupyter NotebookPython 3.0
涉及的庫：requestslxmlpandasmatplotlib umpy

蛋肥想法： 先將電影名稱、原名、評分、評價人數、分類信息從網站上爬取下來。

蛋肥想法： print數據列表後發現電影原名、分類信息等存在不需要的字元，需預先處理；同時因為後續想做一個豆瓣電影TOP250的維度分布圖，而同一電影存在多個發行國家、類型（如「法國美國 / 劇情動作犯罪」），為了簡（偷）便（懶），這里均取第一個作為記入的數據；最後將數據保存為xlsx。

蛋肥想法： 蛋肥想知道在豆瓣電影TOP250中年份、國家、類型的維度數據，為了練手，使用剛才保存成xlsx的數據，並分別畫成雷達圖、柱形圖、扇形圖。

閱讀全文

與電影採集器有哪些相關的資料

熱點內容

那些年一起追過的女孩微電影下載發布：2025-04-30 01:30:45 瀏覽：586

分析燈光特點電影發布：2025-04-30 01:26:25 瀏覽：328

神探南茜電影資源發布：2025-04-30 01:26:19 瀏覽：435

倫理免電影網站發布：2025-04-30 01:26:11 瀏覽：574

活著韓國喪屍電影迅雷下載發布：2025-04-30 01:19:16 瀏覽：838

白狐電影高清全集觀看發布：2025-04-30 01:17:46 瀏覽：823

獵殺是什麼電影發布：2025-04-30 01:17:01 瀏覽：640

巴克的狗是什麼電影發布：2025-04-30 01:15:31 瀏覽：140

想拍什麼電影發布：2025-04-30 01:14:09 瀏覽：954

上海電影院飲料發布：2025-04-30 01:11:46 瀏覽：584

2月2日什麼電影發布：2025-04-30 01:09:23 瀏覽：811

豆瓣2020年戰爭電影發布：2025-04-30 01:02:48 瀏覽：86

天堂電影院多多和艾琳娜在一起了嗎發布：2025-04-30 01:02:44 瀏覽：508

電影劉三姐老電影全集發布：2025-04-30 00:57:44 瀏覽：865

外國電影英語版看不懂怎麼辦發布：2025-04-30 00:57:00 瀏覽：153

電影人生完整版免費觀看發布：2025-04-30 00:56:13 瀏覽：909

西瓜影音播放器看電影好發布：2025-04-30 00:53:25 瀏覽：290

神馬電影倫理片發布：2025-04-30 00:44:01 瀏覽：547

微電影不恥發布：2025-04-30 00:29:43 瀏覽：68

火車上偶遇女主是哪個電影發布：2025-04-30 00:28:03 瀏覽：86