㈠ Python豆瓣電影《肖申克的救贖》評論爬取
先看效果圖:
地址:( https://movie.douban.com/subject/1292052/comments?sort=time&status=P)
爬取前1w條評論
存儲成txt文檔
數據預處理
中文分詞
統計top10的高頻詞
可視化展示高頻詞
根據詞頻生成詞雲
審核評論
================================================================
配置准備
中文分詞需要jieba
詞雲繪制需要wordcloud
可視化展示中需要的中文字體
網上公開資源中找一個中文停用詞表
根據分詞結果自己製作新增詞表
准備一張詞雲背景圖(附加項,不做要求)
paddlehub配置
#安裝jieba分詞和詞雲
pip install jieba
pip install wordcloud
#安裝paddle
pip install --upgrade PaddlePaddle
#安裝模型
#hub install porn_detection_lstm==1.1.0
pip install --upgrade paddlehub
pip install numpy
#安裝Beautifulsoup
pip install BeautifulSoup4
Github地址: https://github.com/mikite/python_sp_shawshank
有可能遇到的問題:
1.UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe8 in position 1: invalid continuation byte
解決方法:
1.不使用urlLib換做requests
2.去掉請求頭中的 'Accept-Encoding': 'gzip, deflate, br'
3.返回值reponse 轉字元串指定編碼utf-8
# 'Accept-Encoding': 'gzip, deflate, br',
2.關於cookie
解決方法:
1.去豆瓣請求頭中復制cookie設置到請求頭中
'Cookie': 'bid=WD6_t6hVqgM'
3.請求返回418的問題
解決方案模擬設置請求頭,設置user-agent
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36',
4.使用beautifulsoup獲取不到評論
解決方法:
第一步:指定解析參數為'lxml'
soupComment = BeautifulSoup(html, 'lxml')
第二步:
findAll方法指定css文件的class名
print('網頁內容:', soupComment.prettify())
comments = soupComment.findAll(class_='short')
點擊獲取源碼
㈡ 豆瓣評分排行榜是怎樣的
豆瓣是一個以書影音為核心的評論社區,甚至不是一個專門的影迷網站,其評分方式粗略,用戶在打分時也並非抱著評選的念頭。所以雖然具體演算法不得而知,但其電影榜單的含金量可想而知。
想知道哪些好看的電視劇,熱門的小說,好評如潮的電影都可以在豆瓣裡面找到,豆瓣APP可以給予用戶對某個作品的真實評價,大量的用戶基礎,客觀的用戶評分,讓用戶可以避開一些垃圾快餐文學作品,打造一個良好的閱讀觀影體驗。
如果你也注冊使用了豆瓣APP,覺得裡面的評論非常中肯的話,可以看看裡面評分較高的作品,其中排行榜就是一個非常不錯的選擇,可以讓用戶了解當下最有價值的作品,如果你還不知道怎麼看排行榜的話,不要錯過小編的這篇教程了。
首先,打開登陸豆瓣APP,點擊軟體下方的「書影音」界面,點擊「豆瓣榜單」
以上就是小編為大家帶來的豆瓣APP查看排行榜方法了。方法很簡單,但是卻很實用。
㈢ Python爬蟲實戰(1)requests爬取豆瓣電影TOP250
爬取時間:2020/11/25
系統環境:Windows 10
所用工具:Jupyter NotebookPython 3.0
涉及的庫:requestslxmlpandasmatplotlib
umpy
蛋肥想法: 先將電影名稱、原名、評分、評價人數、分類信息從網站上爬取下來。
蛋肥想法: print數據列表後發現電影原名、分類信息等存在不需要的字元,需預先處理;同時因為後續想做一個豆瓣電影TOP250的維度分布圖,而同一電影存在多個發行國家、類型(如「法國 美國 / 劇情 動作 犯罪」),為了簡(偷)便(懶),這里均取第一個作為記入的數據;最後將數據保存為xlsx。
蛋肥想法: 蛋肥想知道在豆瓣電影TOP250中年份、國家、類型的維度數據,為了練手,使用剛才保存成xlsx的數據,並分別畫成雷達圖、柱形圖、扇形圖。
㈣ 如何查看豆瓣電影排行榜
直接用網路搜索豆瓣電影排行榜就能查到。
豆瓣電影提供最新的電影介紹及評論包括上映影片的影訊查詢及購票服務。你可以記錄想看、在看和看過的電影電視劇,順便打分、寫影評。極大地方便了人們的生活。
主要功能
1、權威的電影評分和精彩影評,千萬影迷的真實觀影感受,為你的觀影做決策,「看什麼」不再是問題;
2、手機直接購票,還可提前選定好座位。現場排長隊還選不到好座位的情況再也不會發生了;
3、票價優惠,並不定期舉辦免費或特惠觀影活動;
4、提供超過2500家影院的實時放映時間表,隨時隨地查看影片場次;
5、可定位離自己最近的電影院,實時獲取影片放映時間和可購票場次;
6、購票簡單,支付輕松,支持支付寶、銀聯付款;
㈤ python爬蟲小白求幫助:爬取豆瓣網的內容 不知道哪裡出問題了 只能print一行
只獲取到一個movie_name 和 一個movies_score,然後遍歷這兩個值,循環一定是只走兩遍。不知道你這個是不是豆瓣top250 我看頁面元素好像不對了