查看原文
其他

Python爬虫 | 华晨宇未婚生女?我们爬取今日头条1.5万条评论,看看吃瓜群众怎么看?

才哥 可以叫我才哥 2021-10-08




大家好,今天我们带大家看看近期娱乐圈瓜地里华晨宇承认与张碧晨生女这一事件上,广大网友的看法。

本文目录:

  • 1. 点赞数最多的网友看法

  • 2. 回复数最多的网友看法

  • 3. 关于华晨宇的评价词云

  • 4. 关于张碧晨的评价词云

  • 5. 全部玩家评价词云

  • 6. 今日头条评价爬虫

  • 7. 词云制作——stylecloud

最近这一周,娱乐圈各种瓜不断,前有郑爽代孕违背人理道德,后有华晨宇承认有一孩子。前者毫无疑问必须封杀,后者嘛,我们且看广大网友怎么看。


华晨宇 回应 截图

1. 点赞数最多的网友看法

获得点赞最多的是一个认证为国家二级心理咨询师 优质心理领域创作者的名为心声心理孙韵的用户评价,其评价属于正向的关键词在 喜欢华晨宇的歌生小孩是私事华晨宇很坦诚以及祝福。

好喜欢你的歌,这是你的私人生活,本没必要向任何人交代。你的坦诚,更觉得你的人品没的说。相信你们一家会生活的更好。

以下是点赞数超过2500的用户评价,我们可以看到基本上都是比较积极正向的看法。不得不说,只要不是在错的事情上,坦诚以待并表达积极向上的态度总是容易获取围观群众好感的

点赞最多的网友看法

2. 回复数最多的网友看法

获得回复最多的是一个认证为北京卓立汉光仪器有限公司检验员 优质情感领域创作者的名为情感飞猪的用户评价,其评价主要围绕着未婚先孕是否违法的疑问。

未婚先孕不要违法吗?为啥我们老百姓都是先有准生证才可以生孩子?

对于这个疑问,下面的回复基本都是在说 生孩子和结婚与否其实无关。不过,我们要倡导结婚生子,毕竟 虽然未婚先孕不违法,但是未婚先孕牵涉到许多问题,例如社会抚养费、孩子的户口、孩子的抚养等,建议双方可以尽快办理结婚登记,保护孩子及女方的合法权益

以下是回复数超过251的用户评价,除了第一个是带有质疑的之外,大部分也都是比较积极正向的看法,这部分其实也和点赞数最多的交叉较多。总的来说,网友普遍认为华晨宇这次的回应内容态度是积极的、有责任的。

回复数超过251的网友看法

关于未婚先孕,其实法律上没有强制性的规定。根据自2021年1月1日正式施行《中华人民共和国民法典》,对 非婚生子女 有如下规定:

所谓非婚生子女,是指不具有合法婚姻关系的男女所生的子女,具体包括:未婚所生子女、已婚男女与第三人所生子女、无效婚姻和被撤销婚姻当事人所生子女等。

《中华人民共和国民法典》第一千零七十一条规定,“ 非婚生子女享有与婚生子女同等的权利,任何组织或者个人不得加以危害和歧视。不直接抚养非婚生子女的生父或者生母,应当负担未成年子女或者不能独立生活的成年子女的抚养费。 ”该法律条文明确了非婚生子女与婚生子女享有同等的权利,父母对于非婚生子女负有抚养教育的义务。男女双方解除同居关系后,应从有利非婚生子女身心健康考虑决定与哪一方共同生活,不直接抚养非婚生子女的一方应当支付子女的生活费和教育费。

3. 关于华晨宇的评价词云

我们筛选评论内容中包含有 花花 或 华晨宇 的条目,然后进行词云制作。发现,大家都是在送祝福。除了 花花、孩子之外,祝福花花、恭喜花花,祝福、幸福等字眼最多。

4. 关于张碧晨的评价词云

我们筛选评论内容中包含 碧晨 的条目,然后进行词云制作。发现,其实也是祝福居多,不过包含张碧晨字眼的条目里 花花 出现的频率也很高。毕竟 在这次事件之前,才哥一直不知道张碧晨是谁,还以为 是郭碧婷 呢。

5. 全部玩家评价词云

全部玩家评价中,基本都是正向词汇。围绕着孩子为主题,祝福、恭喜等等!!

6. 今日头条评价爬虫

我们可以直接在今日头条的网页版,点开 指定网页 https://www.toutiao.com/w/a1689580945358862/,然后F12进入开发者模式,选中Network-XHR,刷新页面或者点击 下面 加载更多,观察右侧的Name变化,找到真实url地址查看请求结果发现就是json文本。参考《Python爬虫 | 爬虫基础入门看这一篇就够了》,然后即可进行爬虫代码编写。

网页分析
import requests
import pandas as pd
import time

# 获取每页数据
def get_r(page):
    url = 'https://www.toutiao.com/article/v2/tab_comments/'
    parames = {
        'aid'24,
        'app_name''toutiao_web',
        'offset':(page-1)*50 ,
        'count'50,
        'group_id'1689580945358862,
        'item_id'1689580945358862,
        '_signature''_02B4Z6wo00101IZvL-QAAIDDNp7DLQUxIpCGSitAAEGVC86zvKTfCRp-Wa5ANNYQfh2WgJumlc0EwRxHlBXpQfGU21441ffJ1RLN.qHCZ33.fOX8DklzsWQNwEzpSQU3jMrfczAcJUflkfJib6'
        }
    
    headers = {
        "User-Agent""Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36",
        }
    
    r = requests.get(url,params= parames,headers= headers)

    return r

# 解析每页评价数据
def get_comment(r):
    j = r.json()

    data_list = j['data']
    comments = []
    for data in data_list:
        content = data['comment']
        comment = {}
        comment['create_time'] = content['create_time']
        comment['digg_count'] = content['digg_count']
        comment['reply_count'] = content['reply_count'
        comment['text'] = content['text']
        comment['user_id'] = content['user_id']
        comment['user_name'] = content['user_name']
        comment['verified_reason'] = content['verified_reason']
        
        comments.append(comment)
    
    return comments

# 主函数
def main():
    r = get_r(1)
    j = r.json()
    total_number = j['total_number']
    pages = total_number // 50 + 1
    print(f'一共 {total_number} 条评价,共 {pages} 页')
    comments_list = []
    for page in range(1, pages+1):
        # time.sleep(0.5)
        r = get_r(page)
        comments = get_comment(r)
        comments_list.extend(comments)
        print(f'第 {page} 页评价已爬取')
    
    df = pd.DataFrame(comments_list)
    df['create_time'] = df['create_time'].apply(lambda x: pd.Timestamp(x, unit="s",tz='Asia/Shanghai'))
    df.drop_duplicates(subset='user_id',inplace=True)
    
    return df

if __name__ == "__main__":
    df = main()

7. 词云制作——stylecloud

本文我们采用 stylecloud进行词云制作,stylecloud 是一位数据科学家叫Max Woolf的大神做出来的wordcloud词云包的升级版,专门来解救一帮美术水平不高,但又对词云效果有些追求的小伙伴。

这里不做详细介绍了,具体我们见下一篇专项介绍 词云制作库(stylecloud 和 wordcloud)。

安装 stylecloud

pip install stylecloud

编写 词云绘制函数调用【以下代码我们将在下期详细讲解

import stylecloud
import numpy as np
from PIL import Image
import jieba
import jieba.analyse
import pandas as pd

def ciYun(data,addWords,stopWords):
    print('\n正在作图...')
    comment_data = []
    
    for item in data:
        if pd.isnull(item) == False:
            comment_data.append(item)
    # 添加自定义词典 
    for addWord in addWords:
        jieba.add_word(addWord)

    comment_after_split = jieba.cut(str(comment_data), cut_all=False)
    words = ' '.join(comment_after_split)    
    
    bg=np.array(Image.open(r"F:\Python\爬虫\今日头条\huahua\huahua.png"))
    # mask=bg
    stylecloud.gen_stylecloud(text=words,
                              # icon_name='fab fa-qq',
                              font_path='FZZJ-YGYTKJW.ttf',
                              output_name='2.png',
                              size=500,
                              custom_stopwords=stopWords,
                              bg=bg,
                              )        
    print('词云已生成~')
    
if __name__ == "__main__":
    data = df.text.to_list()
#    df_hh = df[df['text'].str.contains('花花|华晨宇')]
#    df_bc = df[df['text'].str.contains('碧晨')]
    data = df_bc.text.to_list()
    addWords = ['你的歌',"张碧晨","华晨宇",'碧晨']
    # 添加本地停用词文件
    stoptxt = pd.read_table(r'C:\Users\gongdc\Desktop\stop.txt',encoding='utf-8',header=None)
    stoptxt.drop_duplicates(inplace=True)
    stopWords = stoptxt[0].to_list()
    words = ['该条','评论']
    stopWords.extend(words)    
        
    # 运行~
    ciYun(data,addWords,stopWords)
    Image.open(r"F:\Python\爬虫\今日头条\2.png")
- 往期推荐 -

Python爬虫 | 批量爬取某图网站高质量小姐姐照片

Python爬虫 | 爬取虎牙直播星秀区1000多位漂亮小姐姐照片并做颜值评分

- END -




喜欢的话,帮忙点个赞,加个在看呗~

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存