聚焦爬虫技术在互联网舆情搜索
分析系统中的应用
米建俊
国家新闻出版广电总局203台内蒙古呼和浩特市010070
【摘要】在信息发展多元化的今天,网络言论信息的发作体量、传布速度等方面都发生了重大改
变。本文主要介绍聚焦爬虫技术及其工作原理,进一步探讨了爬虫技术在互联网舆情搜索与分析中的应用。不断加强互联网信息的深度监测和分析,对于及时应对突发的公共事件,全面掌握社情民意和把握新时代互联网舆论管理规范的政策走向具有积极作用。
【关键词】爬虫技术舆情搜索分析系统【中图分类号】TP393.02
【文献标识码】B
【文章编号】2096-0751(2018)06-0015-03
引言
量影响,总体指数有所下降,但重大网络舆情及公共突发事件的回应能力、社会效应环比各上升10%。从涉事部门反应来看,已逐步建立了基本的网络舆情应对机制,网络舆情响应速度加快。从回应渠道来看,仍以微博、微信用户为主。网民互动与评论引导指数为103.8。网络互动活跃度走高,达到145,环比提升20%,网民行为理性度环比提升5%。其中,新媒体人士舆论引导力较基值(100)提升10%,但互联网平台用户管理能力略有下降。高级工程师
随着互联网的发展和技术提升,根据CNNIC发布报告,截至2017年12月,我国网民数量已达到7.72亿,成为网民大国,由此可见网络对民众生活的重要性。与此同时,网络舆论热点也层出不穷,网上舆情搜索成为了解民众生活动态的直接渠道,也是互联网管理部门的重要舆论宣传阵地。据统计,2018年一季度,重大网络舆情及突发公共事件的传播和回应指数为97.8,受事件数作者简介:米建俊国家新闻出版广电总局203台-52-
中心技术
1突发事件案例分析
据人民网舆情数据中心统计显示,2018年上半年,互联网上热点话题丰富多样,舆情热度高位运行,网络态势总体平稳向好。其中,2018年全国两会、上合组织青岛峰会、短视频监管话题、郑州空姐乘坐滴滴顺风车遇害案等,成为舆情热度排名前列的事件。1.1
具体事件分析
2018年5月5日深夜,空姐李某珠因要回老家参加亲戚婚礼在河南郑州乘坐滴滴顺风车后失联。5月8日,经警方证实,李某珠已遇害,凶手系滴滴司机刘某华。由于案件涉及网约车监管、女性安全、隐私侵权等话题,引起社会各界广泛关注,相关舆情量在5月11日达到顶峰。1.2
重要节点概览
5月5日23时50分,李某珠从驻勤酒店搭乘网约车前往市区,途中遇害。
5月9日,河南广播电视台都市频道对事件进行报道,引发舆论关注。
5月10日,滴滴方面发布道歉声明,并悬赏百万缉拿嫌犯归案;@平安郑州发布警情通报,称已锁定嫌犯并全力展开搜捕。
5月11日,郑州运管部门约谈滴滴,滴滴被要求立即停止顺风车业务;而警察方面也辟谣称,“杀害网约车乘客嫌疑人刘某华已被抓获”等相关视频图片均为不实信息;@王大伟微博发文4条铁律”引发网民争议,女性安全问题成为热门话题;同日晚间,微信公众号“二更食堂”发布相关推文被指“吃人血馒头”“消费死者”,遭多位读者举报。
5月12日,嫌疑人尸体被打捞上岸,案件自此告破;@平安郑州通报称擅自传播空姐命案现
第35卷
场照片的4人被刑拘;“二更食堂”负责人被当地网信办约谈。
5月13日,二更创始人为公众号不当发文深夜道歉,称永久关停“二更食堂”。
5月16日,滴滴公布阶段整改措施,顺风车服务将下线所有个性化标签和评论功能,车主每次接单前必须进行人脸识别,且暂停接受22点至6点出发的订单。如图1所示。
图1“空姐深夜滴滴打车遇害”案传播趋势此事件被公众知晓是缘于河南电视台的报道,随后媒体及网民的相继报道与传播,使得事件影响力逐步扩大。@王大伟、@局面、@良心评测等大V账号的发言使得事件讨论热度迅速攀升至顶峰,女性安全是否要靠自我防范、号召滴滴平台去掉“乘客评价”成为网民关注的焦点。5月12日,随着案件宣布告破,舆论关注度持续下降。5月16日,大量网民针对“滴滴公布阶段整改措施”展开讨论,有质疑也有建议,使得事件舆情量有回升趋势。1.3
传播平台
有关“空姐深夜滴滴打车遇害”的舆情信息中,传播量位居首位的平台为微博。虽然在此次事件传播过程中,微博并非最早爆料平台,但却为事件发酵提供了重要环境,平台内信息直接引领整个舆论场的走势,部分大V账号发言引发高度关注,比如@王大伟发文指出“女孩乘车的4条
-53-
“四个不打:女孩乘车的数字传媒研究第35卷2018年第6期铁律”一度被转发8.82万次,@王语漩发文爆料“同事曾被嫌犯骚扰投诉无果”被转发3.23万次,@良心评测发文号召“请滴滴移除乘客评价功能”被转发2.2万次,而@平安郑州、@河南网警巡查执法等官方账号的动态回应与辟谣,也在一定程度上引发平台内网民的关注。
新闻客户端与新闻网站分别为传播量第二、第三的平台,由此可见,互联网时代,媒体作为新闻的报道者与发布者,依然对点燃事件热度起着重要作用。值得注意的是,天天快报、今日头条、百度新闻等新闻客户端在事件发展过程中进行了大量发文推送,推动了事件的进一步发酵。
该起舆情由于涉及到多个敏感新闻元素如空姐、美女、性侵、滴滴顺风车等,引发大量媒体第一时间介入报道,与自媒体争夺点击量态势十分明显,是导致舆情急剧升温的主要原因。这起事件引起舆论的高度关注,相关舆情量急剧上升,其带来的社会影响之大足以带给多方面的思考。
习近平总书记强调“建设网络良好生态,发挥网络引导舆论、反映民意的作用”。在网络日益普及的今天,网络信息中承载着大量的舆情热点,如何提取这些有用信息并以加利用成为目前亟待解决的难题。
2聚焦爬虫工作原理及关键技术
聚焦爬虫的工作流程较传统爬虫有所不同,
需要在算法内分析并过滤与主题相关的网页,保留与主题相关的网页和链接,并将其存入等待抓取的网页URL。再根据指定的搜索算法从URL队列中分析有用的URL,多次重复以上算法,直到满足搜索的停止条件。同时,被爬虫抓取的网页URL被系统记录,通过一定算法进行分析并过滤,建立索引目录,方便今后查询和检索。同-54-
时,聚焦爬虫在搜索过程中能够对以后的检索产生反馈和指导。
与传统网络爬虫相比,聚焦爬虫在三方面进行了优化:对具体搜索目标的描述;对网页或链接的分析策略;对URL的搜索算法。
具体搜索目标的描述是决定网页分析策略与URL搜索算法的基础。而网页或链接的分析策略和对URL搜索算法是对搜索引擎在全互联网搜索最终结果产生很大影响。
目前聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念三种。基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种子样本获取方式可分为:预设初始种子样本;预设网页分类目录对应的种子样本;分析用户搜索的样本。
基于目标数据模式的爬虫针对的是网页上的数据,所抓取的数据要按照一定的模式,可以转化为目标数据模式。
基于领域概念的爬虫是建立目标领域的本体或词典,用于从语义角度分析不同特征在某一主题中的重要程度。
结束语
综上所述,将聚焦爬虫技术应用于互联网舆情搜索与分析系统中,能够高效的完成网络热点节目、敏感节目、舆情信息、网站总体情况、最新发现情况等信息的检索,为用户第一时间全面掌握互联网舆情的传播情况提供保障。
审稿人:魏朝辉内蒙古新闻出版广电局监管中心
正高级工程师
编
辑:乌日山
责任编辑:王学敏
因篇幅问题不能全部显示,请点此查看更多更全内容