python实现计算文本关键字权重及摘要
首先安装textrank4zh
pip install textrank4zh
全部代码如下:
#-*- encoding:utf-8 -*-from __future__ import print_functionimport sys
try: reload(sys)
sys.setdefaultencoding("utf-8")
except: passimport codecs
from textrank4zh import TextRank4Keyword, TextRank4Sentence
text = """
各位代表: 现在,我代表国务院,向大会报告政府工作,请予审议,并请全国政协各位委员提出意见。 一、2016年工作回顾 过去一年,我国发展面临国内外诸多矛盾叠加、风险隐患交汇的严峻挑战。在以习近平同志为核心的党中央坚强领导下,全国各族人民迎难而上,砥砺前行,推动经济社会持续健康发展。党的十八届六中全会正式明确习近平总书记的核心地位,体现了党和人民的根本利益,对保证党和国家兴旺发达、长治久安,具有十分重大而深远的意义。各地区、各部门不断增强政治意识、大局意识、核心意识、看齐意识,推动全面建成小康社会取得新的重要进展,全面深化改革迈出重大步伐,全面依法治国深入实施,全面从严治党纵深推进,全年经济社会发展主要目标任务圆满完成,“十三五”实现了良好开局。 ——经济运行缓中趋稳、稳中向好。国内生产总值达到74.4万亿元,增长6.7%,名列世界前茅,对全球经济增长的贡献率超过30%。居民消费价格上涨2%。工业企业利润由上年下降2.3%转为增长8.5%,单位国内生产总值能耗下降5%,经济发展的质量和效益明显提高。 ——就业增长超出预期。全年城镇新增就业1314万人。高校毕业生就业创业人数再创新高。年末城镇登记失业率4.02%,为多年来最低。13亿多人口的发展中大国,就业比较充分,十分不易。 ——改革开放深入推进。重要领域和关键环节改革取得突破性进展,供给侧结构性改革初见成效。对外开放推出新举措,“一带一路”建设进展快速,一批重大工程和国际产能合作项目落地。 ——经济结构加快调整。消费在经济增长中发挥主要拉动作用。服务业增加值占国内生产总值比重上升到51.6%。高技术产业、装备制造业较快增长。农业稳中调优,粮食再获丰收。 ——发展新动能不断增强。创新驱动发展战略深入实施。科技领域取得一批国际领先的重大成果。新兴产业蓬勃兴起,传统产业加快转型升级。大众创业、万众创新广泛开展,全年新登记企业增长24.5%,平均每天新增1.5万户,加上个体工商户等,各类市场主体每天新增4.5万户。新动能正在撑起发展新天地。 ——基础设施支撑能力持续提升。高速铁路投产里程超过1900公里,新建改建高速公路6700多公里、农村公路29万公里。城市轨道交通、地下综合管廊建设加快。新开工重大水利工程21项。新增第四代移动通信用户3.4亿、光缆线路550多万公里。 ——人民生活继续改善。全国居民人均可支配收入实际增长6.3%。农村贫困人口减少1240万,易地扶贫搬迁人口超过240万。棚户区住房改造600多万套,农村危房改造380多万户。国内旅游快速增长,出境旅游超过1.2亿人次,城乡居民生活水平有新的提高。 我国成功主办二十国集团领导人杭州峰会,推动取得一系列开创性、引领性、机制性重要成果,在全球经济治理中留下深刻的中国印记。 回顾过去一年,走过的路很不寻常。我们面对的是世界经济和贸易增速7年来最低、国际金融市场波动加剧、地区和全球性挑战突发多发的外部环境,面对的是国内结构性问题突出、风险隐患显现、经济下行压力加大的多重困难,面对的是改革进入攻坚期、利益关系深刻调整、影响社会稳定因素增多的复杂局面。在这种情况下,经济能够稳住很不容易,出现诸多向好变化更为难得。这再次表明,中国人民有勇气、有智慧、有能力战胜任何艰难险阻,中国经济有潜力、有韧性、有优势,中国的发展前景一定会更好。 一年来,我们主要做了以下工作。 一是继续创新和加强宏观调控,经济运行保持在合理区间。去年宏观调控面临多难抉择,我们坚持不搞“大水漫灌”式强刺激,而是依靠改革创新来稳增长、调结构、防风险,在区间调控基础上,加强定向调控、相机调控。积极的财政政策力度加大,增加的财政赤字主要用于减税降费。全面推开营改增试点,全年降低企业税负5700多亿元,所有行业实现税负只减不增。制定实施中央与地方增值税收入划分过渡方案,确保地方既有财力不变。扩大地方政府存量债务置换规模,降低利息负担约4000亿元。稳健的货币政策灵活适度,广义货币M2增长11.3%,低于13%左右的预期目标。综合运用多种货币政策工具,支持实体经济发展。实施促进消费升级措施。出台鼓励民间投资等政策,投资出现企稳态势。分类调控房地产市场。加强金融风险防控,人民币汇率形成机制进一步完善,保持了在合理均衡水平上的基本稳定,维护了国家经济金融安全。 二是着力抓好“三去一降一补”,供给结构有所改善。以钢铁、煤炭行业为重点去产能,全年退出钢铁产能超过6500万吨、煤炭产能超过2.9亿吨,超额完成年度目标任务,分流职 工得到较好安置。支持农民工在城镇购房,提高棚改货币化安置比例,房地产去库存取得积极成效。推动企业兼并重组,发展直接融资,实施市场化法治化债转股,工业企业资产负债率有所下降。着眼促进企业降成本,出台减税降费、降低“五险一金”缴费比例、下调用电价格等举措。加大补短板力度,办了一批当前急需又利长远的大事。
"""
tr4w = TextRank4Keyword()
tr4w.analyze(text=text, lower=True, window=2) # py2中text必须是utf8编码的str或者unicode对象,py3中必须是utf8编码的bytes或者str对象print( "关键词:" )
for item in tr4w.get_keywords(20, word_min_len=1):
print(item.word, item.weight)
print()
print( "关键短语:" )
for phrase in tr4w.get_keyphrases(keywords_num=20, min_occur_num= 2):
print(phrase)
tr4s = TextRank4Sentence()
tr4s.analyze(text=text, lower=True, source = "all_filters")
print()
print( "摘要:" )
for item in tr4s.get_key_sentences(num=3):
print(item.index, item.weight, item.sentence) # index是语句在文本中位置,weight是权重
结果:
以上是 python实现计算文本关键字权重及摘要 的全部内容, 来源链接: utcz.com/z/521744.html