世界观焦点:支持开票 | Python实证指标构建与文本分析 - 行业动态 -

当前位置:首页  >  行业动态  > 正文

世界观焦点:支持开票 | Python实证指标构建与文本分析

世界观焦点:支持开票 | Python实证指标构建与文本分析
2022-12-29 20:07:36

LovelyPlots库 | 格式化科学论文、论文和演示文稿的可视化图形


(资料图)

付费课程 |支持开票|购前咨询 微信372335839概览为何要学Python?

在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节!

在前大数据时代,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。但大数据时代,网络数据成为各方学者亟待挖掘的潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题:

网络爬虫技术解决 如何从网络世界中高效地采集数据?文本分析技术解决 如何从杂乱的文本数据中 抽取文本指标(变量)?一、Python语法入门

Python跟英语一样是一门语言

数据类型之字符串

数据类型之列表元组集合

数据类型之字典

数据类型之布尔值、None

逻辑语句(if&for&tryexcept)

列表推导式

理解函数

常用的内置函数

内置库文件路径pathlib库

内置库csv文件库

内置库正则表达式re库

初学python常出错误汇总

二、数据采集

网络爬虫原理

网络访问requests库

网页解析pyquery库

案例豆瓣读书

案例Boss直聘

如何解析json数据

案例豆瓣电影

案例京东商城

案例用爬虫下载文档及多媒体文件

案例上市公司定期报告pdf批量下载

案例上交所招股说明pdf批量下载

案例深交所招股说明pdf批量下载

爬虫知识点总结

三、初识文本分析

从编码/解码视角重新理解文本

读取不同格式文件中的数据

如何将多个txt文件整理到一个excel中

案例中文分词及数据清洗

案例词频统计&词云图

案例共现法扩展情感词典(领域词典)

案例词向量word2vec扩展领域词典

案例中文情感分析(词典法)

cntext库 情感分析代码操作

案例对excel中的文本进行情感分析 91

案例 语言具体性与心理距离 | 以JCR2021论文为例

案例 使用MD&A数据测量企业数字化| 以管理世界2021、财经研究2022论文为例

四、机器学习与文本分析

了解机器学习ML

使用机器学习做文本分析的流程

scikit-learn机器学习库简介

文本特征抽取(特征工程)

案例在线评论文本分类

使用标注工具对数据进行标注

案例计算文本情感分析(有权重)

案例 文本相似性计算

案例 使用文本相似性识别变化(政策连续性)

案例 Kmeans聚类算法

案例 LDA话题模型

使用机器学习从图片中提取文本信息

五、词嵌入与认知

词嵌入原理及应用概述

案例 豆瓣影评-训练词向量&使用词向量

案例 使用词向量做话题建模

案例 认知指标(态度、偏见等)的测量

总结-文本分析在社科(经管)领域中的应用

相关文献

在这里我把技术细分为词频、词袋、w2v建词典、w2v认知变迁四个维度,整理了经管7篇论文。大家可以阅读这7篇论文,掌握文本分析的应用场景。

[1]沈艳,陈赟,&黄卓.(2019).文本大数据分析在经济学和金融学中的应用:一个文献综述.经济学(季刊),18(4),1153-1186.[2]王伟,陈伟,祝效国,王洪伟.众筹融资成功率与语言风格的说服性-基于Kickstarter的实证研究.*管理世界*.2016;5:81-98.[3]胡楠,薛付婧,王昊楠.管理者短视主义影响企业长期投资吗?——基于文本分析和机器学习[J].管理世界,2021,37(05):139-156+11+19-21.[4]KaiLi,FengMai,RuiShen,XinyanYan,MeasuringCorporateCultureUsingMachineLearning,*TheReviewofFinancialStudies*,2020[5]LoughranT,McDonaldB.Textualanalysisinaccountingandfinance:Asurvey[J].*JournalofAccountingResearch*,2016,54(4):1187-1230.AuthorlinksopenoverlaypanelComputationalsocioeconomics[6]Berger,Jonah,AshleeHumphreys,StephanLudwig,WendyW.Moe,OdedNetzer,andDavidA.Schweidel."Unitingthetribes:Usingtextformarketinginsight."*JournalofMarketing*84,no.1(2020):1-25.[7]Cohen,Lauren,ChristopherMalloy,andQuocNguyen."Lazyprices."*TheJournalofFinance*75,no.3(2020):1371-1415.[8]孟庆斌,杨俊华,鲁冰.管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究[J].*中国工业经济*,2017(12):132-150.[9]Wang,Quan,BeibeiLi,andParamVirSingh."Copycatsvs.OriginalMobileApps:AMachineLearningCopycat-DetectionMethodandEmpiricalAnalysis."*InformationSystemsResearch*29.2(2018):273-291.[10]Packard,Grant,andJonahBerger.“Howconcretelanguageshapescustomersatisfaction.”_JournalofConsumerResearch_47,no.5(2021):787-806.[11]冉雅璇,李志强,刘佳妮,张逸石.大数据时代下社会科学研究方法的拓展——基于词嵌入技术的文本分析的应用[J].南开管理评论:1-27.[12]曾庆生,周波,张程,陈信元.年报语调与内部人交易:“表里如一”还是“口是心非”?[J].管理世界,2018,34(09):143-160.[13]彭红枫,&林川.(2018).言之有物:网络借贷中语言有用吗?——来自人人贷借款描述的经验证据[J].金融研究,461(11),133-153.[14]吴非,胡慧芷,林慧妍,and任晓怡.“企业数字化转型与资本市场表现——来自股票流动性的经验证据[J].”管理世界(2021).

免费公开资料-社会科学文本挖掘资料汇总

公众号和博客积累了大量社会科学文本挖掘资料,涵盖文本分析概念、技术、代码、数据等。全部理清楚感兴趣的可以关注收藏。

https://hidadeng.github.io/blog/the_text_analysis_list_about_ms/

文献类

读完本文你就了解什么是文本分析

转载 | 金融学文本大数据挖掘方法与研究进展

视频 | Python文本分析与会计

视频 |文本分析在经管研究中的应用

视频| Python文本挖掘与金融科技

资料 | 量化历史学与经济学研究

近年《管理世界》《管理科学学报》使用文本分析论文

管理世界 | 使用中文LM金融词典做管理层语调分析

管理世界 | 使用文本分析&机器学习测量短视主义

管理世界 | 使用 经营讨论与分析 测量 企业数字化指标

文本分析在市场营销研究中的应用

营销研究中文本分析应用概述(含案例及代码)

计算文本的语言具体性 | 以JCR2021论文为例

文本分析方法在2021管理世界中的应用

转载 | 大数据时代下社会科学研究方法的拓展——基于词嵌入技术的文本分析的应用

文本可读性研究及应用清单

词嵌入测量不同群体对某概念的态度(偏见)

PNAS | 文本网络分析&文化桥梁Python代码实现

PNAS | 历史语言记录揭示了近几十年来认知扭曲的激增

PNAS | 情侣分手3个月前就有预兆!聊天记录还能反映分手后遗症

PNAS|词汇熟悉度对线上参与和资金筹集的预测性效用

MS | 使用网络算法识别创新的颠覆性与否

文本可读性研究及应用清单

代码类

Python语法入门 | 含视频代码

30天Python编程学习挑战

中文金融情感词典

在会计研究中使用Python进行文本分析

Python与文化分析入门

免费社科类Python编程课程列表

tomotopy库 | 速度最快的LDA主题模型

cntext库 | 中文情感分析包

认知的测量 | 向量距离vs语义投影

BERTopic主题建模库

doccano|为机器学习建模做数据标注

PyPlutchik库 | 可视化文本的情绪轮(情绪指纹)

WordBias库 | 发现偏见(刻板印象)的交互式工具

whatlies库 | 可视化词向量

KeyBERT | 关键词发现库

FinBERT | 金融文本BERT模型,可情感分析、识别ESG和FLS类型

Top2Vec | 主题建模和语义搜索库

tfidf有权重的情感分析

Shifterator库 | 词移图分辨两文本用词风格差异

使用Pandas处理文本数据

Label-Studio|多媒体数据标注工具

工具分享 | 正则表达式解析

EmoBank | 中文维度情感词典

Maigret库 | 查询某用户名在各平台网站的使用情况

百度指数 | 使用qdata采集百度指数

Asent库 | 英文文本数据情感分析

安装python包出现报错:Microsoft Visual 14.0 or greater is required. 怎么办?

Python | 词移距离(Word Mover"s Distance)

豆瓣影评| 探索词向量妙处

karateclub库 | 计算社交网络中节点的向量

causalinference库 | 使用Python做因果推断

机器学习实战 | 信用卡欺诈检测

实战 | 构建基于客户细分的 K-Means 聚类算法!

nlp-roadmap | 文本分析知识点思维脑图

R语言 | ggplot2简明绘图之散点图

R语言 | 使用posterdown包制作学术会议海报

R语言 | 使用ggsci包绘制sci风格图表

R语言 | ggpubr包让数据可视化更加优雅

R语言 | 让统计更easy的easystats集合包

R语言 | 使用shiny的reactive表达式写应用程序

R语言 | 使用stargazer包输出格式化回归结果

R语言 | 使用word2vec词向量模型

Latex | 为Rmarkdown配置tinytex环境

LovelyPlots库 | 格式化科学论文、论文和演示文稿的可视化图形

数据集

YelpDaset | 酒店管理类数据集10+G

70G上交所年报数据集

14G数据集 | 2007-2021年A股上市公司年度报告(txt文件)

17G资源 | 深交所企业社会责任报告

27G数据集 | 使用Python对27G招股说明书进行文本分析

1850万条 | 世界地图POI兴趣点数据集

1.5G数据集 | 200万条Indiegogo众筹项目信息

12G数据集 | 23w条Kickstarter项目信息

中文语义常用词典 | ChineseSemanticKB

中文词向量资源汇总 & 使用方法

NLP资源 | 汽车、金融等9大领域预训练词向量模型下载资源

Google Books Ngram Viewer显示英文词汇历史使用趋势

标签: 文本分析 管理世界 机器学习

(责任编辑:news01)
陕西一煤矿发生局部冒顶事故 致4人遇难4人重伤

陕西一煤矿发生局部冒顶事故 致4人遇难4人重伤

  中新网西安10月12日电 (记者 阿琳娜)记者12日从陕西咸阳市官方获悉,11日一煤矿发生局部冒顶事故...
10-12 14:06:22
“90后”女大学生返乡“带货”:我有振兴故乡的责任

“90后”女大学生返乡“带货”:我有振兴故乡的责任

  中新网吉林10月12日电 (记者 石洪宇)面对红叶浸染的山峦,27岁的刘佳宁很快找到创作灵感,成熟的...
10-12 14:06:22
浙江杭州钱镠墓被盗案开庭宣判 被告人处无期徒刑

浙江杭州钱镠墓被盗案开庭宣判 被告人处无期徒刑

  10月12日上午,浙江省杭州市中级人民法院一审公开开庭审理被告人蒋明磊、李常伟盗掘古墓葬一案并当...
10-12 14:06:22
作风之变助推发展之变

作风之变助推发展之变

  作风之变助推发展之变  ——四川剑阁深入推进“我为群众办实事”实践活动  光明日报记者 李晓...
10-12 14:06:22
齐晓景:就想为农村做点啥

齐晓景:就想为农村做点啥

  【奋斗青春 无悔抉择】  光明日报记者 陈晨 高平光明网记者 董大正  “这草莓西红柿,脆爽...
10-12 14:06:22
陕西彬长矿业公司胡家河矿发生一起局部冒顶事故致4人死亡

陕西彬长矿业公司胡家河矿发生一起局部冒顶事故致4人死亡

  新华社西安10月12日电(记者薛天、张思洁)记者从陕西煤业化工集团有限公司及咸阳市委宣传部获悉,10...
10-12 14:06:21
京秦高速遵秦段加紧施工建设

京秦高速遵秦段加紧施工建设

  目前,由中建路桥集团参与承建的京秦高速公路遵(遵化)秦(秦皇岛)段正在加紧施工,各项工程进展顺利...
10-12 14:06:21
护航法治中国行稳致远

护航法治中国行稳致远

  【坚持和完善人民代表大会制度】   检查21部法律和1个决定的实施情况,听取审议“一府一委两院”...
10-12 14:06:21
记录历史的耄耋老兵:让家乡的英雄故事永流传

记录历史的耄耋老兵:让家乡的英雄故事永流传

  中新网石家庄10月12日电 题:记录历史的耄耋老兵:让家乡的英雄故事永流传  作者 赵丹媚  见...
10-12 14:06:21
山西因灾停电用户95%以上已恢复供电

山西因灾停电用户95%以上已恢复供电

  新华社太原10月12日电(记者梁晓飞)记者12日从国网山西省电力公司了解到,受近日强降雨影响,山西运...
10-12 14:06:20
浙江仙都黄帝祭典弦歌不绝 慎终追远赓续中华根脉

浙江仙都黄帝祭典弦歌不绝 慎终追远赓续中华根脉

  中新网丽水10月12日电(记者 范宇斌)四海同心祭始祖,共同富裕启华章。辛丑(2021)年中国仙都祭祀轩...
10-12 14:06:20
教育部:校外培训机构登记为非营利前暂停招生收费

教育部:校外培训机构登记为非营利前暂停招生收费

  记者12日从教育部了解到,教育部校外教育培训监管司近日就校外培训机构“营改非”工作作出部署,要...
10-12 14:06:20
山西介休部分村庄启动灾后消杀防疫

山西介休部分村庄启动灾后消杀防疫

  中新网晋中10月12日电 (记者 陆祁国)随着抽排洪水作业进度加快,部分村庄积滞洪水水位明显下降。1...
10-12 14:06:20
中国新疆“河狸公主”:一百万中国青年救助保护河狸

中国新疆“河狸公主”:一百万中国青年救助保护河狸

  (生物多样性大会)中国新疆“河狸公主”:一百万中国青年救助保护河狸  中新社昆明10月12日电 题...
10-12 14:06:20
“母亲河畔的中国”网络主题活动在河南开封启动

“母亲河畔的中国”网络主题活动在河南开封启动

  中新网开封10月12日电 12日上午,“母亲河畔的中国”网络主题活动启动仪式在河南开封举行。  本...
10-12 14:06:20
陕煤彬长公司一煤矿发生局部冒顶事故 4人死亡

陕煤彬长公司一煤矿发生局部冒顶事故 4人死亡

  记者从陕西省咸阳市委宣传部获悉,10月11日13时50分许,陕煤彬长公司胡家河煤矿402104工作面发生局...
10-12 14:06:19
广东海警局联合广东省公安厅开展“清湾行动” 查获非法船舶860艘

广东海警局联合广东省公安厅开展“清湾行动” 查获非法船舶860艘

  中新网北京10月12日电 为坚决遏制珠江口水域走私活动多发态势,坚决打击违法犯罪分子嚣张气焰,全...
10-12 14:06:19
浙江长兴公安摧毁一盗掘古墓犯罪团伙 追回文物40余件

浙江长兴公安摧毁一盗掘古墓犯罪团伙 追回文物40余件

  中新网湖州10月12日电(施紫楠 吴俊杰)在小说和影视剧中,盗墓者常被称为“摸金校尉”,十分神秘。...
10-12 14:06:19
山西 陕西两地加紧防汛救灾

山西 陕西两地加紧防汛救灾

  央视网消息(新闻联播):山西、陕西两地加紧防汛救灾。今天(10月11日),财政部、应急管理部向两省紧...
10-12 14:06:19
强降雨致山西公路灾损6021.36公里

强降雨致山西公路灾损6021.36公里

  记者今天(10月12日)从山西省人民政府召开的新闻发布会上了解到,受连续强降雨影响,山西公路交通基...
10-12 14:06:19
哈尔滨多地风险等级调整为低风险

哈尔滨多地风险等级调整为低风险

  中新网哈尔滨10月12日电 (记者 刘锡菊)12日,哈尔滨市应对新冠肺炎疫情工作指挥部发布关于调整哈...
10-12 14:06:19
南京破获一起非法制作出租游戏账号案:未成年人5元租个账号就能打游戏

南京破获一起非法制作出租游戏账号案:未成年人5元租个账号就能打游戏

  中新网南京10月12日电 (记者 申冉)非法购买大量个人信息,与游戏账号进行绑定,制成经过“实名认...
10-12 14:06:18
10月2日至7日 山西出现有气象记录以来秋季最强降水过程

10月2日至7日 山西出现有气象记录以来秋季最强降水过程

  记者今天从山西省人民政府召开的新闻发布会上了解到,6月份入汛以来,受低涡切变线和西太平洋副热带...
10-12 14:06:18
台风“圆规”将于13日下午到夜间登陆海南岛

台风“圆规”将于13日下午到夜间登陆海南岛

  中新网海口10月12日电 (符晓虹 李凡 翁小芳)据海南省气象台12日介绍,今年第18号台风“圆规”(强...
10-12 14:06:18
哈尔滨11日新增治愈出院本土确诊病例15例

哈尔滨11日新增治愈出院本土确诊病例15例

  中新网哈尔滨10月12日电 (记者 刘锡菊)12日,哈尔滨市卫健委发布哈尔滨市10月11日0-24时疫情通报...
10-12 14:06:18
涉案金额756亿元!甘肃特大地下钱庄案终告破

涉案金额756亿元!甘肃特大地下钱庄案终告破

  外汇管理部门与公安机关日前在甘肃联合破获一起特大地下钱庄案件,涉案金额高达756亿元,沉重打击了...
10-12 14:06:17
强降雨致山西因灾死亡15人 直接经济损失50.29亿元

强降雨致山西因灾死亡15人 直接经济损失50.29亿元

  今天(10月12日)上午10时,山西省召开防汛救灾新闻发布会,通报相关情况。  记者今天从山西省人民...
10-12 14:06:17
强降雨致山西因灾死亡15人 直接经济损失50.29亿元

强降雨致山西因灾死亡15人 直接经济损失50.29亿元

  中新网10月12日电 10月12日,山西省召开防汛救灾新闻发布会,通报相关情况。据介绍,截至目前,此...
10-12 14:06:17
特写:养老院的78位老人:雨过天晴,我们回家

特写:养老院的78位老人:雨过天晴,我们回家

  中新网晋中10月12日电 题:养老院的78位老人:雨过天晴,我们回家  中新网记者 杨杰英  “洪...
10-12 14:06:17
新型诈骗套路难防“领导”喊你转账,转吗?

新型诈骗套路难防“领导”喊你转账,转吗?

  “领导”加你微信,关心你的工作和生活,还约你到他办公室安排工作?先别激动,这可能是一场网络骗...
10-12 14:06:17

为您推荐

精彩推送