查看原文
其他

文本分析在经管领域中的应用概述

大邓 大邓和他的Python 2022-07-09


Python数据挖掘与文本分析&Stata应用能力提升与实证前沿云特训

Python部分上课时间为6月29日-7月2日,感兴趣的童鞋欢迎关注



在大数据的今天,通过互联网超文本链接,无数的个人、团体、公司、政府等不同组织形态的主体均深深嵌入到互联网世界,在网络世界中留下了大量的文本。社会、管理、经济、营销、金融等不同学科,均可以研究网络上海量的文本,扩宽的研究对象和研究领域。下面大部分内容是三份文档翻译汇总而来,我觉得讲的挺明白的,其中加入了我的一点点理解和扩充。

一、文本产生及其作用方式

  • How text reflects its producer?
  • How text impacts its receiver?

文本信息的 生产者producer消费者receiver ,涵盖 个人、公司(组织)、国家(社会) 三个层面。

需要注意的是文本的 反映reflects影响impacts 并不是非此即彼,往往会同时起作用。

二、如何使用文本数据

三、文本信息的指标

粗略的分,文本信息可以分为定性与定量两种类型

早先的营销领域,如在线评论文本分析指标多为

  • 数量,如文本长度(e.g., Godes and Mayzlin 2004; Moe and Trusov2011)
  • 情感得分(效价,评论评分) (e.g., Godes and Silva 2012; Moe and Schweidel 2012; Ying, Feinberg and Wedel 2006)·
  • 方差,如信息墒(e.g., Godes and Mayzlin 2004).

然而如今这些指标经常忽略了文本的丰富度。以下几种是更好用的指标

四、文本分析步骤

五、文本分析技术对比

从左向右,自动化程度越来越高,人工介入的越来越少

据被压缩成词组频数,定性的文本数据转化为定量的频数。本课程中会涉及到的内容(x到的部分)

  • [ ] Thematic Analysis 定性
  • [x] Content Analysis
  • [x] Dictionary
  • [x] Bag of words 词袋法
  • [x] Supervised ,监督学习 文本分类问题
  • [x] Unsupervised,如非监督LDA话题模型
  • [ ] Natural language processing

相关文献

[1]Berger, Jonah, Ashlee Humphreys, Stephan Ludwig, Wendy W. Moe, Oded Netzer, and David A. Schweidel. "Uniting the tribes: Using text for marketing insight." Journal of Marketing (2019): 0022242919873106.

[2]Kenneth Benoit. July 16, 2019. “[Text as Data: An Overview](https://kenbenoit.net/pdfs/28 Benoit Text as Data draft 2.pdf).” Forthcoming in Cuirini, Luigi and Robert Franzese, eds. Handbook of Research Methods in Political Science and International Relations. Thousand Oaks: Sage.

[3]Banks, George C., Haley M. Woznyj, Ryan S. Wesslen, and Roxanne L. Ross. "A review of best practice recommendations for text analysis in R (and a user-friendly app)." Journal of Business and Psychology 33, no. 4 (2018): 445-459.

往期文章

Python语法快速入门  

Python网络爬虫与文本数据分析

读完本文你就了解什么是文本分析

综述:文本分析在市场营销研究中的应用

R语言dplyr包实操

小案例: Pandas的apply方法

从记者的Twitter关注看他们稿件的党派倾向?

Pandas时间序列数据操作

70G上市公司定期报告数据集

文本数据清洗之正则表达式

shreport库: 批量下载上海证券交易所上市公司年报

Numpy和Pandas性能改善的方法和技巧

漂亮~pandas可以无缝衔接Bokeh

YelpDaset: 酒店管理类数据集10+G

半个小时学会Markdown标记语法


后台回复关键词【文本分析论文】,可获得文本分析相关文献

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存