2020年5月4日星期一

文本(数据)挖掘的基本步骤,技术和应用 Text (Data) Mining Steps, Techniques and Applications


文本(数据)挖掘(也称为文本分析)是一种人工智能(AI)技术,使用自然语言处理(NLP)将文档和数据库中的非结构化文本数据转换为结构化的文本数据,使它们适合分析。

对于企业而言,通过分析电子邮件,产品评论,社交媒体帖子,客户反馈等渠道获得大量数据,但是这些数据是非结构化的,不经过处理,对于企业是毫无意义的。


                        

文本挖掘的基本步骤


从多个数据源(例如纯文本,网页,pdf文件,电子邮件和博客)收集非结构化数据。

执行预处理,检测并消除数据中的异常。 数据清理使您可以提取和保留隐藏在数据中的有价值的信息,并帮助识别特定单词的词根。

从非结构化数据中提取的相关信息转换为结构化格式。

通过管理信息系统(MIS)分析数据中的模式。

把分析后的,具有价值的信息存储到安全的数据库中。

至此,企业获得的数据是对于决策有帮助的。

文本挖掘工具


文本挖掘使用的工具是自然语言处理, 这个过程就是把这些非结构化的数据转换为机器可以理解的信息,并且进行分类 。文本挖掘技术,使得企业能够处理大量的非结构化的数据,减少重复性的工作。

自然语言处理
通过模拟人类理解自然语言(如英语,中文)的能力,来帮助机器“阅读”文本(或其他输入,例如语音)。自然语言处理包括自然语言理解和自然语言生成,后者模拟人类创建自然语言文本,例如,总结信息或参加对话。Google的语音搜索就是采用自然语言处理来理解和响应用户的要求。

机器学习
是一种人工智能(AI)技术,它使系统能够自动从经验中学习,而无需编程,并且可以帮助解决复杂的问题。自然语言处理可以提取驱动机器学习中所需的干净,结构化的数据,而不再需要费时费力的手动注释。


目前的自然语言处理系统的特点
能够分析大量的基于文本的数据
理解复杂的语义,保持连贯性
提取关键事实,提供摘要

文本挖掘所使用的技术

基本技术

词频统计
可用于识别数据中最经常出现的术语,名词。 在分析客户评论,意见反馈时,经常用到,像价格便宜,服务周到,回复及时等,这些类似的词语经常出现,则表示顾客对公司的这些项目是满意的。

高级技术

抽取
是从大量文本数据中提取有意义的信息的过程,这种技术着重于从半结构化或非结构化文本中识别属性及其关系。 然后,把提取到的信息储存在数据库中,以供将来访问。

分类
是给非结构化文本数据分配类别或标签的过程。通过自然语言处理使构造复杂的文本变得容易,将其转变为有意义的数据。

总结
是浏览多个文本源,以简洁的格式制作包含大量信息的文本摘要,并保持原始文档的整体含义基本相同。


文本挖掘的应用领域


文本挖掘被广泛应用在商业,政府,医疗保健等领域。

商业
客户服务, 市场调查, 风险管理, 商业智能,战略分析,财务保险, 零售

客户服务
应用于客户服务的软件能够通过对各种来源的文本数据的分析来提高客户体验,像是解决投诉,减少电话等待,缩短回复时间等。

商业智能
利用文本挖掘技术,公司可以了解竞争对手的优势,劣势,以制定相应的策略。对于自己客户的行为,习惯,喜好的分析,能够开发个性化的产品和实施更有效的销售策略。

结论


文本挖掘使用自然语言处理,机器学习等技术有效,快速地处理大量非结构化的数据,使它们变成有价值的信息,从而提高各行业的效率。



#文本挖掘 #自然语言处理 #机器学习 #词频 #信息抽取

Source : What is Text Mining: Techniques and Applications

没有评论:

发表评论

大数据技术的发展帮助企业更加了解客户 The Development of Big Data Technology Helps Companies Understand Customers Better

现在大数据的应用已经无处不在, 几乎所有的网站和应用程序都在跟踪和记录用户的行为, 用于以后对用户的行为进行分析。 大数据技术包括数据收集,整理,分析以及创建用户行为模式, 只有这样大数据才对企业有价值。 大数据应用程序的开发为更高级别的市场研究,产品开发,用户获取,营销奠定了基...