新闻公告
新闻动态
学院公告
商学院邀请高级数据架构师马奖博先生为我院学生做讲座
日期:2018-12-05 浏览次数: 字号:[ ]

11月23日上午8点到9点40分,应国际商学院的邀请,北京卓信智恒数据信息技术有限公司高级数据架构师马奖博先生在我校人文楼337教室为国际商学院本科生和研究生作“大学生科研中的数据自动化爬取”的讲座,由国际商学院财务管理系陈咏英老师主持。

首先,马先生对数据爬取工具——Python软件进行了简要的介绍。Python语言是少有的既简单又功能强大的编程语言,具有简单、易学、免费、开源、面向对象、可扩展、可嵌入等特色。Python简洁的语法和对动态输入的支持,再加上解释性语言的本质,使得它在大多数平台上的许多领域都是一个理想的脚本语言,适用于快速的应用程序开发。在Python中有4种类型的数:整数、长整数、浮点数和复数。.字符串需要使用单引号(')、双引号(")或三引号('''或""")标出。在Python中有三种控制流语句:if、for和while。函数通过def关键字进行定义。Python中有三种内建的数据结构:列表、元组和字典。


其次,马先生对同学们是否在笔记本电脑中成功地安装了Python进行了检查,对出现的问题进行了指导。为了达到实用的目的,讲座的前几天马先生就向同学们提供了自己写的Python安装指南,要求同学们提前完成软件的安装,并携带笔记本电脑听讲座。为使学生熟悉Python,马先生指导学生运用Python进行了加减乘除计算。此外,他还并以某知名图片网站为例,指导学生运用Python在该网站上进行图片的自动化爬取。

最后,马先生以如何在财经网站上爬取利润表数据为例,介绍了经管类数据的自动化爬取过程:首先应通过观察网页理清爬取思路,然后通过分析抓取表格内容,再运用正则表达式等方法爬取单页表格的数据并下载到本地,最后运用循环语句进行多页表格的爬取。马先生指出,为了能够灵活实现爬取任意类别和任意时期的报表数据,还需要对代码再进行一些加工,就可以构造出通用强大的爬虫程序了。

在讲座过程中,马先生经常走下讲台对同学们的操作进行逐一指导。多位同学与马先生进行了积极的互动交流,对网络数据的抓取表示了浓厚的兴趣。同学们从科研需要出发提出了多个数据抓取的问题。马先生均给予了耐心和热情的解答。本次讲座加深了我院学生对大学生科研数据自动化爬取的认识,同学们普遍感到受益匪浅。讲座在热烈的掌声中结束。

新闻动态
Produced By 大汉网络 大汉版通发布系统