自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 Python爬虫实例:爬取 viveport 上 1406 款VR游戏信息

这次我们准备爬取 HTC VIVE 的VR内容平台——Viveport,上面有 1406 款优质的 VR 游戏/应用,本次我们的目标就是把这些游戏的详细信息爬取下来。 首先我们去该网站看一下(https://www.viveport.com),网站的主页长这样。 VIVEPORT 网站主页 ...

2018-10-28 15:59:24 4877 0

原创 Python爬虫实例: 爬取“最好大学网”大学排名

实例2 爬取大学排名 上海交通大学设计了一个“最好大学网”,上面列出了当前的大学排名。我们要设计爬虫程序,爬取大学排名信息。 爬虫功能要求: 输入:大学排名URL链接输出:大学排名信息的屏幕输出(排名,大学名称,总分)工具:python3、requests、beautifulsoup 程序...

2018-10-25 17:52:59 8512 0

原创 【程序人生】 第一届国际虚拟现实技术及应用创新大赛

上周末去青岛参加VR大赛,于我而言,获奖倒是其次,更重要的在于学习交流,通过这个机会可以了解来自全国各地的其他团队所作的研究,一方面可以拓展我们的思路,另一方面,也可以让我们认识到自己跟强队之间的差距。 这次比赛高校组共61支队伍,分三个会场答辩(由于比赛过程中不允许同会场的小组旁听,所以好几个...

2018-10-24 23:45:54 4854 0

原创 网络爬虫笔记【8】 应用 BeautifulSoup 库解析网页内容

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库,它能够通过你喜欢的 parser 实现文档导航、查找、修改文档的 parser tree。Beautiful Soup 会帮你节省数小时甚至数天的工作时间. 使用 lxml parser 解析 HTML 并...

2018-10-24 16:40:45 5006 0

原创 网络爬虫笔记【7】 利用 XPATH 实现 XML 和 HTML 文本信息提取

XML(Extensible Markup Language)指可扩展标记语言,被设计用来传输和存储数据。详细信息可参考 http://www.w3school.com.cn/xml。 HTML指的是超文本标记语言 (Hyper Text Markup Language),是WWW上用于编写网页的...

2018-10-23 15:19:23 5516 0

原创 网络爬虫笔记【6】 Python 中的正则表达式模块与应用

python3 内置的 re 模块,包含了正则表达式的操作集。 re 模块的一般使用步骤如下: 编译正则表达式,即使用 compile() 函数将正则表达式的字符串形式编译为一个 Pattern 对象。 对目标字符串进行匹配,即通过 Pattern 对象提供的一些列方法对文本进行匹配查找,获得...

2018-10-23 11:51:45 5351 0

原创 网络爬虫笔记【5】 信息解析与提取和正则表达式

前面我们学了爬虫,可以成功的爬取整个网页的内容,但是通常而言,网页中差不多 90% 的内容对于我们来说都是没有用的。所以后面我们会去学习如何从爬到的数据中,准确地找到我们所需要的数据,掌握信息解析和提取的方法。 一、信息解析与提取的一般方法(思路) 1. 完整解析信息的标记形式,再提取关键信息 -...

2018-10-21 21:14:34 5104 0

原创 网络爬虫笔记【4】 掌握获取 Ajax 异步加载网页内容的方法

AJAX(Asynchronous Javascript and XML,异步的 Javascript 和 XML)。AJAX 最大的优点是在不重新加载整个页面的情况下,可以与服务器交换数据并更新部分网页的内容。 我们以 豆瓣电影 为例,打开网页之后,按 F12 ,在 Network 中监控一下...

2018-10-19 22:11:17 5415 0

原创 网络爬虫笔记 :一个简单的爬虫框架

学了两节课的 Python 爬虫,也算是入门了吧。敲了两天的案例代码之后,我突然发现,这些代码虽然功能不同,写法各异,但是终归是有章可循的,整体框架是一致的。所以我自己整理了一个简单的爬虫框架,适合初学者学习时参考。 import urllib.request import urllib.pars...

2018-10-19 16:13:19 5100 0

原创 网络爬虫笔记【3】 使用代理防止本机 IP 被封

使用代理是对抗反爬虫机制的常用做法。很多网站会检测某一段时间某个外来 IP 地址对服务器的访问次数等信息。如果访问次数或方式不符合安全策略,就会禁止该外来 IP 对服务器的访问。所以,爬虫设计者可以用一些代理服务器,使自己真实 IP 地址被隐藏,免于被禁止。 urllib 中使用 ProxyHa...

2018-10-18 20:55:36 6359 0

原创 网络爬虫笔记【2】 如何通过 HTTP 认证

登陆网页前遇到的要求输入用户名和密码的程序,通常称为身份认证程序。HTTP 认证可以保护一个作用域(成为一个 realm)内的资源不受非法访问。当一个请求要求取得受保护的资源时,网页服务器回应一个 401 Unauthorized error 错误码。这个回应包含了一个指定验证方法和领域的 WWW...

2018-10-18 20:52:29 5342 1

原创 Python爬虫实例:从百度贴吧下载多页话题内容

上周网络爬虫课程中,留了一个实践:从百度贴吧下载多页话题内容。我完成的是从贴吧中一个帖子中爬取多页内容,与老师题目要求的从贴吧中爬取多页话题还是有一定区别的,况且,在老师讲评之后,我瞬间就发现了自己跟老师代码之间的差距了,我在代码书写上还是存在很多不规范不严谨的地方,而且也没有体现出面向对象的思想...

2018-10-17 21:31:51 4963 0

原创 基于百度AI的文字转语音助手(Unity版)开发进度

前段时间一直忙别的事儿去了,这个项目压了好久。 挖坑篇请见:( http://www.smartcrane.club/2018/09/11/TTS.html )   当时做了一个“极简版”的(其实是在百度API的Demo的基础上改了改而已),只有一个按钮,把语音合成和保存的功能都挤到一个函数...

2018-10-17 14:50:34 6438 4

原创 爬虫学习笔记【1】 使用 urllib 获取 www 资源

1. 掌握普通网页的获取方法 查看 urllib.request 的基本信息 urllib.request 中最常用的方法是 urlopen() ,它也是我们使用 urllib 获取普通网页的基本方法。 在应用之前,我们先看一下 urllib 的源代码,这是从事IT软件类技术工作要养成的职业习...

2018-10-12 21:44:53 5331 1

原创 VR 火灾逃生体验系统可以怎么完善?

首先,将VR用作教学训练的价值在于实践模拟,而不是传授理论或概念,更难得的是VR有极高的容错率,它允许不断试错,鼓励从错误中获取经验。 目前我们的《高层火灾逃生体验》系统,虽说是“系统”,但是仅仅能勉强算是 DEMO 版,其中只是强制性的按照设定的流程体验,用户没有太多的自主选择,因为每次出...

2018-10-10 21:46:32 5493 0

提示
确定要删除当前文章?
取消 删除