关于爬虫的WEB前端知识,你知道吗?

x
用微信扫描二维码
分享至好友和朋友圈

  

  大数据时代下,数据采集推动着数据分析,数据分析推动发展。但是在这个过程中会出现很多问题。拿最简单最基础的爬虫采集数据为例,过程中就会面临,IP被封,爬取受限、违法操作等多种问题,所以在爬去数据之前,一定要了解好预爬网站是否涉及违法操作,找到合适的代理IP访问网站等一系列问题。

  下面我们来详细聊聊WEB有关的爬虫。

  W3C标准

  W3C——万维网联盟,最具权威的技术标准机构。网页主要是由三部分组成:结构(structure)、表现(Presentation)、行为(Behavior)。

  2.结构的标准语言——XHTML、XML

  表现的标准语言——CSS

  行为包括——ECMAScript(JS的标准)

  HTML

  文本标记语言

  <html>content</html> HTML文档标记,出现在网页开始儿和结束。

  <head>conten</head> 头文件基本信息,此处的内容不会出现在浏览器中。

  <meta>content</meta>网页的元信息,存放一些关键词,必须放在<head></head>之中。

  <body>content<\body> 网页主题部分 里面还有很多·<p> <br> <hr>等标记。

  <title>content</title> 网页的标题。

  更多标记可以参考W3school教程

  CSS

  层叠样式表(Cascading Style Sheets),用于定义如何显示HTML元素。该样式表的目的是为了解决内容与表现分离的问题。

  HTML中使用CSS的三种做法:

  1.内联样式表:直接写进HTML标记中,使用style属性改变样式。例如:

  <body ></body>

  2.嵌入样式表:把CSS样式代码写在<style type="text/css"></style>之间,一般放在<head></head>之间。

  3.外部样式表:把CSS代码写在一个css文件中,然后在<head>中使用<link>标记引用过来。例如:

  <link rel="StyleSheet"type="text/css"href="style.css">

  CSS规则主要构成:CSS选择器和一条或多条声明。

  CSS选择器有三种定义方式:

  HTML标记定义:CSS中定义: p{属性:属性值;……},则p可以成为选择器。

  ID选择器:HTML以ID属性来设置ID选择器,在CSS中以#来定义,比如#word{text-align:center;color:red},设置ID为word的元素为居中,颜色为红色。

  class选择器:有别于ID选择器,它可以在多个元素中使用。在CSS中以.来表示,例如:.center{text-align:center}将所有拥有center类的HTML元素设为居中。

  JavaScript

  两种引用方式:

  1.直接插入代码<script type="text/javascript">alert('hello world')</script>

  2.外部引用js文件:<script src="js/jquery.js"></scrpit>

  XPath

  XPath是被设计来搜寻XML文档的,不过它也能很好地用在HTML文档中工作。在Python爬虫开发中,经常使用XPath查找提取网页中地信息。

  芝麻HTTP为您提供安全稳定、高效便捷的爬虫代理IP服务。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

跟贴 跟贴 1 参与 1
© 1997-2020 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 侵权投诉 Reporting Infringements | 不良信息举报

芝麻软件

芝麻软件提供专业级服务

头像

芝麻软件

芝麻软件提供专业级服务

160

篇文章

25

人关注

列表加载中...
请登录后再关注
x

用户登录

网易通行证/邮箱用户可以直接登录:
忘记密码