英语写作语法之现在进行时
英语写作语法之现在进行时。(关注本站,持续更新基础英语考研资料,不定时发放英语大礼包)英语语法之现在进行时...
2025-02-19
读书笔记1: 《这就是搜索引擎》
第一:什么是搜索引擎?
搜索引擎是一个庞大而复杂的计算机程序,通过互联网收集信息并组织处理,提供用户查询服务(如百度、谷歌、好搜、搜狗等)。)
包括阿里巴巴集团的电商平台,易趣、亚马逊可以说是搜索引擎,但对于整个互联网来说,它们都是在现场,为用户提供有价值的信息。
史前一代:分类目录一代
而纯手工方式收集和整理网页,雅虎又是这个时代的代表作,所以这类网页一般都是高质量的;扩展,比如同时作为搜索引擎的种子站点,开始对互联网上的信息进行抓取,那么我们就可以让我们的网站尽可能的靠近种子站点,尽可能的把网站暴露给网络爬虫。
网页的文本相关性,比如通过布尔模型、向量空间模型、概率模型来判断查询关键词的相关性,这也是早年叠加关键词对网站排名如此有效的原因,以及关键词密度如何等。现在通过实践发现,如果出现关键词,就可以了,是否刻意安排密度对于排名的提升也没有那么重要。
第二代:链接分析生成
Web链接代表一种推荐关系。一个网站被引用的次数越多,对搜索引擎来说就越重要,这就相当于作为一个领导者投票。成为领导之后,你肯定会变得比其他一些人更重要,这也是为什么和群软件有这么多联系的原因。例如,在那个时候,昆虫非常有名。当然现在链接还是很重要的,尤其是高质量的外部链接。
以用户为中心的一代我理解搜索引擎会根据网站的流量动态调整网站的关键词排名,比如点击率、在时间,停留pv、uv、ip等。而前三项是作为排名数据的依据,所以我们往往不以原创为目标,而是以解决用户需求为目标;这一时期的软件由百度强奸犯主导,非常受欢迎。今天,百度点击器依然强势,不被提倡;做SEO,要以输出更多更好的内容和丰富的内容呈现形式为出发点,为用户和搜索引擎提供有价值的内容。
读书笔记2: 《搜索引擎原理_技术与系统》
1.搜索引擎的基本要求:毫秒级快速响应和匹配相关结果。
2、搜索引擎:大型网络应用软件,分布式计算,高效索引和存储技术。(搜索引擎的大部分时间都是高效的索引和存储技术,而不是天天跟SEO作对。).
3、搜索引擎的目的:为用户提供相关网页或其他信息(知识、新闻、视频、).
4.匹配:以某种形式包含搜索词的网页或其他信息。并产生一个列表,也就是我们最关心的排序。
5.用户输入不规则且简单:简单意味着抽象,抽象意味着更多的可能性(例如:苹果、手机、黄色)。搜索结果丰富多样。
7.用户行为:并不是所有的都会一次读完直到找到,用户基本不会查询超过2页,所以搜索引擎应该在2页中显示尽可能多的可能性。
二、网页收藏
2.Spider(负责工作):Spider是一个下载网页的小程序。
3.调度(提高效率):控制蜘蛛捕捉什么,捕捉页面的频率等等。
4.定期收集还是增量收集:搜索引擎会定期收集或者大幅度更新,增量收集是根据各个网站的更新速度。
6.种子站点(枢纽页):搜索引擎首先从种子站点开始抓取。种子网站是拥有大量优质网站的网站,如“好123”。
7.深度优先/广度优先:深度优先是首页-栏目页-内容页,内容沿着链接往深处爬;广度优先就是先抓住栏目页面,再抓住内容页面。
9、搜索引擎更新机制(更新快照):让搜索引擎认为是原创或伪原创可以加快更新速度。
10、(网站地图):添加要收录的好东西适合信息量大、信息量少的网站。网站地图允许蜘蛛在一个页面上找到英文搜索引擎大量的网址,其作用是吸引蜘蛛深入捕捉。
11.实时更新(搜索引擎/自有数据库):搜索引擎无法保证,所以有时网站的标题和摘要会发生变化,不会实时显示。
网页预处理的一般过程:
1、关键词抽取(去噪):噪声是网页中不重要的部分,与网站的主题无关,比如广告,通常用框架和JS调用。
2、切词,去掉stopword:如果口吃的话,stopword是语气词,基本上出现在网络上。
3.镜像网页的消除(完全一样):镜像网页和两个页面完全一样,所以设置了伪静态后,动态url要和文件一起禁止,可以防止蜘蛛黑洞。
4、节选(稍微额外编辑一下,叫近似镜像页面):搜索引擎会过滤掉这些(垃圾页面),比如节选、抄袭、收藏等。这不利于SEO优化。
5、链接分析(记录链接位置、相关性、锚文本):定义有效链接:标准A标签;会计算这个链接
当前页面的相关性,不相关就会被容易列为噪音版块。6,网页重要度计算(被应用的多就是重要的):被引用得多就是重要的,也就是外链(其中一个因素)。
7,建立索引:正排索引(页面到关键词)倒排索引(关键词到页面)。
预处理后得到的网页表现形式:
1,原始页面,url,标题;看不到的:文档编号,关键词集合和权值位置信息(词位),其他一些指标原始网页就是你的网页打不开了,但是快照是可以打开的,这个就是原始页面
3,网页类别(导航,需求,信息):导航类别查询:比如记不住网址,去搜索找官方网站这样子,比如“QQ下载”就是需求型;信息就是比如搜索“SEO是什么意思”...
4,查询词处理(切词,获取分类,排序)搜索引擎可以进行切词,然后组合关键词同时出现的就是用户搜索需求页面。
6,pr算法。
7,文档摘要(动态摘要)。
在成千上万的英语搜索引擎中,有7个搜索引擎最出名,但它们的匠心不同。了解它们各自的类型和搜索需求可以达到事半功倍的效果。
1、
搜索类型:关键词类型
搜索选项:(简单)或(高级)搜索,搜索后可以再次缩小搜索范围。可以使用布尔运算符“与”、“或”。
优点:用户界面友好,在线帮助文件齐全,搜索速度快,大小写和特殊名词都能识别,数据库最大,既可以搜索Web,也可以搜索internet。用户还可以将搜索结果页面翻译成几种语言。
它是一个快速强大的关键词搜索引擎,可以成功完成极其复杂的搜索,但用户首先要掌握它的各种选项。如果你对网络搜索是认真的,那么掌握好它是一个聪明的策略。AltaVista可以搜索包含多个单词的短语。你只需要把短语放在引号里,比如“healthcarefacilities”。AltaVista还有很多选项可以进一步深入搜索。它还可以分支到一个类似于目录的频道区域,称为“区域”,并对健康、新闻和旅游等类别进行广泛搜索。
2、兴奋
搜索类型:概念型和关键词型。Excite自称是一个“智能”搜索引擎。
搜索细化方法:建议多使用关键词,多做几个关键选择。可以搜索and或,AND优先于AND。
优点:搜索结果简明扼要。单击每个摘要旁边的图标,获取相似的交叉引用网页。指数很大。在搜索结果中,最前面最重要的字被高亮度区域突出显示,让人一目了然。
因为Excite是一个基于概念的搜索引擎,这意味着它会首先思考你的意思,而不仅仅是搜索你的单词,从而给Excite更大的灵活性。
3、信息搜索
搜索选项:简单,但功能强大。Infoseek现在使用Ultraseek软件引擎。该网页添加了一个用于搜索主题的通用目录。用户还可以搜索图像。
搜索细化方法:它区分大小写,没有布尔运算符,但是可以使用and-来帮助细化搜索。
优点:速度快,搜索结果给出网址并显示网址大小。允许用户使用大写字母和习惯用语。Infoseek还免费提供几个数据库,如股票报价、公司信息、电子邮件地址、各种参考资料,如字典和邮政编码指南。
缺点:简单复杂的中文可以直接用于全文搜索(网站选项),但包含的内容不够丰富。
Infoseek现在使用了一种新技术,它比以前的搜索引擎更大、更快、更准确。像雅虎、Lycos和Excite一样,Infoseek也提供网络指南。(未完待续)
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件至 201825640@qq.com举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
相关文章
英语写作语法之一般过去时。(关注本站,持续更新基础英语考研资料,不定时发放英语大礼包)英语语法之一般过去时前面给大家讲了一般现在时、现在进行时和一般将来时,今天...
2025-02-13
英语专业作文:朋友。为帮助大家做好四六级、专四专八、考研等各类英语考试的准备与复习,平台即日起推出英文写作系列,同时提供高分范文和范文音频,既可以背诵培养语感,...
2025-02-13
英语四六级作文:财富和成功。为帮助大家做好四六级、专四专八、考研等各类英语考试的准备与复习,平台即日起推出英文写作系列,同时提供高分范文和范文音频,既可以背诵培...
2025-02-13
热评文章
英语四级作文范文
推荐一个免费英语在线学习网站【超实用】
学习机有用吗 用一暑假就知道
英语学习计划的作文 docx
英语视频免费学习 有那个好的平台可以推荐
有关保护环境的英语作文(幼儿园保护环境的美篇)