经过上篇文章《网络推广中关于搜索引擎是如何处理关键词的几点,你还不知道吗?》,搜索引擎就能得到独特的,能反映页面主要内容的,以词为单位的内容。
然后搜索引擎程序将上边提取到的关键词通过分词程序来划分好,把每一个网站页面都转化为一个关键词组成的集合关键词排名y原理3!同时记录下每一个关键词在该页面上出现的频率、次数、格式(比如:标题标签、黑体、H标签、锚文本等)位置(第几段),这些都已权重的形式记录在下来!然后放到一个地方,这个地方就是专门放置这些组合词的词表结构——索引库!也交做“词表索引形式”。
什么是正向索引:
每一个文件夹都对应一个ID,文件内容被表示为一串关键词的集合!在搜索引擎的索引库中,这时候关键词已经别转化成了关键词ID,这样的数据结构叫正向索引!
给大家画一张图就明白了:
文件ID内容
文件夹1关键词1,关键词2,关键词7,关键词10……关键词L
文件夹2关键词2,关键词7,关键词30……关键词M
文件夹3关键词2,关键词70,关键词35……关键词N
…………………………
文件夹7关键词2,关键词7,……关键词X
……………………
文件夹X关键词7,关键词50.,关键词Y
什么是倒排索引呢?
因为正向索引不能直接用于排名!比如:用户搜索某一关键词2,如果只从在正向索引,只能找到包含该关键词的文件夹,不能实际的返回排名关键词排名y原理3;这时候就会用到倒排索引了
在倒排索引中关键词变成了主键,每个关键词对应一系列文件,每一个文件都出现了要搜索的关键词,这样用户在搜索某一个关键词的的时候,排序程序就能在倒排列表中找到这个关键词对应的文件!
详细请看图:
关键词文件
关键词1文件1文件2,文件17,文件110……文件L
关键词2文件2,文件7,文件30……文件B
关键词3文件2,文件7,文件30……文件U
…………………………
关键词6文件21,文件70,文件300……文件K
……………………
关键词7文件12,文件27,文件3……文件L
特殊文件的处理:
搜索引擎除了抓取HTNL文件还可以抓取以下文件类型:PDF,Word,WPS,PPT,TXT等这些文件,不过注意的是:搜索引擎还不能抓取图片、视频、Flash这类文字内容,也不能执行脚本和程序!所以在SEO的时候,你网站上面尽量少用这些!
链接关系的计算:
当搜索引擎抓取了页面后,还必须事先计算出页面上有哪些链接指向哪些页面。每个页面又有哪些导入链接,链接使用的什么锚文字,正是这些复杂的链接指向关系形式形成了网站和页面的链接权重!例如:google的PR值就是这些关系的重要体现。
以上分享文字是个人观点,如果你觉得小编的文章还不错,可以点击关注,关注我的头条号,有问题可评论讨论学习。
时刻钟