简单生活

Simple life , it's as easy as 1,2,3...

搜索引擎蜘蛛爬虫一览

今天分析研究了两个网站的Apache日志,分析日志虽然很无聊,但却是很有意义的事情,比如跟踪spam的user agent。顺便整理出一些搜索引擎爬虫的user agent,在这里分享一下。

微软

"msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)"
msnbot,大多数已经被bingbot替代了,现在偶尔还可以看到。

"Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"
bing,必应

搜搜

"Sosospider+(+http://help.soso.com/webspider.htm)"
腾讯搜搜

"Sosoimagespider+(+http://help.soso.com/soso-image-spider.htm)"
搜搜图片

阅读全文...

向国内外各大搜索引擎提交sitemap

Sitemap是一个xml格式的文件,提供url方便搜索引擎抓取网站的网页,是SEO(搜索引擎优化)的基础工作。最近在优化公司的英文网站,这里收集整理了一些搜索引擎的sitemap提交地址。

1、腾讯搜搜http://open.soso.com/sitemap/

搜搜开放平台提供了提交sitemap的功能。

2、百度http://sitemap.baidu.com/

百度站长平台,期待很久了,可惜一直在内测中。暂时无法提交。

3、雅虎中国http://sitemap.cn.yahoo.com/

雅虎中国的站长工具很早就提供了提交sitemap的功能,还支持rss。

阅读全文...

Google MP3搜索与正版音乐

盛传已久的Google MP3搜索终于于近日出炉了,这肯定是近期的焦点话题。有道的MP3搜索也是上线不久,受关注程度自然不如Google。

Google采用与巨鲸网合作的方式,提供正版MP3搜索,这种方式的好处在于,省去了一些版权方面的麻烦。所谓正版,就是很多歌曲不能提供下载。同样提供MP3音乐搜索,有道采取的方式和百度类似,搜索结果很好,甚至优于百度。

在中国这种全民版权意识单薄的地方,我们都已经习惯享受免费的网络大餐了。不管是百度、有道、搜刮等MP3搜索引擎,还是酷狗等P2P软件,只要简单的搜索,可以享受免费MP3,无所谓正版和盗版...

阅读全文...

这就是国内门户的胸怀

sina163

如果你常常使用在线阅读器,想必你一定熟悉上面的几幅图片了。如果你对HTTP会话有少许了解,你可能知道这是根据Referer实现反盗链的结 果。对于读者来说,这无论如何不是友好的用户界面,留给用户最深刻的印象是这些搜索巨擘和门户网站真的存在在那里,而且它们不买在线阅读器的账。

反观周围的世界,Flickr甚至是YouTube都为用户提供blog this的选择;Twitter让用户在线上和线下的任意时间地点使用自己的服务;哪吒把用户选择的信息推送到用户选择的客户端;连微软也在鼓励用户开发Sidebar gadgets;大量的网站开放API来与他人mash-up……国内的门户们身处Web 2.0大潮中如此逆潮流而动,展示了多么宽广的胸襟?节省了一点儿可怜的服务器资源,让用户的用户在这样的图片面前叹息,又塑造了多么高大的形象?

面对如此自决于人民的做法,为读者负责任的用户也许还能做的只有搬家。

阅读全文...

轻松查看近期搜索引擎收录情况

每天查看搜索引擎对网站收录的情况,是我们作为站长的工作之一。长期跟踪,可以琢磨出一些搜索引擎的“脾气”,例如喜欢怎样的更新频率、收录和更新频率有多大的关系等。那如何方便的查看搜索引擎最近一天的收录情况呢?下面分享我的方法——利用“高级搜索”查看24小时内的收录情况。这里以百度为例,其他搜索引擎稍有变化。1. 进入百度的高级搜索页面:http://www.baidu.com/gaoji/advanced.html 2...

阅读全文...

[转]Google搜索引擎优化圣经

让我们跳过理论来看看实际对Google有效的方法。我知道下面的这个系统对Google来说,每一次都有效,而且对所有的关键词都有效。这个系统是我给客户做网站时所应用的,而且百试不爽。成功的程度当然也取决于网站所在的行业,潜在市场和竞争水平。下面的要点可以让你仅仅依靠Google,在一 年的时间里,打造一个成功的网站。 

a)准备工作和建立内容

在你注册域名之前,你就应该记录下你的想法,应该准备足够100个网页的内容。请注意是至少。这100个网页应该是真正的内容,而不是链接页,关于我们页,联系我们或者版权声明等等杂七杂八的网页。 

b)域名

你应该选择一个很容易建立品牌的域名,你要的是google.com,而不是关键词.com。充斥关键词的域名应该被丢弃,易于建立品牌的和容易辩识的域名才是最好的。 

域名当中所包含的关键词作用现在非常之小。为什么goto.com改名为overture.com,那次改名是我所见过的,最大胆的策略之一。这个改名的策略摧毁了几年时间所建立的品牌。 

阅读全文...

robots.txt和Robots META标签应用详解

众所周知,搜索引擎都有自己的“搜索机器人”(Robots),通常也叫做“蜘蛛”(spider),并通过这些Robots在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。

对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被Robots抓取而公开。为了解决这个问题,Robots开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签。下面将对这两种方法进行详细的介绍。

一、 robots.txt
1、什么是robots.txt?
robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。
当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

http://www.i0554.com,根目录下的robots就是http://www.i0554.com/robots.txt

阅读全文...

免费提交你的网站到各大搜索引擎

提交你的网站到Google∶http://www.google.com/intl/zh-CN/add_url.html

提交你的网站到百度∶http://www.baidu.com/search/url_submit.html

提交你的网站到雅虎YAHOO∶http://search.help.cn.yahoo.com/h4_4.html

提交你的网站到ALEXA∶http://www.alexa.com/site/help/webmasters

提交你的网站到TOM搜索∶http://search.tom.com/tools/weblog/log.php

提交你的网站到有道:http://tellbot.youdao.com/report

提交你的网站到Bing:http://cn.bing.com/webmaster/SubmitSitePage.aspx

阅读全文...

分页:«1»
Powered By Z-Blog 1.8 Walle Build 91204
Copyright © 2007-2011 Wilf.cn. Some Rights Reserved