亚洲精品中文字幕无乱码_久久亚洲精品无码AV大片_最新国产免费Av网址_国产精品3级片

搜索引擎的特點有哪些分類

時間:2024-06-25 23:20:09 思穎 百科探秘 我要投稿
  • 相關(guān)推薦

搜索引擎的特點有哪些分類

  搜索引擎是指根據(jù)一定的策略、運用特定的計算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。下面是百分網(wǎng)小編給大家整理的搜索引擎的特點簡介,希望能幫到大家!

  搜索引擎的特點

  (1)、純技術(shù)型的全文檢索搜索引擎原理是通過機(jī)器手(即spider程序,也叫蜘蛛)到各個網(wǎng)站收集、存儲信息,并建立索引數(shù)據(jù)庫供用戶查詢。因而,數(shù)量大,更新快,但準(zhǔn)確率不高。如大家經(jīng)常使用的百度、谷歌的網(wǎng)頁搜索都屬于純技術(shù)型的。

  (2)、分類目錄并不采集網(wǎng)站任何信息,而是利用各網(wǎng)站向“搜索引擎”提交網(wǎng)站信息,如填寫的關(guān)鍵詞和網(wǎng)站描述等資料,經(jīng)過人工審核編輯后,符合網(wǎng)站登錄的條件,則錄入數(shù)據(jù)以供查詢。因而,搜索結(jié)果相關(guān)性高,但數(shù)據(jù)量及更新度都不及前者。比如常用的亞馬遜分類目錄就是此類。

  搜索引擎的分類

  目錄索引

  目錄索引也稱為:分類檢索,是因特網(wǎng)上最早提供WWW資源查詢的服務(wù),主要通過搜集和整理因特網(wǎng)的資源,根據(jù)搜索到網(wǎng)頁的內(nèi)容,將其網(wǎng)址分配到相關(guān)分類主題目錄的不同層次的類目之下,形成像圖書館目錄一樣的分類樹形結(jié)構(gòu)索引。目錄索引無需輸入任何文字,只要根據(jù)網(wǎng)站提供的主題分類目錄,層層點擊進(jìn)入,便可查到所需的網(wǎng)絡(luò)信息資源。

  雖然有搜索功能,但嚴(yán)格意義上不能稱為真正的搜索引擎,只是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以按照分類目錄找到所需要的信息,不依靠關(guān)鍵詞(Keywords)進(jìn)行查詢。

  與全文搜索引擎相比,目錄索引有許多不同之處。

  首先,搜索引擎屬于自動網(wǎng)站檢索,而目錄索引則完全依賴手工操作。用戶提交網(wǎng)站后,目錄編輯人員會親自瀏覽你的網(wǎng)站,然后根據(jù)一套自定的評判標(biāo)準(zhǔn)甚至編輯人員的主觀印象,決定是否接納你的網(wǎng)站。其次,搜索引擎收錄網(wǎng)站時,只要網(wǎng)站本身沒有違反有關(guān)的規(guī)則,一般都能登錄成功;而目錄索引對網(wǎng)站的要求則高得多,有時即使登錄多次也不一定成功。尤其像Yahoo這樣的超級索引,登錄更是困難。

  此外,在登錄搜索引擎時,一般不用考慮網(wǎng)站的分類問題,而登錄目錄索引時則必須將網(wǎng)站放在一個最合適的目錄(Directory)。

  最后,搜索引擎中各網(wǎng)站的有關(guān)信息都是從用戶網(wǎng)頁中自動提取的,所以用戶的角度看,我們擁有更多的自主權(quán);而目錄索引則要求必須手工另外填寫網(wǎng)站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認(rèn)為你提交網(wǎng)站的目錄、網(wǎng)站信息不合適,他可以隨時對其進(jìn)行調(diào)整,當(dāng)然事先是不會和你商量的。

  搜索引擎與目錄索引有相互融合滲透的趨勢。一些純粹的全文搜索引擎也提供目錄搜索,如Google就借用Open Directory目錄提供分類查詢。而像Yahoo! ;這些老牌目錄索引則通過與Google等搜索引擎合作擴(kuò)大搜索范圍(注)。在默認(rèn)搜索模式下,一些目錄類搜索引擎首先返回的是自己目錄中匹配的網(wǎng)站,如中國的搜狐、新浪、網(wǎng)易等;而另外一些則默認(rèn)的是網(wǎng)頁搜索,如Yahoo。這種引擎的特點是找的準(zhǔn)確率比較高。

  全文索引

  搜索引擎分類部分提到過全文搜索引擎從網(wǎng)站提取信息建立網(wǎng)頁數(shù)據(jù)庫的概念。搜索引擎的自動信息搜集功能分兩種。一種是定期搜索,即每隔一段時間(比如Google一般是28天),搜索引擎主動派出“蜘蛛”程序,對一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)網(wǎng)站進(jìn)行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會自動提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫。另一種是提交網(wǎng)站搜索,即網(wǎng)站擁有者主動向搜索引擎提交網(wǎng)址,它在一定時間內(nèi)(2天到數(shù)月不等)定向向你的網(wǎng)站派出“蜘蛛”程序,掃描你的網(wǎng)站并將有關(guān)信息存入數(shù)據(jù)庫,以備用戶查詢。隨著搜索引擎索引規(guī)則發(fā)生很大變化,主動提交網(wǎng)址并不保證你的網(wǎng)站能進(jìn)入搜索引擎數(shù)據(jù)庫,最好的辦法是多獲得一些外部鏈接,讓搜索引擎有更多機(jī)會找到你并自動將你的網(wǎng)站收錄。

  當(dāng)用戶以關(guān)鍵詞查找信息時,搜索引擎會在數(shù)據(jù)庫中進(jìn)行搜尋,如果找到與用戶要求內(nèi)容相符的網(wǎng)站,便采用特殊的算法——通常根據(jù)網(wǎng)頁中關(guān)鍵詞的匹配程度、出現(xiàn)的位置、頻次、鏈接質(zhì)量——計算出各網(wǎng)頁的相關(guān)度及排名等級,然后根據(jù)關(guān)聯(lián)度高低,按順序?qū)⑦@些網(wǎng)頁鏈接返回給用戶。這種引擎的特點是搜全率比較高。

  元搜索

  元搜索引擎(METASearch Engine)接受用戶查詢請求后,同時在多個搜索引擎上搜索,并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來源排列搜索結(jié)果,如Dogpile;有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo。

  搜索引擎的工作原理

  第一步:爬行

  搜索引擎是通過一種特定規(guī)律的軟件跟蹤網(wǎng)頁的鏈接,從一個鏈接爬到另外一個鏈接,像蜘蛛在蜘蛛網(wǎng)上爬行一樣,所以被稱為“蜘蛛”也被稱為“機(jī)器人”。搜索引擎蜘蛛的爬行是被輸入了一定的規(guī)則的,它需要遵從一些命令或文件的內(nèi)容。

  第二步:抓取存儲

  搜索引擎是通過蜘蛛跟蹤鏈接爬行到網(wǎng)頁,并將爬行的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫。其中的頁面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全一樣的。搜索引擎蜘蛛在抓取頁面時,也做一定的重復(fù)內(nèi)容檢測,一旦遇到權(quán)重很低的網(wǎng)站上有大量抄襲、采集或者復(fù)制的內(nèi)容,很可能就不再爬行。

  第三步:預(yù)處理

  搜索引擎將蜘蛛抓取回來的頁面,進(jìn)行各種步驟的預(yù)處理。

 、碧崛∥淖

 、仓形姆衷~

 、橙ネV乖~

 、聪胍(搜索引擎需要識別并消除這些噪聲,比如版權(quán)聲明文字、導(dǎo)航條、廣告等……)

  5.正向索引

  6.倒排索引

  7.鏈接關(guān)系計算

  8.特殊文件處理

  除了HTML 文件外,搜索引擎通常還能抓取和索引以文字為基礎(chǔ)的多種文件類型,如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我們在搜索結(jié)果中也經(jīng)常會看到這些文件類型。 但搜索引擎還不能處理圖片、視頻、Flash 這類非文字內(nèi)容,也不能執(zhí)行腳本和程序。

  第四步:排名

  用戶在搜索框輸入關(guān)鍵詞后,排名程序調(diào)用索引庫數(shù)據(jù),計算排名顯示給用戶,排名過程與用戶直接互動的。但是,由于搜索引擎的數(shù)據(jù)量龐大,雖然能達(dá)到每日都有小的更新,但是一般情況搜索引擎的排名規(guī)則都是根據(jù)日、周、月階段性不同幅度的更新。

  選擇

  與網(wǎng)站內(nèi)容相關(guān)

  搜索次數(shù)多,競爭小

  主關(guān)鍵詞,不可太寬泛

  主關(guān)鍵詞,不太特殊

  商業(yè)價值

  提取文字

  中文分詞

  去停止詞

  消除噪聲

  去重

  正向索引

  倒排索引

  鏈接關(guān)系計算

  特殊文件處理

  搜索引擎網(wǎng)站:

  1.國內(nèi)的搜索引擎網(wǎng)站大全

  百度搜索(推薦),使用人數(shù)最多,搜索結(jié)果最多的中文搜索引擎網(wǎng)站。網(wǎng)址:https://www.baidu.com/

  搜狗搜索網(wǎng)址:https://www.sogou.com/

  360搜索網(wǎng)址:https://quark.sm.cn/

  夸克/神馬搜索,使用夸克/神馬手機(jī)瀏覽器就是夸克/神馬搜索,網(wǎng)址:https://quark.sm.cn/

  頭條搜索網(wǎng)址:https://www.toutiao.com/

  中國搜索,搜索結(jié)果基本都是來自各大官方權(quán)威新聞?wù)军c,比較適合用來搜索新聞資訊類內(nèi)容。網(wǎng)址:https://www.chinaso.com/

  無追搜索,360推出的不被追蹤的搜索引擎。網(wǎng)址:https://www.wuzhuiso.com/

  2.國外搜索引擎網(wǎng)站大全

  谷歌搜索(推薦),全球使用人數(shù)最多的搜索引擎網(wǎng)站,各種語言內(nèi)容都可以搜索。網(wǎng)址:https://www.google.com/(國內(nèi)無法直接訪問,需要查找學(xué)習(xí)資料的可以使用鏡像站)

  bing搜索,微軟旗下的搜索引擎網(wǎng)站,edge瀏覽器默認(rèn)就是bing搜索,不喜歡的可以修改為其他搜索引擎(搜索中文內(nèi)容沒有百度好)。網(wǎng)址:https://cn.bing.com/(可以選擇國內(nèi)版或者國際版搜索)

  Yandex,俄羅斯最大的搜索引擎。網(wǎng)址:https://yandex.com/

  德國ecosia搜索引擎:https://www.ecosia.org/

  Nona德國搜索引擎:https://www.nona.de/

  法國搜索引擎qwant:https://www.qwant.com/

【搜索引擎的特點有哪些分類】相關(guān)文章:

齒輪的特點有哪些分類10-24

寶石的特點有哪些分類03-14

海報的特點有哪些分類種類06-08

化學(xué)有哪些特點09-02

散文的特點有哪些10-19

混凝土有哪些分類09-15

茶葉的分類有哪些09-13

plc的特點有哪些種類12-08

北宋的繪畫特點有哪些09-20

意境的特點有哪些特征10-14