国产真实乱子伦精品,国产精品100页,美女网站色免费,国产白嫩美女免费观看,欧美精品亚洲,欧美韩国xxx,欧美性猛交xxxxxxxx软件

阿里巴巴筆試記

時間:2024-07-21 02:08:39 資料大全 我要投稿
  • 相關(guān)推薦

阿里巴巴筆試記

考點(diǎn)(不分先后次序):

阿里巴巴筆試記

C++:1.關(guān)于DOM的描述;2.網(wǎng)絡(luò)蜘蛛系統(tǒng);3.UTF-8;4.數(shù)據(jù)庫檢索:查準(zhǔn)率和查全率;5.索引壓縮;6.設(shè)計(jì)cralwer;7.Trie樹查詢;8.HTML&HTTP協(xié)議;9.信息檢索模型;10.分布式通信協(xié)議;11.分布式搜索引擎;12.雙向循環(huán)鏈表;13.快速排序;14.32位系統(tǒng),

阿里巴巴筆試記

。

關(guān)于DOM的描述:

javascrip里面的dom(文檔對象模型)它是一種模型,將格式化文檔對象化處理。在xml和html 的處理中廣泛應(yīng)用。  //dom是定義超文本結(jié)構(gòu)的對象及方法,分層次的,有容器類的對象,也有基本元素對象,而這些對象,都包含有相應(yīng)的屬性和對應(yīng)的操作方法(接口)。

//一般而言,DOM結(jié)構(gòu)準(zhǔn)確地反映了HTML文檔所包含的內(nèi)容,也就是說,每個HTML標(biāo)記表現(xiàn)為一個標(biāo)記節(jié)點(diǎn)(tag node),每個文本項(xiàng)內(nèi)容表現(xiàn)為一個文本項(xiàng)節(jié)點(diǎn)(text node)。//是W3C組織推薦的處理可擴(kuò)展置標(biāo)語言的標(biāo)準(zhǔn)編程接口。

2. 網(wǎng)絡(luò)蜘蛛系統(tǒng)

網(wǎng)絡(luò)蜘蛛即Web Spider,是一個很形象的名字。把互聯(lián)網(wǎng)比喻成一個蜘蛛網(wǎng),那么Spider就是在網(wǎng)上爬來爬去的蜘蛛。網(wǎng)絡(luò)蜘蛛是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站某一個頁面(通常是首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。如果把整個互聯(lián)網(wǎng)當(dāng)成一個網(wǎng)站,那么網(wǎng)絡(luò)蜘蛛就可以用這個原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取下來。

對于搜索引擎來說,要抓取互聯(lián)網(wǎng)上所有的網(wǎng)頁幾乎是不可能的,從目前公布的數(shù)據(jù)來看,容量最大的搜索引擎也不過是抓取了整個網(wǎng)頁數(shù)量的百分之四十左右,

資料共享平臺

阿里巴巴筆試記》(http://www.shangyepx.com)。這其中的原因一方面是抓取技術(shù)的瓶頸,無法遍歷所有的網(wǎng)頁,有許多網(wǎng)頁無法從其它網(wǎng)頁的鏈接中找到;另一個原因是存儲技術(shù)和處理技術(shù)的問題,

在抓取網(wǎng)頁的時候,網(wǎng)絡(luò)蜘蛛一般有兩種策略:廣度優(yōu)先和深度優(yōu)先(如下圖所示)。廣度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁,然后再選擇其中的一個鏈接網(wǎng)頁,繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。這是最常用的方式,因?yàn)檫@個方法可以讓網(wǎng)絡(luò)蜘蛛并行處理,提高其抓取速度。深度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之后再轉(zhuǎn)入下一個起始頁,繼續(xù)跟蹤鏈接。這個方法有個優(yōu)點(diǎn)是網(wǎng)絡(luò)蜘蛛在設(shè)計(jì)的時候比較容易。兩種策略的區(qū)別,下圖的說明會更加明確。

在網(wǎng)絡(luò)蜘蛛機(jī)器人系統(tǒng)里面,真正起指揮作用的是人工管理系統(tǒng)制定的規(guī)則和檢索索引數(shù)據(jù)庫。它可以決定什么樣的網(wǎng)站抓的勤一點(diǎn),或者干脆不抓.

3. UTF-8

使用UTF-8編碼唯一的好處是,國外的用戶如果使用Windows XP英文版,瀏覽UTF-8編碼的任何網(wǎng)頁,無論是中文、還是日文、韓文、阿拉伯文,都可以正常顯示,UTF-8是世界通用的語言編碼,UTF-8的推廣要?dú)w功于Google的應(yīng)用,以及Blog開發(fā)者。而如果用Windows XP英文版的IE6.0瀏覽gb2312語言編碼的網(wǎng)頁,則會提示是否安裝語言包。因此,可能會失去很多的國外瀏覽者。 使用gb2312編碼的好處是,因?yàn)槌绦虍a(chǎn)生的網(wǎng)頁文本使用ANSI編碼格式,會比UTF-8文本編碼節(jié)省一些體積,訪問速度會稍微快一點(diǎn)點(diǎn),大約是30:38的比例,也就是30K的ANSI編碼,轉(zhuǎn)為UTF-8編碼是38K,當(dāng)然,這個比例并不準(zhǔn)確,是會隨Unicode字符集區(qū)域的不同而變化的。

【阿里巴巴筆試記】相關(guān)文章:

阿里巴巴程序筆試題09-28

阿里巴巴筆試題目09-11

阿里巴巴運(yùn)營專員筆試經(jīng)驗(yàn)06-01

阿里巴巴校招筆試題07-31

阿里巴巴運(yùn)營專員筆試經(jīng)驗(yàn)07-14

哈爾濱阿里巴巴筆試題目07-25

阿里巴巴軟件測試常見筆試題05-21

阿里巴巴校園招聘南京筆試經(jīng)驗(yàn)07-11

阿里巴巴實(shí)習(xí)生筆試題09-18

阿里巴巴秋招在線筆試經(jīng)驗(yàn)09-30