新聞中心
為了計算文本與標(biāo)題相似度,需要用到標(biāo)題文本。而爬數(shù)據(jù)的時候?qū)⑽募O(shè)置為url而沒有用網(wǎng)頁標(biāo)題來存,所以需要解析網(wǎng)頁提取,工程在.net平臺下利用webbrowser實(shí)現(xiàn)的,用到了微軟的mshtml。
用IHTMLDocument2.title倒是可以獲得標(biāo)題,但是它取得的標(biāo)題有時會包含網(wǎng)站名如: Colorado shooting suspect sent to trial | World news | guardian.co.uk
為了計算準(zhǔn)確,希望只有當(dāng)前主題網(wǎng)頁中的標(biāo)題就是只有Colorado shooting suspect sent to trial。觀察html發(fā)現(xiàn)一般主題網(wǎng)頁的meta信息中會有不包含網(wǎng)站名的title,在格式如下的一個標(biāo)簽里。于是用正則匹配IHTMLElement的outerhtml,嘗試各種正則都沒匹配到。
原來outerhtml中只有body結(jié)點(diǎn)中的html,并不包含meta信息。然后google查有什么方法獲得meta中的內(nèi)容,發(fā)現(xiàn)一個解決方法http://forums.asp.net/p/1455331/3332061.aspx。關(guān)鍵代碼貼在這里:
- foreach (IHTMLElement el in (IHTMLElementCollection)doc.all)
- {
- // check to see if all the desired attributes were found with the correct values
- bool qualify = true;
- if (el.tagName == "META")
- {
- HTMLMetaElement meta = (HTMLMetaElement)el;
- Response.Write("Content " + meta.content +"
");- }
利用IHTMLDocument2可以獲得所有標(biāo)簽信息,包括meta中的。然后再用正則或者字符串匹配在其中找相應(yīng)的title信息,完成。
創(chuàng)新互聯(lián)www.cdcxhl.cn,專業(yè)提供香港、美國云服務(wù)器,動態(tài)BGP最優(yōu)骨干路由自動選擇,持續(xù)穩(wěn)定高效的網(wǎng)絡(luò)助力業(yè)務(wù)部署。公司持有工信部辦法的idc、isp許可證, 機(jī)房獨(dú)有T級流量清洗系統(tǒng)配攻擊溯源,準(zhǔn)確進(jìn)行流量調(diào)度,確保服務(wù)器高可用性。佳節(jié)活動現(xiàn)已開啟,新人活動云服務(wù)器買多久送多久。
本文標(biāo)題:mshtml獲取meta信息-創(chuàng)新互聯(lián)
文章位置:http://www.ef60e0e.cn/article/ddgsgo.html