抓取某網頁的數據後(比如描述)
正則表達式裡
<(?!((/?\s?li)|(/?\s?ul)|(/?\s?a)|(/?\s?img)|(/?\s?br)|(/?\s?span)|(/?\s?b)))[^>]+>
這個正則是判斷HTML標簽不包含 li / ul / a / img / br / span / b 的
(?!exp) 匹配後面跟的不是exp的位置
/?\s? 我一開始試著把它寫到最前面的 < 後面
下面是一個簡單的函數
private static string RemoveSpecifyHtml(string ctx) {
string[] holdTags = {
// <(?!((/?\s?li)|(/?\s?ul)|(/?\s?a)|(/?\s?img)|(/?\s?br)|(/?\s?span)|(/?\s?b)))[^>]+>
string regStr = string
Regex reg = new Regex(regStr
return reg
}
修正:
上面的正則
<(?!((/?\s?li\b)|(/?\s?ul)|(/?\s?a\b)|(/?\s?img\b)|(/?\s?br\b)|(/?\s?span\b)|(/?\s?b\b)))[^>]+>
private static string RemoveSpecifyHtml(string ctx) {
string[] holdTags = {
// <(?!((/?\s?li\b)|(/?\s?ul\b)|(/?\s?a\b)|(/?\s?img\b)|(/?\s?br\b)|(/?\s?span\b)|(/?\s?b\b)))[^>]+>
string regStr = string
Regex reg = new Regex(regStr
return reg
}
From:http://tw.wingwit.com/Article/program/ASP/201311/21752.html