熱點推薦:
您现在的位置: 電腦知識網 >> 編程 >> .NET編程 >> 正文

HtmlAgilityPack 抓取頁面的亂碼處理

2022-06-13   來源: .NET編程 

  利用HtmlAgilityPack抓取頁面很方便但是當頁面是gb編碼時候就會出現亂碼上網查了一下說是默認的獲取頁面方法不夠成熟具體什麼的我也不知道姑且就認為是不夠成熟吧

  HtmlWeb htmlWeb = new HtmlWeb();

  HtmlDocument htmlDocument = htmlWebLoad(@url);

  解決方法如下

  新建一個方法來獲取 HtmlDocument傳進來的是抓取頁面的地址

  private static HtmlDocument GetHtmlDocument(string url)

  {

  HttpWebRequest (new Uri(@url)) as HttpWebRequest; = GET; WebResponse webResponse = ();

  Stream stream = webResponseGetResponseStream();

  HtmlDocument htmlDocument = new HtmlDocument();

  htmlDocumentLoad(stream);

  return htmlDocument; }

  根據@無機の劍 的評論用這個屬性就解決了(O(∩_∩)O~)

  HtmlWeb htmlWeb = new HtmlWeb();

  htmlWebOverrideEncoding = EncodingGetEncoding(gb);


From:http://tw.wingwit.com/Article/program/net/201311/13856.html
    推薦文章
    Copyright © 2005-2022 電腦知識網 Computer Knowledge   All rights reserved.