日韩欧美人妻无码精品白浆,www.大香蕉久久网,狠狠的日狠狠的操,日本好好热在线观看

LOGO OA教程 ERP教程 模切知識(shí)交流 PMS教程 CRM教程 開(kāi)發(fā)文檔 其他文檔  
 
網(wǎng)站管理員

python 爬蟲(chóng)如何爬取動(dòng)態(tài)生成的網(wǎng)頁(yè)內(nèi)容

freeflydom
2024年11月2日 9:46 本文熱度 1884

【背景】

對(duì)于網(wǎng)頁(yè)信息的采集,靜態(tài)頁(yè)面我們通常都可以通過(guò)python的request.get()庫(kù)就能獲取到整個(gè)頁(yè)面的信息。

但是對(duì)于動(dòng)態(tài)生成的網(wǎng)頁(yè)信息來(lái)說(shuō),我們通過(guò)request.get()是獲取不到。

【方法】

可以通過(guò)python第三方庫(kù)selenium來(lái)配合實(shí)現(xiàn)信息獲取,采取方案:python + request + selenium + BeautifulSoup

我們拿縱橫中文網(wǎng)的小說(shuō)采集舉例(注意:請(qǐng)查看網(wǎng)站的robots協(xié)議找到可以爬取的內(nèi)容,所謂盜亦有道):

思路整理:

  1.通過(guò)selenium 定位元素的方式找到小說(shuō)章節(jié)信息

  2.通過(guò)BeautifulSoup加工后提取章節(jié)標(biāo)題和對(duì)應(yīng)的各章節(jié)的鏈接信息

  3.通過(guò)request +BeautifulSoup 按章節(jié)鏈接提取小說(shuō)內(nèi)容,并將內(nèi)容存儲(chǔ)下來(lái)

【上代碼】

1.先在開(kāi)發(fā)者工具中,調(diào)試定位所需元素對(duì)應(yīng)的xpath命令編寫方式

 2.通過(guò)selenium 中find_elements()定位元素的方式找到所有小說(shuō)章節(jié),我們這里定義一個(gè)方法接受參數(shù)來(lái)使用


def Get_novel_chapters_info(url:str,xpath:str,skip_num=None,chapters_num=None):
    # skip_num 需要跳過(guò)的采集章節(jié)(默認(rèn)不跳過(guò)),chapters_num需要采集的章節(jié)數(shù)(默認(rèn)全部章節(jié))# 創(chuàng)建Chrome選項(xiàng)(禁用圖形界面)chrome_options = Options()
        chrome_options.add_argument("--headless")
        driver = webdriver.Chrome(options=chrome_options)
        driver.get(url)
        driver.maximize_window()
        time.sleep(3)
        # 采集小說(shuō)的章節(jié)元素catalogues_list = []
        try:
            catalogues = driver.find_elements(By.XPATH,xpath)
            if skip_num is None:
                for catalogue in catalogues:
                    catalogues_list.append(catalogue.get_attribute('outerHTML'))
                driver.quit()
                if chapters_num is None:
                    return catalogues_list
                else:
                    return catalogues_list[:chapters_num]
            else:
                for catalogue in catalogues[skip_num:]:
                    catalogues_list.append(catalogue.get_attribute('outerHTML'))
                driver.quit()
                if chapters_num is None:
                    return catalogues_list
                else:
                    return catalogues_list[:chapters_num]
        except Exception:
            driver.quit()

3.把采集到的信息通過(guò)beautifulsoup加工后,提取章節(jié)標(biāo)題和鏈接內(nèi)容


        # 獲取章節(jié)標(biāo)題和對(duì)應(yīng)的鏈接信息title_link = {}
        for each in catalogues_list:
            bs = BeautifulSoup(each,'html.parser')
            chapter = bs.find('a')
            title = chapter.text
            link = 'https:' + chapter.get('href')
            title_link[title] = link

4.通過(guò)request+BeautifulSoup 按章節(jié)鏈接提取小說(shuō)內(nèi)容,并保存到一個(gè)文件中


        # 按章節(jié)保存小說(shuō)內(nèi)容novel_path = '小說(shuō)存放的路徑/小說(shuō)名稱.txt'
        with open(novel_path,'a') as f:
            for title,url in title_link.items():
                response = requests.get(url,headers={'user-agent':'Mozilla/5.0'})
                html = response.content.decode('utf-8')
                soup = BeautifulSoup(html,'html.parser')
                content = soup.find('div',class_='content').text
                # 先寫章節(jié)標(biāo)題,再寫小說(shuō)內(nèi)容f.write('---小西瓜免費(fèi)小說(shuō)---' + '\n'*2)
                f.write(title + '\n')
                f.write(content+'\n'*3)



該文章在 2024/11/2 10:05:21 編輯過(guò)
關(guān)鍵字查詢
相關(guān)文章
正在查詢...
點(diǎn)晴ERP是一款針對(duì)中小制造業(yè)的專業(yè)生產(chǎn)管理軟件系統(tǒng),系統(tǒng)成熟度和易用性得到了國(guó)內(nèi)大量中小企業(yè)的青睞。
點(diǎn)晴PMS碼頭管理系統(tǒng)主要針對(duì)港口碼頭集裝箱與散貨日常運(yùn)作、調(diào)度、堆場(chǎng)、車隊(duì)、財(cái)務(wù)費(fèi)用、相關(guān)報(bào)表等業(yè)務(wù)管理,結(jié)合碼頭的業(yè)務(wù)特點(diǎn),圍繞調(diào)度、堆場(chǎng)作業(yè)而開(kāi)發(fā)的。集技術(shù)的先進(jìn)性、管理的有效性于一體,是物流碼頭及其他港口類企業(yè)的高效ERP管理信息系統(tǒng)。
點(diǎn)晴WMS倉(cāng)儲(chǔ)管理系統(tǒng)提供了貨物產(chǎn)品管理,銷售管理,采購(gòu)管理,倉(cāng)儲(chǔ)管理,倉(cāng)庫(kù)管理,保質(zhì)期管理,貨位管理,庫(kù)位管理,生產(chǎn)管理,WMS管理系統(tǒng),標(biāo)簽打印,條形碼,二維碼管理,批號(hào)管理軟件。
點(diǎn)晴免費(fèi)OA是一款軟件和通用服務(wù)都免費(fèi),不限功能、不限時(shí)間、不限用戶的免費(fèi)OA協(xié)同辦公管理系統(tǒng)。
Copyright 2010-2025 ClickSun All Rights Reserved

欧美人妻日韩在线| 久九久九黄色| 亚洲自拍日韩一区| 大香蕉超碰97牛牛| 一区二区无码高清白虎视频一卡二卡| 日本三级123区| 偷拍网一区| 日本黄色免费在线观看| 人妻日韩AV综合网| 亚洲天堂aV天网| 超碰99热| 在线α亚洲视频| 大色欧美高潮| 久玖久-伋黄色片| 日韩无码乱码一区| 亚洲婷婷电影| 日本久久网站免费在线观看| av激情影院久久| 日本成人免费二区三区| AV美女在线在线在线| 神马午夜按摩| 熟女少妇一二三区| 日韩欧美图片综合网| 午夜avxxxxxxx| 麻豆懂色成人AV| av中久| 无码WWW| 国模无码电影| 久久人很黄的视频免费| 日本免费a一区视频| 大鸡巴操死我视频THE| 日韩极品在线极品| 亚洲综合丝袜人妻| 日本人妻播放一区| 久久九九精品麻豆91| 日韩大片中文字幕| 日韩伦理丝袜传媒电影一区二区三区| 日韩欧美黄色影院| 欧美日韩午夜视频在线免费观看 | 亚州日本乱码一区二区三区| www.草操艹少妇.com|