Skip to content

🕷️一个可以爬取学堂在线全部课程信息的爬虫

Notifications You must be signed in to change notification settings

DangHT/SpiderOnXuetangx

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

SpiderOnXuetangx

🕷️一个可以爬取学堂在线全部课程信息的爬虫

爬虫的实现基于Scrapy框架

运行方法

  1. 首先需要安装python环境:point_right:获取python

  2. 安装Scrapy:point_right:安装步骤

  3. 安装MongoDB:point_right:获取MongoDB

(注意:在安装过程中可以选择安装MongoDB Compass,这是一个可视化工具,使用它操作数据库会更方便)

  1. clone本项目到本地

  2. 项目目录下打开终端

  3. 执行命令

    scrapy crawl courses

    可以看到正在爬取数据

  4. 爬取结束后,即可根据所选的持久化存储方法查看数据

数据持久化存储方法

修改数据持久化方法可以在项目的settings.py文件中修改ITEM_PIPLINES中对应pipeline的优先级即可

目前本项目提供以下方式进行数据持久化存储:

  1. 存入MongoDB,可以通过MongoDB Compass查看

  2. 以csv文件存储,默认新建在项目根目录下

About

🕷️一个可以爬取学堂在线全部课程信息的爬虫

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages