我的编程空间,编程开发者的网络收藏夹
学习永远不晚

如何用Python制作一个MOOC公开课下载器

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

如何用Python制作一个MOOC公开课下载器

这篇文章主要介绍“如何用Python制作一个MOOC公开课下载器”,在日常操作中,相信很多人在如何用Python制作一个MOOC公开课下载器问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何用Python制作一个MOOC公开课下载器”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

开发工具

Python版本:3.7.8

相关模块:

DecryptLogin模块;

tqdm模块;

click模块;

argparse模块;

以及一些python自带的模块。

环境搭建

安装Python并添加到环境变量,pip安装需要的相关模块即可。

先睹为快

运行方式:

python moocdl.py --url 课程链接

效果如下:

moocdl

随便挑的一个课程测试的,结果是m3u8格式的,所以下载起来有点慢。默认会把所有的课件这些东西也一起下载下来放到对应的目录。

原理简介

首先,我们需要先模拟登录中国大学MOOC,这样才能下载对应的课程资料,这里借助公众号之前开源的DecryptLogin包就好啦:

'''登录'''def login(self, username, password):    lg = login.Login()    infos_return, session = lg.icourse163(username, password)    return infos_return, session

接着,我们简单讲解一下如何下载对应课程里的资料。首先,我们需要获得课程相关的基本资料,随便点开个课程主页就可以发现直接在返回的页面里就有:

如何用Python制作一个MOOC公开课下载器

提取我们需要的课程信息的代码实现如下:

# 从课程主页面获取信息url = url.replace('learn/', 'course/')response = self.session.get(url)term_id = re.findall(r'termId : "(\d+)"', response.text)[0]course_name = ' - '.join(re.findall(r'name:"(.+)"', response.text))course_name = self.filterBadCharacter(course_name)course_id = re.findall(r'https?://www.icourse163.org/(course|learn)/\w+-(\d+)', url)[0]print(f'从课程主页面获取的信息如下:\n\t[课程名]: {course_name}, [课程ID]: {course_name}, [TID]: {term_id}')

接着利用这些信息来爬取对应的资源列表:

# 获取资源列表resource_list = []data = {    'tid': term_id,    'mob-token': self.infos_return['results']['mob-token'],}response = self.session.post('https://www.icourse163.org/mob/course/courseLearn/v1', data=data)course_info = response.json()file_types = [1, 3, 4]for chapter_num, chapter in enumerate(course_info.get('results', {}).get('termDto', {}).get('chapters', [])):    for lesson_num, lesson in enumerate(chapter.get('lessons', [])) if chapter.get('lessons') is not None else []:        for unit_num, unit in enumerate(lesson.get('units', [])):            if unit['contentType'] not in file_types: continue            savedir = course_name            self.checkdir(savedir)            for item in [self.filterBadCharacter(chapter['name']), self.filterBadCharacter(lesson['name']), self.filterBadCharacter(unit['name'])]:                savedir = os.path.join(savedir, item)                self.checkdir(savedir)            if unit['contentType'] == file_types[0]:                savename = self.filterBadCharacter(unit['name']) + '.mp4'                resource_list.append({                    'savedir': savedir,                    'savename': savename,                    'type': 'video',                    'contentId': unit['contentId'],                    'id': unit['id'],                })            elif unit['contentType'] == file_types[1]:                savename = self.filterBadCharacter(unit['name']) + '.pdf'                resource_list.append({                    'savedir': savedir,                    'savename': savename,                    'type': 'pdf',                    'contentId': unit['contentId'],                    'id': unit['id'],                })            elif unit['contentType'] == file_types[2]:                if unit.get('jsonContent'):                    json_content = eval(unit['jsonContent'])                    savename = self.filterBadCharacter(json_content['fileName'])                    resource_list.append({                        'savedir': savedir,                        'savename': savename,                        'type': 'rich_text',                        'jsonContent': json_content,                    })print(f'成功获得资源列表, 数量为{len(resource_list)}')

最后根据资源类型解析下载即可:

# 下载对应资源pbar = tqdm(resource_list)for resource in pbar:    pbar.set_description(f'downloading {resource["savename"]}')    # --下载视频    if resource['type'] == 'video':        data = {            'bizType': '1',            'mob-token': self.infos_return['results']['mob-token'],            'bizId': resource['id'],            'contentType': '1',        }        while True:            response = self.session.post('https://www.icourse163.org/mob/j/v1/mobileResourceRpcBean.getResourceToken.rpc', data=data)            if response.json()['results'] is not None: break            time.sleep(0.5 + random.random())        signature = response.json()['results']['videoSignDto']['signature']        data = {            'enVersion': '1',            'clientType': '2',            'mob-token': self.infos_return['results']['mob-token'],            'signature': signature,            'videoId': resource['contentId'],        }        response = self.session.post('https://vod.study.163.com/mob/api/v1/vod/videoByNative', data=data)        # ----下载视频        videos = response.json()['results']['videoInfo']['videos']        resolutions, video_url = [3, 2, 1], None        for resolution in resolutions:            for video in videos:                if video['quality'] == resolution:                    video_url = video["videoUrl"]                    break            if video_url is not None: break        if '.m3u8' in video_url:            self.m3u8download({                'download_url': video_url,                'savedir': resource['savedir'],                'savename': resource['savename'],            })        else:            self.defaultdownload({                'download_url': video_url,                'savedir': resource['savedir'],                'savename': resource['savename'],            })        # ----下载字幕        srt_info = response.json()['results']['videoInfo']['srtCaptions']        if srt_info:            for srt_item in srt_info:                srt_name = os.path.splitext(resource['savename'])[0] + '_' + srt_item['languageCode'] + '.srt'                srt_url = srt_item['url']                response = self.session.get(srt_url)                fp = open(os.path.join(resource['savedir'], srt_name), 'wb')                fp.write(response.content)                fp.close()    # --下载PDF    elif resource['type'] == 'pdf':        data = {            't': '3',            'cid': resource['contentId'],            'unitId': resource['id'],            'mob-token': self.infos_return['results']['mob-token'],        }        response = self.session.post('http://www.icourse163.org/mob/course/learn/v1', data=data)        pdf_url = response.json()['results']['learnInfo']['textOrigUrl']        self.defaultdownload({            'download_url': pdf_url,            'savedir': resource['savedir'],            'savename': resource['savename'],        })    # --下载富文本    elif resource['type'] == 'rich_text':        download_url = 'http://www.icourse163.org/mob/course/attachment.htm?' + urlencode(resource['jsonContent'])        self.defaultdownload({            'download_url': download_url,            'savedir': resource['savedir'],            'savename': resource['savename'],        })

到此,关于“如何用Python制作一个MOOC公开课下载器”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注编程网网站,小编会继续努力为大家带来更多实用的文章!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

如何用Python制作一个MOOC公开课下载器

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

如何用Python制作一个MOOC公开课下载器

这篇文章主要介绍“如何用Python制作一个MOOC公开课下载器”,在日常操作中,相信很多人在如何用Python制作一个MOOC公开课下载器问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何用Python制作
2023-06-29

如何用Python制作一个C盘清理器

今天小编给大家分享一下如何用Python制作一个C盘清理器的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。关于python的文
2023-07-05

如何使用Python代码制作一个视频倒放神器

这篇文章主要介绍了如何使用Python代码制作一个视频倒放神器,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。导语正常的视频如下倒放视频如下效果很赞吧,等你学会了这个,你才会发
2023-06-29

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录