我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Python批量下载ts视频文件,并用ffmpeg合并

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Python批量下载ts视频文件,并用ffmpeg合并

目录

一、ts文件的由来

二、下载ts文件

1.下载index.m3u8,并做相应处理

2.下载ts文件

三、ffmpeg合并ts文件


一、ts文件的由来

ts文件,ts即"Transport Stream"的缩写,特点就是要求从视频流的任一片段开始都是可以独立解码的,非常适合网络视频播放。

打开网址:https://www.kan35.com/play/210314-3-1.html,要怎么才能把这个视频下载到电脑上呢?

按F12发现,这些视频被切割成无数个细小的片断,如图:

上图中,用红框圈出来的部分很重要,.ts的文件就是被切割的视频文件。但是这些视频文件名字全是乱的,没有规律。它们的顺序是通过index.m3u8实现的,上图中有两个index.m3u8文件,一般是尺寸更大的那个才是存放视频播放顺序的文件。可以在浏览器中打开看下:

 可以看出,这个文件里面确实保存了ts文件播放顺序,当然一些其它的网站提供的index.m3u8文件格式会有些不一样,这些都可以后期处理。

二、下载ts文件

1.下载index.m3u8,并做相应处理

这个index.m3u8很重要,直接右键“Open in new tab”就可以下载下来,但是该怎么处理呢?

首先,了解下什么是m3u8:

        m3u8是苹果公司推出的视频播放标准,是m3u的一种,只是编码格式采用的是UTF-8。

        m3u8准确来说是一种索引文件,使用m3u8文件实际上是通过它来解析对应的放在服务器上的视频网络地址,从而实现在线播放。使用m3u8格式文件主要因为可以实现多码率视频的适配,视频网站可以根据用户的网络带宽情况,自动为客户端匹配一个合适的码率文件进行播放,从而保证视频的流畅度。

其次,怎么解析这个文件?

最简单的方式是复制里面的内容,然后在excel中筛选包含“https”的字符串。

当然,我们可以用更专业的方法,在python中用“pip install m3u8”安装这个模块,然后就可以用代码解析了。

import m3u8data = m3u8.load("index0.m3u8").datadata

显示内容大概如下:

{'media_sequence': 0, 'is_variant': False, 'is_endlist': True, 'is_i_frames_only': False, 'is_independent_segments': False, 'playlist_type': 'vod', 'playlists': [], 'segments': [{'duration': 2.667,   'title': '',   'uri':        'https://hey06.cjkypo.com/20211214/lIC8S3qZ1/1000kb/hls/MQJ9iKoM.ts',   'cue_in': False,   'cue_out': False,   'cue_out_start': False,   'scte35': None,   'oatcls_scte35': None,   'scte35_duration': None,   'scte35_elapsedtime': None,   'asset_metadata': None,   'discontinuity': False,   'dateranges': None,   'gap_tag': None},  {'duration': 1.667,   'title': '',   'uri': 'https://hey06.cjkypo.com/20211214/lIC83SqZ1/1000kb/hls/8LeDe7Wu.ts',   'cue_in': False,   'cue_out': False,   'cue_out_start': False,   'scte35': None,   'oatcls_scte35': None,   'scte35_duration': None,   'scte35_elapsedtime': None,   'asset_metadata': None,   'discontinuity': False,   'dateranges': None,   'gap_tag': None},

........................

可以看出,显示的内容很多,但是实际上只有“https://”那个字符串有用。

我们现在要做的是先提取每一个带“https”的字符串,然后还要提取出每个https字符串中的ts文件名。代码如下:

order_ts = []#将所有的带https的url存入order_tsfor i in data["segments"]:    order_ts.append(i["uri"])#返回一个dict,将文件名作为key,将url作为valuedef read_name_url():    name_url = {}    for url in order_ts:        name = url.split("/")[-1]        name_url[name] = url    return name_url

这个dict内容大概如下:

按理说,这个结果已经非常好了,但是我们还要进一步处理下,为我们最后一步的合并ts文件作准备。

list_name= read_name_url().keys()file = open("order.m3u8", 'w')for name in list_name:    #file.write("file 'D:\\ProgramData\\study\\mov\\tsfiles\\" + name + "'")    file.write(fr"file 'D:\ProgramData\study\mov\tsfiles\{name}'")    file.write("\n")file.close()

注意,python中字符串不能以 \ 结尾,因为当一行代码太长写不下时,可以反斜杠是用来连接多行代码,所以不能用下面这种方法:

file.write(r"file 'D:\ProgramData\study\mov\tsfiles\" + name + "'")

上面的代码会报错“EOL while scanning string literal”,可以用“fr”做为前缀的方式(见上面代码,f代表format,r代码不转义)。

这个order.m3u8文件的内容大概如下:

file 'D:\ProgramData\study\mov\tsfiles\MQJ9iKoM.ts'
file 'D:\ProgramData\study\mov\tsfiles\8LeDe7Wu.ts'
file 'D:\ProgramData\study\mov\tsfiles\WS72cnXO.ts'
file 'D:\ProgramData\study\mov\tsfiles\LXld1AUz.ts'
file 'D:\ProgramData\study\mov\tsfiles\Jc2FmbSf.ts'

...........

2.下载ts文件

ts文件很小,只有几百k,所以一个完整的视频会被分成几千个ts文件,我们可以采用多线程的方式来下载:

import urllibfrom concurrent.futures import ThreadPoolExecutordef download(url,name):    #下载ts文件到D:\ProgramData\study\mov\tsfiles文件夹    urllib.request.urlretrieve(url,'D://ProgramData//study//mov//tsfiles//'+name)def download_tsfile():    #记录创立的线程    task_list = []    dict_name_url = read_name_url()    #线程池的创立     pool = ThreadPoolExecutor(max_workers=50)    for name in dict_name_url:        # 启动多个线程下载文件,download是函数名,后面两个是参数值        task_list.append(pool.submit(download, dict_name_url[name],name))    # 判断所有下载线程是否全部结束    while (True):        if len(task_list) == 0:            break        for i in task_list:            if i.done():                task_list.remove(i)                print("剩下任务数:{0}".format(len(task_list)))    print("所有任务下载完成!")

下载完成后,就可以在tsfiles文件夹找到这些细小的文件:

三、ffmpeg合并ts文件

有了前面两步的铺垫,现在要进行最重要的一个步骤了,那就是按order.m3u8里面的顺序,依次把这些ts文件合并起来。该怎么合并呢?

我们需要借助ffmpeg这个工具,这个工具非常强大,专门用来处理音频、视频切割、合并、编辑等,当然也非常复杂。安装这个软件,可以点击后面参考文章中的第二篇文章,这里不细说。下面来说说怎么合并这些ts文件。

代码非常简单:

import osdef mixTss(name):    #string前面加上‘r’,是为了告诉编译器这个string是个raw string,不要转义 backslash '\' 。    com = r'D:\\ffmpeg\\bin\\ffmpeg.exe -f concat -safe 0 -i D:\\ProgramData\\study\\mov\\order.m3u8 -c copy D:\\ProgramData\\study\\mov\\{}.mp4'.format(name)    os.system(com)    mixTss("hello")print("合并完成!")

可以看出上面的代码中,最重要的就是执行了一命令:

D:\ffmpeg\bin\ffmpeg.exe -f concat -safe 0 -i D:\ProgramData\study\mov\order.m3u8 -c copy D:\ProgramData\\study\\mov\\hello.mp4

ffmpeg很强大,但是也比较复杂,我也不是很懂这个,大概解释如下。

ffmpeg使用语法:

命令格式: ffmpeg -i [输入文件名] [参数选项] -f [格式] [输出文件] ffmpeg [[options][`-i' input_file]]... {[options] output_file}... 

具体一点来说:

-f concat,-f 一般设置输出文件的格式,如-f psp(输出psp专用格式),但是如果跟concat,则表示采用concat协议,对文件进行连接合并。

-safe 0,用于忽略一些文件名错误,如长路径、空格、非ANSIC字符

-i D:\ProgramData\study\mov\order.m3u8,-i后面加输入文件名,当然也可以加输入文件名组成的文件名,即order.m3u8,但是要满足文件格式,即类似于下面这种:

file 'D:\ProgramData\study\mov\tsfiles\MQJ9iKoM.ts'
file 'D:\ProgramData\study\mov\tsfiles\8LeDe7Wu.ts'

-c copy D:\ProgramData\\study\\mov\\hello.mp4,-c表示输出文件采用的编码器,后面跟copy,表示直接复制,不重新编码。

参考文章:

ts视频下载 准备下载视频的你确定不进来看看吗_小王不头秃的博客-CSDN博客_ts视频下载

ffmpeg安装教程_小王不头秃的博客-CSDN博客_ffmpeg怎么安装

来源地址:https://blog.csdn.net/qiuqiuit/article/details/128601877

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Python批量下载ts视频文件,并用ffmpeg合并

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Python下载ts文件视频且合并

这篇文章主要介绍了Python下载ts文件视频且合并,需要的朋友可以参考下
2023-01-10

怎么用Python打造批量下载视频并能可视化下载进度的下载器

这篇文章主要讲解了“怎么用Python打造批量下载视频并能可视化下载进度的下载器”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“怎么用Python打造批量下载视频并能可视化下载进度的下载器”吧
2023-06-15

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录