位置：首页-资讯-后端开发

如何进行Python 音频的数据扩充

2023-06-02 08:54

短信预约 -IT技能 免费直播动态提醒

今天就跟大家聊聊有关如何进行Python 音频的数据扩充，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。

经典的深度学习网络AlexNet使用数据扩充（Data Augmentation）的方式扩大数据集，取得较好的分类效果。在深度学习的图像领域中，通过平移、翻转、加噪等方法进行数据扩充。但是，在音频（Audio）领域中，如何进行数据扩充呢？

音频的数据扩充，主要有以下四种方式：

音频剪裁（Clip）
音频旋转（Roll）
音频调音（Tune）
音频加噪（Noise）

音频解析基于librosa音频库；矩阵操作基于scipy和numpy科学计算库。

以下是Python的实现方式：

音频剪裁

import librosafrom scipy.io import wavfiley, sr = librosa.load("../data/love_illusion.mp3")  # 读取音频print y.shape, srwavfile.write("../data/love_illusion_20s.mp3", sr, y[20 * sr:40 * sr])  # 写入音频

音频旋转

import librosaimport numpy as npfrom scipy.io import wavfiley, sr = librosa.load("../data/raw/love_illusion_20s.mp3")  # 读取音频y = np.roll(y, sr*10)print y.shape, srwavfile.write("../data/raw/xxx_roll.mp3", sr, y)  # 写入音频

音频调音，注：cv库的resize函数含有插值功能。

import cv2import librosafrom scipy.io import wavfiley, sr = librosa.load("../data/raw/love_illusion_20s.mp3")  # 读取音频ly = len(y)y_tune = cv2.resize(y, (1, int(len(y) * 1.2))).squeeze()lc = len(y_tune) - lyy_tune = y_tune[int(lc / 2):int(lc / 2) + ly]print y.shape, srwavfile.write("../data/raw/xxx_tune.mp3", sr, y_tune)  # 写入音频

音频加噪，注：在添加随机噪声时，保留0值，否则刺耳难忍！

import librosafrom scipy.io import wavfileimport numpy as npy, sr = librosa.load("../data/raw/love_illusion_20s.mp3")  # 读取音频wn = np.random.randn(len(y))y = np.where(y != 0.0, y + 0.02 * wn, 0.0)  # 噪声不要添加到0上！print y.shape, srwavfile.write("../data/raw/love_illusion_20s_w.mp3", sr, y)  # 写入音频

看完上述内容，你们对如何进行Python 音频的数据扩充有进一步的了解吗？如果还想了解更多知识或者相关内容，请关注编程网行业资讯频道，感谢大家的支持。

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉