位置：首页-资讯-后端开发

kettle的文件批量入库功能是怎样实现的

2023-06-03 02:16

短信预约 -IT技能 免费直播动态提醒

kettle的文件批量入库功能是怎样实现的，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。

kettle 除了作为 ETL 工具外，还有很多数据处理方面的实用功能，下面介绍几个实用的小功能。

文件批量入库
该功能可以将一个目录下的全部或部分文件加载到数据库中。

“获取文件名” 步骤获取一个目录下的文件名，使用一个正则表达式来指定文件名。

指定了 E:/opensource/kettle-trunk/ui/images 目录下所有以 .png 结尾的文件名。在这个步骤里创建了下面几个字段来描述所有获取的文件：

FILENAME,
SHORT_FILENAME,
PATH,
TYPE,
EXISTS,
ISHIDDEN,
ISREADABLE,
ISWRITEABLE,
LASTMODIFIEDTIME,
SIZE,
EXTENSION,
URI,
ROOTURI

使用一个 javascript 脚本，读取文件内容，如果你不想把文件内容入库，可以不用这一步。下面是 javascript 脚本的内容：

file = new Packages.java.io.File(filename.getString());
fileInputStream = new Packages.java.io.FileInputStream(file);
var content = Packages.org.pentaho.di.core.Const.createByteArray(file.length());
fileInputStream.read(content, 0, file.length());
fileInputStream.close();

不要忘了，选中 “获取变量” 按钮，将 content 也作为一个输出字段, 类型 Binary。

“表输出”，将前两个步骤获得的字段，输出到数据库的表里。如果数据库里没有相应的表，需要使用 “SQL” 按钮获得并执行创建表的 SQL 语句。

通过这三个步骤可以将文件名，文件属性，文件内容都保存到数据库里，

如果文件是二进制文件，文件内容一般保存为 BLOB 、Binary 、Image 等类型。

如果文件是字符型文件，文件内容一般保存为 CLOB 、varchar、Text 等类型。

注意：因为该方法是一次性将文件内容都读到了内存中，因此只能处理比较小的文件。

看完上述内容，你们掌握kettle的文件批量入库功能是怎样实现的的方法了吗？如果还想学到更多技能或想了解更多相关内容，欢迎关注编程网行业资讯频道，感谢各位的阅读！

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉