用Java8 stream处理数据

2024-04-02 19:55

短信预约 -IT技能 免费直播动态提醒

1、stream处理数据介绍

　　如果没有集合Collection你如何处理数据？几乎所有的Java应用程序都要使用Collection处理数据。他们是十分重要的编程工作：例如，您可能想要创建银行交易的集合Collection，这个集合代表客户的状态。然后，你可能要处理整个集合来找出的顾客花了多少钱。尽管集合如此重要，但是在Java中处理集合的技术还远远不够完善。

首先，对集合的典型处理模式是类似SQL操作，比如"finding"（例如，找到具有最高价的交易）或"grouping" （例如，将相关的杂物所有交易合并组）。大多数数据库让您这样的声明方式指定的操作。例如，下面的SQL查询可以让您找到交易ID最高值： "SELECT id, MAX(value) from transactions" 。

正如你所看到的，我们并不需要实现如何具体计算最大值（例如，使用循环和一个变量来跟踪的最高值）。我们只能表达我们所期望的要求(获得最大值)。只要我们显式发出这样的查询，数据库就会为我们去处理。可是为什么我们不能在集合Collection中实现类似的东西？多少次，你会发现自己使用循环一遍又一遍的反复遍历集合？(如：for Object o: myLists{ ..})

其次，如何才能有效地处理真正的大数据集合？在理想的情况下，你想利用多核架构加快处理，。然而，编写并行代码很难而且容易出错。

Java 8 API的设计者重新提出了一个新的抽象称为流Stream，可以让你以一种声明的方式处理数据。此外，数据流可以充分利用多核架构而无需编写多线程的一行代码。这听起来不错，不是吗？

首先，我们看看在Java 7中，如何发现typegrocery 的所有交易，然后返回以交易值降序排序好的交易ID集合？


List<Transaction> groceryTransactions = new Arraylist<>();

for(Transaction t: transactions){

  if(t.getType() == Transaction.GROCERY){

    groceryTransactions.add(t);

  }

}

Collections.sort(groceryTransactions, new Comparator(){

  public int compare(Transaction t1, Transaction t2){

    return t2.getValue().compareTo(t1.getValue());

  }

});

List<Integer> transactionIds = new ArrayList<>();

for(Transaction t: groceryTransactions){

  transactionsIds.add(t.getId());

}

而在Java 8使用Stream：


List<Integer> transactionsIds =

    transactions.stream()

                .filter(t -> t.getType() == Transaction.GROCERY)

                .sorted(comparing(Transaction::getValue).reversed())

                .map(Transaction::getId)

                .collect(toList());

我们首先从交易数据列表中获得一个stream对象，这是通过使用List的stream()方法实现的，下一步几个操作 (filter, sorted, map, collect)是以链式排列成一个管道，形成对数据的查询操作。

那么这段代码如何并行操作呢？那么只要更换transactions.stream()为transaction.parallelStream()即可，请注意lambda表达式(t-> t.getCategory() == Transaction.GROCERY)和方法引用(Transaction::getId)将在下一章详细讲解。

2、Stream起步

首先，定义一下Stream，Stream是一个来自支持聚合操作源的元素的序列。

如下特点：

1. 所谓元素的序列，一个Stream向外提供了一个这样的接口：特定元素类型的值的序列，但是Stream并不实际持有也就是存储这些元素，它们是在有需求时才会被计算。
2. 源：以提供Stream进行计算消费的源，这些源有Collection集合 Array数组或I/O资源等。
3.聚合操作：Stream支持类似SQL操作和函数式编程的大部分操作，比如：filter, map, reduce, find, match, sorted。

此外，Stream操作不同于Collection操作有两个根本的地方：

1.管道Pipelining: 许多流Stream操作返回流Stream自身，这就允许对其操作可以像链条一样排列，变成一个管道，这其中也会激活比如懒加载和short-circuiting操作。
2.内部迭代：相比于集合Collection是显式迭代(需要我们编码完成迭代)，Stream操作是在其内部完成迭代操作。

下面我们看看前面Stream代码的内部工作流程：

我们首先从交易transactions这个列表中获得Stream对象，数据源就是交易列表，其中提供了一系列元素集合，这些元素都是供Stream操作的，下一步，我们使用了一系列对这个Stream的聚合操作，包括过滤filter (用我们指定的谓词条件predicate过滤元素，也就是代码t -> t.getType() == Transaction.GROCERY), 排序(用指定的比较器comparator对元素进行排序), 以及 map (为了释放获取信息). 所有这些操作除了最后的collect操作，都是返回一个Stream对象，这样就能被前后链接在一起变成一个长的管道，可以看成是基于源数据集合的一个查询操作。如同SQL基于数据表的有条件查询语句一样。

最后到collect被调用操作， collect操作开始处理这个管道以返回一个结果，不再是一个结果流了，这里一个结果是List一个对象，我们看到collect接受一个recipe输入函数然后累计Stream中元素到一个汇总结果，这里输入函数是toList()，它是一个将将Stream转换为List对象。

3、Stream与Collection比较

Stream和Collection集合有什么区别？Collection是关于静止的数据结构，而Stream是有关动词算法和计算的。前者是主要面向内存，存储在内存中，后者主要是面向CPU，通过CPU实现计算的。

举例将一个影片存储在DVD盘上，这是一个集合，因为它包含整个电影的字节数据结构，而这个影片被放在互联网上，我们通过视频软件去观看它时，它实际是被流化了，它变成了一个字节流，流是与时间有关的概念，而数据结构是与时间无关，不会随着时间变化变化，流正好相反，随着时间不断地动态变化，如同水流一样潺潺不断。

所以，集合与流的主要区别是是否需要被计算，集合是一个内存数据结构，集合中每个元素在加入到集合之前已经被计算了，相反，流是在即时要求即时计算。

使用集合需要开发者主动去遍历，使用一个遍历循环，这称为外部遍历。

而使用一个流库使用内部遍历，它自己为你遍历元素，然后将结果保存在某处，你只要提供一个函数，它就会用这个函数对元素处理完成。内外遍历的区别如下代码:


List<String> transactionIds = new ArrayList<>();

for(Transaction t: transactions){

    transactionIds.add(t.getId()); //外部遍历

}

 

List<Integer> transactionIds =

    transactions.stream()

                .map(Transaction::getId) //内部遍历

                .collect(toList());

到此这篇关于用Java8 stream处理数据的文章就介绍到这了,更多相关 stream处理数据内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉

用Java8 stream处理数据

下载Word文档到电脑，方便收藏和打印～

下载Word文档

实时数据处理：利用Go WaitGroup处理数据流在Go语言中，可以使用`sync.WaitGroup`来处理实时数据流。`sync.WaitGroup`是一个计数信号量，用来等待一组goroutine的结束。它的主要方法有三个：`Add()`、`Done()`和`Wait()`。首先，需

2023-10-08

`编程热搜`

Python 学习之路 - Python
一、安装Python34Windows在Python官网（https://www.python.org/downloads/）下载安装包并安装。Python的默认安装路径是：C:\Python34配置环境变量：【右键计算机】--》【属性】-
chatgpt的中文全称是什么
chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型，它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，并协助人类完成一系列
C/C++中extern函数使用详解
C/C++可变参数的使用
可变参数的使用方法远远不止以下几种，不过在C,C++中使用可变参数时要小心，在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少，否则会产生访问越界，运气不好的话还会导致程序崩溃
css样式文件该放在哪里
php中数组下标必须是连续的吗
Python 3 教程
Python 3 教程 Python 的 3.0 版本，常被称为 Python 3000，或简称 Py3k。相对于 Python 的早期版本，这是一个较大的升级。为了不带入过多的累赘，Python 3.0 在设计的时候没有考虑向下兼容。 Python
Python pip包管理
一、前言在Python中，安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具： easy_install 和 pip ，目前官方推荐使用 pip。
ubuntu如何重新编译内核
改善Java代码之慎用java动态编译