我的编程空间,编程开发者的网络收藏夹
学习永远不晚

C语言怎么用堆解决Topk问题

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

C语言怎么用堆解决Topk问题

这篇文章给大家分享的是有关C语言怎么用堆解决Topk问题的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。

前言

将详细讲解如何利用小根堆的方法解决TopK问题,这么多数据要处理,

该算法时间复度居然只需

C语言怎么用堆解决Topk问题

TopK问题

TopK问题介绍:在N个数中找出最大的前K个 (比如在1000个数中找出最大的前10个)

解题方法

方法1:先排降序,前N个就是最大的。 

时间复杂度:  

C语言怎么用堆解决Topk问题

方法2:N个数依次插入大堆,HeapPop K次,每次取堆顶的数据,即为前K个。

时间复杂度:

C语言怎么用堆解决Topk问题

假设N非常大,N是10亿,内存中存不下这些数,它们存在文件中的。K是100,方法1 和 方法2 就都不能用了……

话说 10 亿个整数,大概占用多少空间?

1G = 1024MB

1G = 1024*1024KB

1G = 1024*1024*1024Byte

要占用10亿字节!所以我们来看看方法3。

方法3:

① 用前个K数建立一个K个数的小堆。

② 剩下的N-K个数,依次跟堆顶的数据进行比较。如果比堆顶的数据大,就替换堆顶的数据,再向下调整。

③ 最后堆里面的K个数就是最大的K个数。

时间复杂度: 

C语言怎么用堆解决Topk问题

这里为什么使用小堆而不使用大堆?

最大的前K个数一定会比其他数要大,只要进来的数比堆顶数据大,就替代它。因为是小堆(小的在上大的在下),最大的数进去后一定会沉到下面,所以不可能存在大的数堵在堆顶导致某个数进不去的情况,数越大沉得越深。对应地,如果使用大堆就会出现一个大数堵在堆顶,剩下的数都比这个大数小,导致其他数进不来,最后只能选出最大的那一个。

代码实现与讲解

由于还没开始讲 C++ ,这里我们没法用优先级队列,我们得手动自己写一个堆来使用。当然,如果自己懒得写,以下是 C语言 实现堆的代码。

Heap.h

#define _CRT_SECURE_NO_WARNINGS 1#pragma once#include <stdio.h>#include <stdlib.h>#include <assert.h>#include <stdbool.h> typedef int HPDataType; typedef struct Heap {    HPDataType* array;  //指向动态开辟的数组    int size;           //有效数据的个数    int capacity;       //容量空间的大小} HP; void HeapInit(HP* php); void HeapDestroy(HP* php); void HeapPrint(HP* php); bool HeapIfEmpty(HP* hp); void HeapPush(HP* php, HPDataType x);        void HeapCheckCapacity(HP* php);                void Swap(HPDataType* px, HPDataType* py);         void BigAdjustUp(int* arr, int child);         void SmallAdjustUp(int* arr, int child); void HeapPop(HP* php);         void SmallAdjustDown(int* arr, int n, int parent);        void BigAdjustDown(int* arr, int n, int parent); HPDataType HeapTop(HP* php); int HeapSize(HP* php);

Heap.c

#define _CRT_SECURE_NO_WARNINGS 1#include "Heap.h" void HeapInit(HP* php) {    assert(php);    php->array = NULL;    php->size = php->capacity = 0;} void HeapDestroy(HP* php) {    assert(php);    free(php->array);    php->capacity = php->size = 0;} void HeapPrint(HP* php) {    for (int i = 0; i < php->size; i++) {        printf("%d ", php->array[i]);    }    printf("\n");} bool HeapIfEmpty(HP* php) {    assert(php);     return php->size == 0; // 如果为size为0则表示堆为空}          void HeapCheckCapacity(HP* php) {        if (php->size == php->capacity) {            int newCapacity = php->capacity == 0 ? 4 : (php->capacity * 2); //第一次给4,其他情况扩2倍            HPDataType* tmpArray = (HPDataType*)realloc(php->array, sizeof(HPDataType) * newCapacity); // 数组扩容            if (tmpArray == NULL) {  //检查realloc                printf("realloc failed!\n");                exit(EXIT_FAILURE);            }            //更新他们的大小            php->array = tmpArray;            php->capacity = newCapacity;        }    }                  void Swap(HPDataType* px, HPDataType* py) {            HPDataType tmp = *px;            *px = *py;            *py = tmp;        }           void BigAdjustUp(int* arr, int child) {        assert(arr);        // 首先根据公式计算算出父亲的下标        int parent = (child - 1) / 2;        // 最坏情况:调到根,child=parent 当child为根节点时结束(根节点永远是0)        while (child > 0) {            if (arr[child] > arr[parent]) {  // 如果孩子大于父亲(不符合堆的性质)                // 交换他们的值                Swap(&arr[child], &arr[parent]);                // 往上走                child = parent;                parent = (child - 1) / 2;            } else {  // 如果孩子小于父亲(符合堆的性质)            // 跳出循环                break;            }        }    }          void SmallAdjustUp(int* arr, int child) {        assert(arr);        // 首先根据公式计算算出父亲的下标        int parent = (child - 1) / 2;        // 最坏情况:调到根,child=parent 当child为根节点时结束(根节点永远是0)        while (child > 0) {            if (arr[child] < arr[parent]) {  // 如果孩子大于父亲(不符合堆的性质)                // 交换他们的值                Swap(&arr[child], &arr[parent]);                // 往上走                child = parent;                parent = (child - 1) / 2;            } else {  // 如果孩子小于父亲(符合堆的性质)            // 跳出循环                break;            }        }    }void HeapPush(HP* php, HPDataType x) {    assert(php);    // 检查是否需要扩容    HeapCheckCapacity(php);    // 插入数据    php->array[php->size] = x;    php->size++;    // 向上调整 [目标数组,调整位置的起始位置(刚插入的数据)]    SmallAdjustUp(php->array, php->size - 1);}           void SmallAdjustDown(int* arr, int n, int parent) {        int child = parent * 2 + 1; // 默认为左孩子        while (child < n) { // 叶子内            // 选出左右孩子中小的那一个            if (child + 1 < n && arr[child + 1] < arr[child]) {                child++;            }            if (arr[child] < arr[parent]) { // 如果孩子小于父亲(不符合小堆的性质)                // 交换它们的值                Swap(&arr[child], &arr[parent]);                // 往下走                parent = child;                child = parent * 2 + 1;            } else { // 如果孩子大于父亲(符合小堆的性质)                // 跳出循环                break;            }        }    }         void BigAdjustDown(int* arr, int n, int parent) {        int child = parent * 2 + 1; // 默认为左孩子        while (child < n) { // 叶子内            // 选出左右孩子中大的那一个            if (child + 1 < n && arr[child + 1] > arr[child]) {                child++;            }            if (arr[child] > arr[parent]) { // 如果孩子大于父亲(不符合大堆的性质)                // 交换它们的值                Swap(&arr[child], &arr[parent]);                // 往下走                parent = child;                child = parent * 2 + 1;            } else { // 如果孩子小于父亲(符合大堆的性质)                // 跳出循环                break;            }        }    }void HeapPop(HP* php) {    assert(php);    assert(!HeapIfEmpty(php));    // 删除数据    Swap(&php->array[0], &php->array[php->size - 1]);    php->size--;    // 向下调整 [目标数组,数组的大小,调整位置的起始位置]    SmallAdjustDown(php->array, php->size, 0);} HPDataType HeapTop(HP* php) {    assert(php);    assert(!HeapIfEmpty(php));     return php->array[0];} int HeapSize(HP* php) {    assert(php);     return php->size;}

第三种方法的参考代码:

#define _CRT_SECURE_NO_WARNINGS 1#include "Heap.h" void PrintTopK(int* arr, int N, int K) {     HP hp;                             // 创建堆    HeapInit(&hp);                     // 初始化堆     for (int i = 0; i < K; i++) {      // Step1: 创建一个K个数的小堆        HeapPush(&hp, arr[i]);    }     for (int i = K; i < N; i++) {      // Step2: 剩下的N-K个数跟堆顶的数据比较        if (arr[i] > HeapTop(&hp)) {   // 如果比堆顶的数据大就替换进堆            HeapPop(&hp);              // 此数确实比堆顶大,删除堆顶            HeapPush(&hp, arr[i]);     // 将此数推进堆中,数越大下沉越深                    }    }    HeapPrint(&hp);                    // 打印K个数的堆    HeapDestroy(&hp);                  // 销毁堆} void TestTopK() {    int N = 1000000;    int* arr = (int*)malloc(sizeof(int) * N);     srand(time(0)); // 置随机数种子    for(size_t i = 0; i < N; i++) {        // 产生随机数,每次产生的随机数都mod100w,这样产生的数一定是小于100w的        arr[i] = rand() % 1000000;     }        // 再去设置10个比100w大的数    arr[5] = 1000000 + 1;arr[1231] = 1000000 + 2;arr[5355] = 1000000 + 3;arr[51] = 1000000 + 4;arr[15] = 1000000 + 5;arr[2335] = 1000000 + 6;arr[9999] = 1000000 + 7;arr[76] = 1000000 + 8;arr[423] = 1000000 + 9;arr[3144] = 1000000 + 10;     PrintTopK(arr, N, 10); //测试用,所以给10个} int main(void) {    TestTopK(); return 0;}

运行结果

C语言怎么用堆解决Topk问题

函数解读

PrintTopK 解读

① 准备好我们实现好的堆之后,我们就可以写TopK的算法了。我们创建一个 PrintTopK 函数,函数需要接收存放数据的数组、数组的大小(N)和要找前多少个(K)。

② 首先创建一个堆,用来存放K 。按照规矩我们先把 HeapInit(初始化)和 HeapDestroy(销毁)先写好,防止自己不小心忘记销毁。

③ 核心步骤1:创建一个K个数的小堆,我们直接用 for 循环将数组中前K个值先逐个 HeapPush (堆的插入)进去。

这里不代表最后的结果,我们只是相当于 "默认" 认为这前K个数是最大的,方便我们后续进行比较替代。经过 HeapPush (堆的插入)后,这些数据会通过 SmallAdjustDown (小堆下调接口) 对数据进行相应的调整:

for (int i = 0; i < K; i++) {      // Step1: 创建一个K个数的小堆    HeapPush(&hp, arr[i]);}

④ 核心步骤2:除去K,将剩下的N-K个数据进行比较。我们再利用 for 循环将数组中剩下的N-K个数据进行遍历。

这里逐个进行判断,如果该数堆顶的数据 i<K(max),我们就进行替换操作。调用 HeapPop(堆的删除)删除堆顶的数据,给  让位。之后将其 HeapPush (堆的插入)推到堆中,就完成了替换的工作。值得一提的是,我们还可以不调用 Pop 和 Push 这两个操作,手动进行替换。hp.array [ 0 ] 就表示栈顶,我们将  赋值给它,随后再手动进行 SmallAdjustDown (小堆下调操作),传入相应的值即可:

for (int i = K; i < N; i++) {      // Step2: 剩下的N-K个数跟堆顶的数据比较    if (arr[i] > HeapTop(&hp)) {   // 如果比堆顶的数据大就替换进堆        HeapPop(&hp);              // 此数确实比堆顶大,删除堆顶        HeapPush(&hp, arr[i]);     // 将此数推进堆中,数越大下沉越深            }}

⑤ 当 for 遍历完所有数据之后,小堆中就保留了N个数据中最大的前K个数了。此时我们调用堆打印接口将小堆里的数据打印出来就大功告成了。

TestTopK 解读

① 这是用来测试我们写的TopK算法的函数。设置 N 的大小为 100w,动态内存开辟一块可以存下这么多数据的空间:

int N = 1000000;int* arr = (int*)malloc(sizeof(int) * N);

② 随后根据时间来置随机数种子,将每个元素都进行随机数的填充,每次产生的随机数都模上100w,这样可以保证产生的随机数一定是小于100w的。

srand(time(0));for(size_t i = 0; i < N; i++) {    arr[i] = rand() % 1000000; }

③ 随便写几个大于100w的数,便于测试:

// 再去设置10个比100w大的数arr[5] = 1000000 + 1;arr[1231] = 1000000 + 2;arr[5355] = 1000000 + 3;arr[51] = 1000000 + 4;arr[15] = 1000000 + 5;arr[2335] = 1000000 + 6;arr[9999] = 1000000 + 7;arr[76] = 1000000 + 8;arr[423] = 1000000 + 9;arr[3144] = 1000000 + 10;

④ 调用我们刚才实现好的 PrintTopK 函数,递交对应的参数后就可以进行测试了。这里为了方便测试,我们的K设置为10:

PrintTopK(arr, N, 10);

感谢各位的阅读!关于“C语言怎么用堆解决Topk问题”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

C语言怎么用堆解决Topk问题

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

C语言怎么用堆解决Topk问题

这篇文章给大家分享的是有关C语言怎么用堆解决Topk问题的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。前言将详细讲解如何利用小根堆的方法解决TopK问题,这么多数据要处理,该算法时间复度居然只需TopK问题Top
2023-06-21

C语言堆排序经典算法TopK问题怎么解决

本文小编为大家详细介绍“C语言堆排序经典算法TopK问题怎么解决”,内容详细,步骤清晰,细节处理妥当,希望这篇“C语言堆排序经典算法TopK问题怎么解决”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。问题描述:从a
2023-07-05

C语言堆排序经典算法TopK问题解析

这篇文章主要为大家介绍了C语言堆排序经典算法TopK问题解析,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
2023-05-15

C语言如何解决二叉堆问题

这篇文章给大家分享的是有关C语言如何解决二叉堆问题的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。一、堆的概念1、概述堆是计算机科学中一类特殊的数据结构的统称。实现有很多,例如:大顶堆,小顶堆,斐波那契堆,左偏堆,
2023-06-26

c语言汉诺塔问题怎么解决

解决汉诺塔问题的常见方法是使用递归。以下是使用递归解决C语言汉诺塔问题的示例代码:```c#include void hanoi(int n, char from_rod, char to_rod, char aux_rod) {if (n
2023-10-07

c语言怎么解决素数环问题

素数环问题是指在一个圆环上排列一组互不相同的素数,使得任意两个相邻的素数之和也是素数。解决素数环问题的一种方法是使用回溯法。以下是一个使用C语言实现的解法:```c#include #include // 判断一个数是否为素数bool is
2023-08-08

C语言轮转数组问题怎么解决

今天小编给大家分享一下C语言轮转数组问题怎么解决的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。题目描述给你一个数组,将数组中
2023-06-29

c语言小球反弹问题怎么解决

在C语言中,可以使用循环结构来模拟小球的反弹问题。以下是一个简单的解决方案:```c#include int main() {int height; // 小球初始高度int times; // 反弹次数printf("请输入小球
2023-08-18

C语言怎么解决兔子产子问题

本篇内容主要讲解“C语言怎么解决兔子产子问题”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“C语言怎么解决兔子产子问题”吧!1. 问题描述有一对兔子,从出生后的第 3 个月起每个月都生一对兔子。小
2023-06-29

C语言怎么解决轮转数组问题

本篇内容主要讲解“C语言怎么解决轮转数组问题”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“C语言怎么解决轮转数组问题”吧!题目1.题目描述给你一个数组,将数组中的元素向右轮转 k 个位置,其中
2023-06-30

c语言怎么解决24点游戏问题

这篇文章主要讲解了“c语言怎么解决24点游戏问题”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“c语言怎么解决24点游戏问题”吧!问题你有 4 张写有 1 到 9 数字的牌。你需要判断是否能通
2023-06-19

rabbitmq堆积问题怎么解决

RabbitMQ堆积问题可以通过以下几种方式来解决:增加消费者:可以通过增加消费者来提高消费速度,减少消息堆积。可以通过启动多个消费者实例,或者增加消费者的处理能力。提高消费者的处理能力:可以通过优化消费者代码,提高消息的处理速度。可以使
2023-10-26

Java怎么用堆解决Top-k问题

本篇内容介绍了“Java怎么用堆解决Top-k问题”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!1、什么是堆?堆结构堆其实就是一种二叉树,但
2023-06-30

C语言平衡二叉树问题怎么解决

这篇文章主要介绍“C语言平衡二叉树问题怎么解决”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“C语言平衡二叉树问题怎么解决”文章能帮助大家解决问题。一、题目描述给定一个二叉树,判断它是否是高度平衡的二
2023-06-30

c语言的连续赋值问题怎么解决

C语言的连续赋值问题是指在一条语句中连续赋值多个变量时可能会出现的问题。例如:int a, b;a = b = 10;在这个例子中,b的值会被赋为10,然后再将b的值赋给a。这样的连续赋值可能会导致意外的结果。要解决这个问题,可以使
2023-10-27

C语言怎么解决无重复数字问题

这篇文章主要介绍了C语言怎么解决无重复数字问题的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇C语言怎么解决无重复数字问题文章都会有所收获,下面我们一起来看看吧。题目:有1、2、3、4个数字,能组成多少个互不相同
2023-06-17

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录