国内有哪些研究数据库的高校和团队?

2023-03-26 14:01:03
如题,目前人工智能越来越火,但计算机领域一些底层技术,如数据库相关技术却很少在知乎看到大面积讨论,楼主考虑未来从事本方向的研究,恳请各位知友告知国内有哪些高校、研究团队、老师做这个方向的研究?'

不请自来。本人是数据库行业的从业者,刷过一些课程看过一些论文也做过一些工程。总结一下我了解到的国内的研究数据库比较强的高校和团队。

高校。以下这些提到的高校老师我都看过他们的论文:

  1. 清华大学张焕晨老师。Huanchen Zhang。张老师的实力非常非常强,具体大家去看他的论文就知道了,代表作有Surf,是sigmod2018 best paper。张老师还是第一个获得Jim Gray奖的华人,这个奖基本上可以说是近15年来数据库领域的学生的最高荣誉了,他同时也是cmu历史上第二个获得该奖项的人(第一个是Joy Arulraj,nvm领域的首屈一指的专家,著名教授Andy Pavlo的第一个博士生,Andy本人也曾获此荣誉)。张老师现在在清华叉院,据我了解到他基本上是将全部精力都放在了学校,为此放弃了很多外面的机会。而且张老师非常年轻,现在完全在学术一线上。我个人认为这里是国内数据库研究的最佳去向之一。
  2. 清华的李国良老师。李老师的组每年都发不少sigmod&vldb,是国内高校为数不多能稳定输出这两大会的组,近几年也做了不少ai和db的交叉工作。李老师本人也在MIT的数据库组做过一年的学术访问,当时与数据库领域现如今唯一的图灵奖获得者Mike Stonebraker以及数据库领域现在的中流砥柱之一Sam Madden有密切合作。
  3. 中科院的陈世敏老师。陈老师是cmu的博士,也有很多很有影响力的工作。两年前曾经有幸参加过一场陈老师也参加的论坛,印象非常深刻的是陈老师当时讲nvm的工作,能感受到他虽然早就功成名就了,但如今仍然在一线上写很多代码,这(在国内的大环境下)可以说是非常难得的。向陈老师学习。
  4. 浙江大学的伍赛老师。比起上面几位老师,赛哥比较声名不显,但其实他的实力也非常强,人品也非常好,很为学生着想。想在浙大做数据库的话,赛哥是一个很好的选择。
  5. 浙江大学的孙建伶老师。孙老师同样是在浙大做数据库的一个很好的选择。
  6. 上海交通大学的ipads实验室。ipads主做系统,可以说无论是教育还是科研都是国内系统领域的一面旗帜。里面也有一些老师做数据库方向。
  7. 北京大学崔斌老师。崔老师同样发了不少sigmod&vldb,应该说是在北大做数据库的很好的选择。

还有一些其他回答提到的老师,包括浙大的陈刚老师等老师,人大东北大学等学校的老师,这里我就不一一赘述了。

工业界:

  1. 首先当然要厚着脸皮介绍一下我们的团队啦。DolphinDB是一家分布式时序数据库公司,CEO/CTO @Davis (Xiaohua Zhou)从12年开始就着手开发产品DolphinDB,并于16年回国创业至今。DolphinDB作为一款数据库产品我个人认为有以下几大亮点。首先,DolphinDB几乎所有组件都是纯自研的,包括不限于分布式文件系统(对时序/olap这样的场景做了特定的优化),raft(大量参考了etcd),mpp sql执行引擎,存储引擎olap(纯列存)、tsdb(基于lsm-tree的pax存储)和imoltp(内存oltp存储引擎),流数据引擎,底层文件系统网络协议,自己的编程语言,1500+常用的向量化计算函数,支持单机和分布式事务......纯自研的选择有很多原因,但最主要的有两个,一个是当年Davis做研发的时候这些组件基本都没有什么比较好的开源实现,第二个是为了做到自主可控,可以对我们在乎的场景做特定的优化。其次,DolphinDB计算引擎和脚本引擎强大,可在数据库里结合sql和脚本引擎直接写代码编程,支持条件判断、循环、异常处理、向量化编程、元编程等等,非常灵活,这些自定义的udf也可以直接应用在所有的存储引擎和流数据引擎中。第三,DolphinDB支持投研生产一体化,可支持批流一体。第四,DolphinDB深入业务提供非常多高效实现的常用函数等,落地和营收一直做得很好。我本人是我们公司的研发负责人之一,对我们团队感兴趣的同学可以参考知乎回答:https://www.zhihu.com/question/481846135
  2. pingcap。pingcap可以说是国内数据库团队尤其是开源领域的一面旗帜。pingcap的介绍文章非常多,知乎上一搜一大把,我这里就不赘述了。我个人接触过在或者曾在pingcap的同学基本都很强。
  3. OceanBase。这个也没啥好多说的,大家应该都了解。本来这里写了一点关于OceanBase的介绍,但是知乎要求我删掉,那就删掉吧。
  4. 阿里的polardb等各种db团队。阿里的数据库团队还是很强的,各种数据库团队都有,实力也都算国内最顶级的。总得来说阿里的数据库团队氛围在阿里中也算首屈一指了。
  5. 阿里达摩院团队。这个基本上是国内工业界做研究的最佳去处了,里面有很多大牛。
  6. starrocks/selectdb 虽然前两年有一些争议,但这两家基本上都可以说是国内olap创业公司的佼佼者了。我有一些朋友在这两家,水平也相当不错。
  7. nebula graph 同样在杭州的团队,做开源图数据库。和里面的一些前辈交流过,技术相当强,work life balance也做得比较好。 @闻棠 现在在这里工作。
  8. risingwave。 @Yingjun Wu 的开源流数据库创业公司,里面大佬很多很强。
  9. @雷鹏 的组。之前是做rocksdb fork的,做了很多很有用的工作。

公司这块也可以参考这个问题:https://www.zhihu.com/question/530189411国内还有非常非常多的数据库创业公司或者大厂的数据库组,其他的我就不太了解了,这里仅列举我有一些了解的以上公司。如果有错误,还请批评指正。

,

不邀自来,简单来说,国内研究数据库的团队可能不少,但是真正从底层到应用来完整做一个工业级的数据库产品团队不多。目前数据库正在往分布式、智能化方向发展,据我浅薄的了解,国内在这方面领先的团队有:

OceanBase:蚂蚁金服阳正坤老师的团队,分布式数据库,兼容MySQL协议,服务于蚂蚁金服各类产品,产品相对成熟;

TiDB:技术初创型公司PingCAP的分布式开源数据库产品,受谷歌的Spanner论文启发而创造的分布式数据库产品,在众多互联网公司内得到了较多应用,倡导开源精神;

X-DB:阿里巴巴集团新一代分布式数据库,前身是AliSQL,产品形态上也对标Spanner,其1.0版本已服务于阿里巴巴集团大多数耳熟能详的产品

PolarDB:阿里云团队开发的数据库产品,对标AWS的Aurora,与上述三者在产品定位上有所区别,不过了解不多。

刚加入X-DB,可以稍微展开说一下X-DB

产品定位:低成本、高性能的全球化通用数据库。支持全球化部署,并通过自研的数据复制技术在多地域进行数据同步,保证数据的高可靠和高可用。性能上追求水平和垂直扩展的双管齐下,压榨每一滴性能、压缩每一分成本;

技术栈:典型工程师文化,自研了X-Engine、X-PAXOS、X-RPC、GMS等组件,涵盖了高性能低成本存储引擎、高性能PAXOS协议、RPC、分布式集群管理、调度等范畴;

AI:数据库和人工智能的融合,这也是X-DB目前在发力探索领域,在不远的将来应该能够看到落地成果;

团队:全球化。目前在杭州、北京、深圳、美国四地同步研发,团队近50人,据不完全统计,博士比例接近1/3,压力山大;

商业化:在不久的将来大家能够在阿里云上体验X-DB了,我们正为此不懈努力。

最后,对X-DB技术感兴趣的同学可以关注微信公众号:XDBTech。同时也热忱欢迎各路英才加盟,私信于我。

'