Python开源项目合集(大数据和人工智能)

2022-11-4 11:51| 发布者: uoq88fyy83dxz6| 查看: 1854| 评论: 1

这里是默认签名


pandas - 为 Python 编程语言提供高性能,易用数据结构和数据分析工具。在数据改动和数据预处理方面,Python 早已名声显赫,但是在数据分析与建模方面,Python 是个短板。Pands 软件就填补了这个空白,能让你用 Python 方便地进行你所有数据的处理,而不用转而选择更主流的专业语言,例如 R 语言。12 个使效率倍增的 Pandas 技巧 上、 下 。
项目地址:https://github.com/pydata/pandas

pulp - PuLP 是一个用 Python 编写的线性编程模型。它能产生线性文件,能调用高度优化的求解器,GLPK,COIN CLP/CBC,CPLEX,和GUROBI,来求解这些线性问题。
项目地址:https://github.com/pulp/pulp

Matplotlib - Matplotlib是基于 Python 的 2D(数据)绘图库,它产生(输出)出版级质量的图表,用于各种打印纸质的原件格式和跨平台的交互式环境。matplotlib 既可以用在 python 脚本, python 和 ipython 的 shell 界面 (ala MATLAB® 或 Mathematica®),web 应用服务器,和6类 GUI 工具箱。matplotlib 尝试使容易事情变得更容易,使困难事情变为可能。你只需要少量几行代码,就可以生成图表,直方图,能量光谱(power spectra),柱状图,errorcharts,散点图(scatterplots)等。
项目地址:https://github.com/matplotlib/matplotlib

Scikit-Learn - Scikit-Learn是一个简单有效地数据挖掘和数据分析工具(库)。关于最值得一提的是,它人人可用,重复用于多种语境。它基于 NumPy,SciPy 和 mathplotlib 等构建。
项目地址:https://github.com/scikit-learn/scikit-learn

Spark -Spark 由一个驱动程序构成,它运行用户的 main 函数并在聚类上执行多个并行操作。Spark 最吸引人的地方在于它提供的弹性分布数据集(RDD),那是一个按照聚类的节点进行分区的元素的集合,它可以在并行计算中使用。RDDs 可以从一个 Hadoop 文件系统中的文件(或者其他的 Hadoop支持的文件系统的文件)来创建,或者是驱动程序中其他的已经存在的标量数据集合,把它进行变换。用户也许想要 Spark 在内存中永久保存 RDD,来通过并行操作有效地对 RDD 进行复用。最终,RDDs 无法从节点中自动复原。Spark 中第二个吸引人的地方在并行操作中变量的共享。
项目地址:https://github.com/apache/spark

SciPy - SciPy是一个开源的Python算法库和数学工具包,SciPy包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号 处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。其功能与软件MATLAB、Scilab和GNU Octave类似。Numpy和Scipy常常结合着使用,Python大多数机器学习库都依赖于这两个模块。
项目地址:http://www.scipy.org/

NumPy - NumPy几乎是一个无法回避的科学计算工具包,最常用的也许是它的N维数组对象,其他还包括一些成熟的函数库,用于整合C/C++和 Fortran代码的工具包,线性代数、傅里叶变换和随机数生成函数等。NumPy提供了两种基本的对象:ndarray(N-dimensional array object)和 ufunc(universal function object)。ndarray是存储单一数据类型的多维数组,而ufunc则是能够对数组进行处理的函数。
项目地址:http://www.numpy.org/

ipython - iPython 是一个Python 的交互式Shell,比默认的Python Shell 好用得多,功能也更强大。 她支持语法高亮、自动完成、代码调试、对象自省,支持 Bash Shell命令,内置了许多很有用的功能和函式等,非常容易使用。默认开启了matploblib的绘图交互,用起来很方便。jupyter-notebook - jupyter官网。
项目地址:http://ipython.org/

PyML - PyML是一个Python机器学习工具包,为各分类和回归方法提供灵活的架构。它主要提供特征选择、模型选择、组合分类器、分类评估等功能。
项目地址:http://pyml.sourceforge.net/

gensim - gensim是一种NLP(自然语言处理),它提供了一些常用算法,例如 tf-idf、word2vec、doc2vec、LSA 等的快速、可拓展(内存无关)实现,同时还提供了简单易用的接口和完善的文档。
项目地址:https://github.com/piskvorky/gensim/

Blaze - Blaze 是下一代的 NumPy。用于处理分布式的各种不同数据源的计算。
项目地址:https://github.com/blaze/blaze

Dask - Dask是一款基于外存的Python 调度工具。它通过将数据集分块处理并根据所拥有的核数分配计算量,这有助于进行大数据并行计算。它主要针对单机的并行计算进程。 异 * GWPY - GWPY一个可以分析引力波数据的Python包。
项目地址:https://pypi.python.org/pypi/dask/

nupic - 使用的机器学习算法叫做脑皮质学习算法。
项目地址:https://github.com/numenta/nupic

RocAlphaGo - 一个模仿AlphaGo的项目,围棋和深层神经网络树搜索。
项目地址:https://github.com/Rochester-NRT/RocAlphaGo

agagd - 美国围棋选手使用的自动评级系统,不发段位证。
项目地址:https://github.com/usgo/agagd

mrjob - 用Python来写MapReduce任务时非常有用的库。它允许你实现自己的 Mapper 和 Reducer 。在本地环境运行/测试你的MapReduce任务,然后部署到EMR或者你自己的MapReduce集群。官网。
项目地址:https://github.com/Yelp/mrjob

natsort - 默认sorted方法已经足够高效,并且能够满足你大多数时候的排序需求。
项目地址:https://pypi.python.org/pypi/natsort

OpenAI universe - 是一个能在世界上所有的游戏、网站和其他应用中,衡量和训练AI通用智能的软件平台。
项目地址:https://github.com/officert/mongotron

TensorFlow - 是一个开源软件库的AI引擎,用于使用数据流图进行数值计算。TensorFlow还包括TensorBoard,一个数据可视化工具包。
项目地址:https://github.com/tensorflow/tensorflow

aiexperiments-ai-duet - 通过机器学习制作音乐。在许多MIDI例子上训练了一个神经网络,它学习有关音乐概念的知识、构建音符和节拍图谱。你只需弹奏几个音符,然后看看这个神经网如何回应。
项目地址:https://github.com/googlecreativelab/aiexperiments-ai-duet

Securitybot - 一个分布式告警聊天机器人的开源实现,如Ryan Huber的播客中所述。分布式告警改善了你的安全团队的监控效率,可以帮助你更快更有效地捕获安全事件。
项目地址:https://github.com/dropbox/securitybot

Tweetfeels - 使用推特的streaming API的实时情感分析。它依赖于VADER情感分析,为用户定义的主题提供情感分数。它通过利用推特的streaming API来监听关于特定主题的实时推特,从而实现此目的。
项目地址:https://github.com/uclatommy/tweetfeels

scikit-plot - 一个直观的库,用于添加绘图功能到scikit-learn对象。
项目地址:https://github.com/reiinakano/scikit-plot

ChainerRL - ChainerRL是一个建立在Chainer之上的深度强化学习库。
项目地址:https://github.com/pfnet/chainerrl

mpi4py - Mpi4py是构建在mpi之上的python库,使得python的数据结构可以在进程(或者多个cpu)之间进行传递。
项目地址:http://mpi4py.scipy.org/docs/usrman/tutorial.html

pylearn2 - 一个基于Theano的机器学习库,大部分功能是基于Theano顶层实现的。
项目地址:https://github.com/lisa-lab/pylearn2

PyMC - PyMC是一个实现贝叶斯统计模型和马尔科夫链蒙塔卡洛采样工具拟合算法的Python库。PyMC的灵活性及可扩展性使得它能够适用于解决各种问题。除了包含核心采样功能,PyMC还包含了统计输出、绘图、拟合优度检验和收敛性诊断等方法。
项目地址:https://github.com/pymc-devs/pymc

PCN-FaceDetection-FaceAlignment - PCN 多角度实时人脸检测项目。
项目地址:https://github.com/Jack-CV/PCN-FaceDetection-FaceAlignment

dask - 能提供 NumPy Arrays,Pandas Dataframes 和常规列表的抽象,允许多核处理并行运行。
项目地址:https://github.com/dask/dask

face_recognition - face_recognition是一个强大、简单、易上手的人脸识别开源项目,并且配备了完整的开发文档和应用案例,特别是兼容树莓派系统。项目README文件已经被同济大学开源软件协子豪兄Tommy翻译成中文,此项目是世界上最简洁的人脸识别库,你可以使用Python和命令行工具提取、识别、操作人脸。同时此项目的人脸识别是基于业内领先的C++开源库dlib中的深度学习模型,用Labeled Faces in the Wild人脸数据集进行测试,有高达99.38%的准确率。但对小孩和亚洲人脸的识别准确率尚待提升。
项目地址:https://github.com/ageitgey/face_recognition

Modin - 通过更改一行代码来加速你的pandas工作流,让pandas运行的更快,Modin使用Ray来加速pandas。
项目地址:https://github.com/modin-project/modin

Ray - 基于python的高性能实时并行机器学习框架,有望取代Spark。
项目地址:https://github.com/ray-project/ray/

keras - Keras是一种高度模块化,使用简单上手快,合适深度学习初学者使用的深度学习框架。Keras由纯Python编写而成并以Tensorflow、Theano以及CNTK为后端。Keras为支持快速实验而生,能够把你的idea迅速转换为结果。
项目地址:https://github.com/keras-team/keras

tensorflow-models - 使用TensorFlow构建模型和示例。
项目地址: https://github.com/tensorflow/models

tensorflow-internals - 开源技术书:TensorFlow内核剖析。
项目地址:https://github.com/horance-liu/tensorflow-internals

numpy-ml - 普林斯顿博士后 David Bourgin用 NumPy 手写所有主流 ML 模型, 超过 3 万行代码、30 多个模型,这也许能打造「最强」的机器学习基石。
项目地址:https://github.com/ddbourgin/numpy-ml

3b1b/manim - 3b1b/manim:面向数学方向的的可视化动画引擎,通过编程的方式来创造简洁的可视化动画。https://www.3blue1brown.com/
项目地址:https://github.com/3b1b/manim

bustag - 基于机器学习的老司机车牌自动推荐系统,是一个基于python 异步爬虫框架开发aspider的自动车牌推荐系统, 系统原理为定时爬取最新车牌信息, 然后可以对车牌进行打标(标示是否喜欢), 打标车牌到一定数量可以进行训练并生成模型, 以后就可以基于此模型自动对下载的车牌进行预测是否喜欢, 可以过滤掉大量不喜欢的车牌, 节约时间。
项目地址:https://github.com/gxtrobot/bustag
这里是默认签名
回复

使用道具 举报

上一篇:素食主义者并不苗条!想要瘦得健康,不妨做好这5点

下一篇:安利python的实用书单,一起学习人工智能

sitemap.txt | sitemap.xml | sitemap.html |Archiver|手机版|小黑屋|彩虹邦人脉系统 ( 皖ICP备2021012059号 )

GMT+8, 2024-11-23 06:45 , Processed in 0.327485 second(s), 60 queries .

快速回复 返回顶部 返回列表