我正在构建一个依赖机器学习算法输出的站点。站点面向用户的部分所需要的是算法的输出(一组项的类标签),它可以很容易地从django模型中存储和检索。该算法可以每天运行一次,不依赖于用户的输入。
所以这个站点的这一部分只依赖于django和相关的包。
但是,开发、优化和评估该算法使用了许多其他python包,如scikit-learn、pandas、numpy、matplotlib等。它还需要保存许多不同的类标签集。
这些依赖关系在部署到heroku时会引起一些问题,因为numpy需要LAPACK/BLAS.,在部署的应用程序中尽可能少依赖似乎也是很好的做法。
我如何将机器学习部分和面向用户的部分分开,但是,仍然有足够的集成,以便于使用算法的结果?
我想创建两个单独的项目,然后以某种方式写入面向用户的数据库,但这似乎会导致维护问题(管理依赖关系、更改数据库模式等)。
据我所知,这个问题与使用不同的设置或数据库进行生产和开发有点不同,因为它更多地是关于管理不同的依赖关系集。
发布于 2015-07-31 20:58:26
如果人们有同样的问题,请把我们讨论的内容移到答案上,我的建议是:
requirements.txt中。cron定期运行算法代码并推送数据。发布于 2015-07-31 21:09:43
为每个环境创建一个需求文件,为所有环境共享的包创建一个基本需求文件。
$ mkdir requirements
$ pip freeze > requirements/base.txt
$ echo "-r base.txt" > requirements/development.txt
$ echo "-r base.txt" > requirements/production.txt然后调整您的开发和生产依赖关系,并在适当的环境中安装每个依赖项。
#change to your development virtualenv
#$source .virtualenvs/development/bin/activate
$ pip install -r requirements/development.txt
#change to your production virtualenv
#$source .virtualenvs/production/bin/activate
$ pip install -r requirements/production.txthttps://stackoverflow.com/questions/31753685
复制相似问题