alitrack

其他

ollama 使用技巧集锦

"5m")从帮助文件可以看,我们通过设置环境变量(OLLAMA_MODELS)来指定模型目录,可以通过系统设置里来配置环境变量(系统变量或者用户变量)设置环境变量也可以通过命令行来配置set
4月9日 下午 4:50
其他

探索DuckDB:数组字段转多列就这么简单

弯曲成灵活的新形状。这里就不对PIVOT的使用详细展开了,官方的文档[2]写得非常详细了,网上看了几篇介绍PIVOT的文章,都不如官方文档写得详细。引用链接[1]
3月28日 上午 11:36
其他

探索DuckDB:将 SQL 弯曲成灵活的新形状

stacked_metrics我们现在已将数据拆分为多列,因此汇总指标非常直观且易于解释。nametypemaxminapprox_uniquenullsUnnamed:
3月4日 上午 11:13
其他

探索DuckDB:DuckDB 让 SQL 更友好

count;项目年份数量相位器21551035相位器215625039相位器215795000光子鱼雷2155255光子鱼雷215617899光子鱼雷215787492更多示例包含在我们DuckDB
2月15日 上午 11:00
其他

DuckDB 0.10.0 发布了,带来了重大更新

左右(由内存限制定义),则这些操作会开始卸载到磁盘。如果同时发生这些操作中的一个,则这种方法效果很好。如果同时发生多个内存密集型操作,它们的内存使用量总和可能会超过内存限制,从而导致
2月14日 上午 10:43
其他

大数据已死

核心呢?随着时间的推移和技术的进步,单机能够处理的工作负载比例大大增加以前,更大的机器价格昂贵得多。但是,在云中,一个使用整个服务器的虚拟机的成本仅比使用服务器的八分之一的虚拟机多
1月26日 上午 11:40
其他

简单代码让你的数据库聊天机器人支持Excel、CSV、JSON、Parquet甚至数据湖

'sqlite,memory';"""vn.connect_to_duckdb(url=':memory:',init_sql=init_sql)vn.ask('What
1月21日 上午 9:15
其他

5行代码打造你的大模型数据库聊天机器人

vn.get_plotly_figure(plotly_code=vn.generate_plotly_code(question=my_question,
1月20日 上午 9:45
科技

Postgres如何访问MotherDuck

链接,这是创建共享链接给别人用,如果用别人共享给你的,就不需要自己创建了。另外为了方便测试,在共享数据库里上传了个
2023年12月18日
其他

DuckDB中Catalog与Schema在duckdb_fdw有啥用?

information_schema.tables;返回┌───────────────┬──────────────┬────────────┬────────────┐│
2023年12月17日
其他

macOS 下编译测试 duckdb_fdw

dlopen(/Applications/Postgres.app/Contents/Versions/16/lib/postgresql/duckdb_fdw.dylib,
2023年12月16日
其他

Airflow从零到神学习心得

访问https://space.bilibili.com/1311328717/channel/collectiondetail?sid=43276
2022年11月5日
其他

爬虫代码都自动生成,Python,Java,Javascript随你选

会把我们在网页上执行的操作自动转成代码。最简单的用法就是playwright
2022年10月23日
自由知乎 自由微博
其他

Playwright实战,爬取微软Rust入门教程视频

仍然使用上面的代码,只是换了下链接,看是否能否得到想要的图片,beginners-series-to-rust.png很遗憾,只有部分内容,经过研究后,是页面没有加载完全,
2022年10月22日
其他

直接从 DuckDB 查询 Postgres 表

OLAP[4],在这种情况下,要读取大块的表来创建存储数据的摘要。然而,在许多用例中,交易用例和分析用例都很重要,例如,当试图获得对交易数据的最新商业智能洞察力时。已经有人尝试构建在两种工作负载
2022年10月1日
其他

Superset通过PostgreSQL 访问数据湖

'/Users/steven/data/iris',iris.head(),mode='overwrite')更新物化视图之前select
2022年7月26日
其他

视频提取PPT开箱即用版本发布

https://github.com/alitrack/video2pdfslides需要下载开箱即用版本的,请关注公众号,并回复video2pdf
2022年5月10日
其他

DuckDB访问数据湖

表示特定版本的增量表的状态。这包括哪些文件是当前表的一部分、表的结构以及其他元数据,例如创建时间。加载本地文件系统的数据湖(当前版本)path
2022年4月21日
其他

从视频中提取PPT,并转为PDF

各个像素之间是没有相关性的,跟它们算法思想不同的方法主要是基于马尔可夫随机场理论,认为每个像素跟周围的像素是有相关性关系,但是基于马尔可夫随机场的方法速度与执行效率都堪忧!所以
2022年3月4日
其他

SQL on DataFrame,多快好省

最慢,接下来放弃它了选取部分列lineitem_df[['l_shipdate','l_extendedprice','l_quantity','l_partkey']].head()
2021年9月17日
其他

​单机下如何更快更准确查询Parquet?

还允许我们在扫描中执行过滤器下推。一旦我们添加了这一点,我们就会以更有竞争力的70ms方式完成查询。len(pandas.read_parquet('alltaxi.parquet',
2021年9月16日
其他

ClickHouse与开源的Amazon S3对象存储

https://clickhouse.tech/docs/en/engines/table-engines/integrations/s3/#wildcards-in-path[4]文件格式:
2021年3月29日
其他

Delta Lake 中使用 Spark SQL DDL 和 DML

Club[1]下载链接:https://pages.databricks.com/rs/094-YMS-629/images/SAISEU19-loan-risks.snappy.parquet运行
2021年3月26日
其他

Delta Lake 快速入门-PySpark 版

spark.readStream.format("delta")\.load("/tmp/delta-table").writeStream.format("console").start()关闭
2021年3月22日
其他

【译】Azure帮你简化Lakehouse架构

文件格式的优化计算[6],包括数据跳过和数据源缓存功能,可实现更快的查询预装了一个机器学习运行时[7],优化的模型开发和培训库。这也包括开源的Koalas[8],它使数据科学家能够使用在
2021年3月21日
其他

【译】什么是 Lakehouse(湖仓)

和分析。可能需要多种工具来支持所有这些工作负载,但它们都依赖于同一数据存储库。端到端流:实时报告是许多企业中的标准。对流的支持消除了对专门用于服务实时数据应用程序的单独系统的需求。这些是
2021年3月20日
其他

PostgreSQL实现动态行转列的方法汇总

文档(中文[1],英文[2])。如果不清楚生成的宽表有多少列,或者列太多,手工敲很容易吃力不讨好,那么可以借助这个函数(pivotcode)来简化工作,--
2020年12月25日
其他

5 分钟介绍DuckDB:SQLite for Analytics

sales').fetchall())cursor.close()conn.close()在上面显示的代码片段中,我们连接到数据库并执行了一些查询。首先,我们创建一个销售表,然后将它们从
2020年11月3日
其他

给usql添加DuckDB支持

connected)=>usql[1]是一款通用的支持多种数据库的命令行客户端(类似于图形版的数据库客户端,如DBeaver),使用Go语言开发,支持30多种数据库,Database
2020年10月16日
其他

DuckDB FDW(外部数据包装器)来了

生态完善,那么就借势让DuckDB适应更多的应用场景,同时也给PostgreSQL带来强大的OLAP能力。一个duckdb_fdw相当于,DuckDB
2020年10月15日
其他

DuckDB批量转CSV为Parquet

'parquet')那AirOnTimeCSV有303个,怎么办?脚本实现借助Python很容易实现(昨天的代码里已经有范例),今天介绍下纯脚本的实现,for
2020年10月13日
其他

Python单机查询1.5亿行数据秒出

是学Sparklyr的时候看到一篇文章,使用Sparklyr导入30GB数据[1],具体文章内容,有兴趣的自己看,这里就不展开了。AirOnTime87to12是一份航线准点率(
2020年10月11日
其他

Why DuckDB

http://www.btw-2015.de/res/proceedings/Hauptband/Wiss/Neumann-Unnesting_Arbitrary_Querie.pdf[31]
2020年10月10日
其他

一文搞懂PostgreSQL物化视图

视图(View):一个名字(视图的名字),对应着一个SQL查询语句。做查询时,把视图的名字当作表名使用,PostgreSQL会使用对应的SQL查询语句替换视图名称,然后做查询,返回最终的结果。
2020年8月28日
其他

编码的烦恼

做开发的朋友都会碰到各种各样的编码问题,一不小心就是各种乱码。我在「如何让你的Python应用程序分发变得很容易?」绍到的q(一款直接写SQL查询CSV或者TSV的小工具),它读入CSV的时候默认UTF-8,如果不是,需要你指定编码,如果可以让q自动判断编码(或者有工具帮我们判断),是不是可以省事很多?我在做项目的时候,有个客户把数据从数据库导出CSV传给了我们,我们在读入后,发现结果串行了,经研究发现,是因为乱码(汉字出现了截断,具体原因是客户的数据库编码使用了ISO-8859-1,加之长度设置不够,碰到中英文混合输入,并且结尾为中文的时候,就可能出现只保留某个汉字一半字节的情况),最后使用iconv过滤掉无法识别的字符,至于缺失的字符,也没有办法了(数据库里就已经发生了缺失)。下面我介绍几个Python下和编码有关的包,希望能对解决编码对问题起到帮助。Chardet:
2020年5月3日
其他

如何让你的Python应用程序分发变得很容易?

开始今天的话题前,我想先讲一个我很早之前做的尝试。无意间发现一份diffpdf源代码,作者提供了Linux的编译版本,但没有Windows编译版本,我经过努力,编译成功了,并放到了我的博客上(http://rubypdf.com),受到了欢迎,diffpdf也从一种半死不活的状态慢慢出名了起来。这是否说明,对最终使用者来说,东西不仅要好,还得用起来方便。这点对于Python应用程序来说呢?平时我们部署一个Python程序,一般怎么做?下载Python安装包设置虚拟环境安装各种依赖包安装程序因为环境的变化,各种报错调试。。。如果不需要装乱七八糟的前期准备工作,就可以顺利使用起来,
2020年5月1日
其他

只会JavaScript,也可以在浏览器里写爬虫

a.click()//获取所有课程的节点lectures=this.document.getElementsByClassName("lectures-container
2020年4月25日
其他

Python打包exe的王炸-Nuitka

python写代码很爽,一直写一直爽!打包的时候就不一定爽鸟废话不多说,直接上视频网上可用可操作的例子的不多,实战的更不多,这篇文章将翔实的介绍Nuitka打包python文件,祝各位早日用上Nuitka,不再被其他语言给鄙视Python唯二的难题运行速度和源代码反编译,一直是被众多语言所诟病Nuitka项目就是解决这两个难题而生的,看看Nuitka的那个糟老头子作者怎么说的(Kay
2020年4月24日
其他

MacOS 下Nuikta编译PyQt5程序碰到的坑

\--plugin-enable=qt-plugins=sqldrivers,iconengines,imageformats,mediaservice,platforms,printsupport
2020年4月20日
其他

macOS下安装PostgreSQL的方法汇总

Postgresqlhttps://www.2ndquadrant.com/en/resources/2uda/2UDA(2ndQuadrant
2019年6月29日
其他

在PostgreSQL里进行机器学习:KMEANS 聚类尝试

10行解释机器学习每个阅读报纸,杂志或任何其他普遍感兴趣的媒体的人至少都对机器学习的基本概念有所了解。机器学习不仅仅是一种时尚,它更成为我们日常生活的一部分,并且将来会更多:从互联网上的个性化广告到机器人牙医或自动驾驶汽车,机器学习似乎成为一切事物的某种超能力。
2019年6月19日
其他

PostgreSQL与过程语言PL/Python

PostgreSQL,https://dev.nextthought.com/blog/2018/09/getting-started-with-pgsql-plpythonu.htmlSimple
2019年6月18日
其他

这两款软件可以解决你大部分编码的烦恼

一个客户的数据存储在sybase里,当他把数据导出为CSV给我的时候,不管我怎么处理,都无法正常导入,细查并确认后才知道,他们数据库采用的编码是ISO-8859-1,
2019年5月5日
其他

开源BI Metabase与Spark SQL的碰撞

metabase.jar访问(默认端口3000)及配置http://localhost:3000备注@rem
2019年5月4日
其他

Spark Thrift Server快速入门

经常有初学Spark的朋友问我,"没有合适的环境让我方便学习SQL,我熟悉MySQL(或者Postgres,MSSQL),我不喜欢命令行的方式(spark-sql),推荐一个好用的客户端吧",
2019年5月2日