你在用 Pandas 做数据分析?有没有试过,写一行代码查个数据要查文档、debug、反复试?
PandasAI 要解决的就这问题——不用写代码,直接说话就能查 CSV、SQL、Excel 里的数据。
是什么
PandasAI 是一个 Python 库,让你用自然语言跟数据"聊天"。你问「每个地区的平均营收是多少」,它自动生成代码、跑一遍、把答案给你。
背后靠的是 LLM(GPT-4、Claude 等)把自然语言翻译成 Python/SQL 代码,然后在你的数据上执行。
GitHub 上 23.5K Stars,2025 年 10 月刚发了 v3.0 大版本。
核心能力
多数据源,一句话搞定。 CSV、SQL 数据库、Parquet、Excel——所有数据格式统一用自然语言查。不用记住每个格式的 API。
自动出图。 你问「画个柱状图看各国 GDP」,PandasAI 自己选图表类型、生成代码、跑出图。支持直方图、折线图、散点图、饼图等。
多 DataFrame 关联查询。 两个表关联查——「工资最高的员工是谁?」——把员工表和薪资表丢给它,一句搞定。
Docker 沙箱。 AI 生成的代码未必安全,你也不敢让它直接跑。PandasAI 的 Docker 沙箱隔离环境里执行,代码翻车了也不影响本机。
支持多种 LLM。 除了 OpenAI 的 GPT 系列,也支持 LiteLLM 接入 Anthropic、Google、HuggingFace 等模型。企业也可以用 Azure OpenAI。
安装使用
pip install pandasai pandasai-litellm
三行代码就能跑:
import pandasai as pai
from pandasai_litellm.litellm import LiteLLM
pai.config.set({"llm": LiteLLM(model="gpt-4.1-mini", api_key="你的KEY")})
df = pai.read_csv("data.csv")
print(df.chat("每个地区的平均营收是多少?"))
就是这么简单。不用写 DataFrame 的 groupby、agg、merge,说人话就行。
不是没有槽点
依赖 LLM 质量。 模型理解不对,查询结果就错。GPT-4 还好,便宜模型有时会把「平均营收」理解成「总营收」——你没发现就用了错误数据。
中文支持一般。 v3.0 有修复中文 prompt 的补丁,但比起英文场景还是差一截。问复杂的问题,中文容易翻车。
Python 版本限制。 只支持 Python 3.8-3.11。3.12 以上的用户有点尴尬(2025 年 10 月的 issue,到现在没修)。
沙箱要 Docker。 Docker 沙箱是 v3.0 重点推的功能,前提是你本机得有 Docker。不是所有人都有——特别是笔记本用户。
企业版闭源。 EE 目录的代码有自己的授权协议,不是 MIT。真要落地到生产环境,得看商业条款。
跟同类怎么比
vs ChatGPT + Code Interpreter: ChatGPT 也能分析 CSV,但它看不懂你本机 SQL 数据库和 Parquet 文件。PandasAI 直接在你本地数据上跑,不用上传。
vs LangChain + SQL Agent: LangChain 也能 text-to-SQL,但配置复杂得多。PandasAI 三行搞定,门槛低得多。
vs 手动 Pandas: 老手写 Pandas 肯定更快更准,但「看一眼数据啥样」「查个大概」的场景,PandasAI 省时间。新手尤其友好。
我的建议:日常快速摸数据用 PandasAI,关键分析还是手写代码来保证。它是个好帮手,不是替代品。
GitHub:https://github.com/sinaptik-ai/pandas-ai
官方网站:https://pandas-ai.com
标签:#PandasAI #数据分析 #自然语言查询 #TextToSQL #AI数据分析 #Python #数据可视化
关注我,每期分享一个帮你省事的强大工具 🛠️