AI智能报表助手

AI智能报表助手

目标:通过对话一句话智能引导出报表

NL2SQL

自然语言转换为sql

数据集

  • ATIS&GeoQuery数据集:ATIS数据集来源于机票订阅系统,与美国的地理相关,包含880条问题及对应的SQL语句,属于单一领域但上下文无关的数据集
  • WikiSQL数据集:基于维基百科标注了一个大型数据集,包含了80654条训练数据,涉及26521个数据库,仅支持简单的SQL操作
  • Spider数据集:目前最为复杂的Text-to-SQL数据集,涵盖了138个领域的200多个数据库,SQL语句更为复杂,包括了多种关键字和嵌套查询
  • 中文CSpider数据集:西湖大学在EMNLP2019上发布了一个中文的Text-to-SQL数据集,这个数据集基于Spider数据集,对其中的问题进行了翻译

    开源项目参考

    ChatSQL

    DB-GPT

    SqlChat

    Chat2DB

    ChatBi

    AI大模型

    决策树

    基础中的基础

    决策树是一种简单而直观的AI模型。它就像一张流程图,每个节点代表一个决策点,每个分支代表一个可能的答案,最终导向一个结果。例如,我们可以使用决策树来判断一封邮件是否为垃圾邮件

    随机森林与梯度提升

    集成学习的力量

    尽管决策树简单易懂,但其预测能力有限。为了提升性能,我们可以使用集成学习,将多个模型组合成一个强大的模型。随机森林和梯度提升是两种流行的集成学习方法。随机森林通过构建多个决策树并综合它们的预测结果来提高准确性;而梯度提升则逐步优化模型的预测错误,逐步逼近最佳结果

    神经网络

    模拟人脑的学习过程

    包含一个输入层、一个或多个隐藏层和一个输出层, 如果任何单个节点的输出高于指定的阈值,那么会激活该节点,并将数据发送到网络的下一层。 否则,不会将数据传递到网络的下一层,与由人类专家进行的人工识别相比,语音识别或图像识别任务可能只需要几分钟而不是数小时。

    用于处理复杂的任务,如图像识别、语音识别和自然语言处理、如Google搜索

    深度学习

    神经网络的进阶

    深度学习是神经网络的一个分支,它利用大量的数据和计算资源来训练深度神经网络。通过逐层学习和特征提取,深度学习模型能够自动发现输入数据中的复杂模式,从而实现高度精确的预测和分类。如今,深度学习已广泛应用于自动驾驶、医疗诊断、金融预测等领域

    实践中的选择:如何挑选合适的模型?

    在实际应用中,选择合适的AI模型至关重要。以下是一些建议:

    • 理解问题:首先明确您要解决的问题是什么类型的任务,例如分类、回归、聚类等。
    • 数据特性:分析您的数据特性,包括数据的类型、规模、噪声等。不同的模型对数据的要求有所不同。
    • 模型复杂度:根据问题的复杂性和数据的特点,选择合适的模型复杂度。过于简单的模型可能无法充分捕捉数据的特征,而过于复杂的模型则可能导致过拟合。
    • 实验与调优:通过交叉验证、网格搜索等技术,对模型进行训练和调优,找到最佳的模型配置。
    • 评估与迭代:使用合适的评估指标对模型性能进行评估,并根据评估结果对模型进行迭代和改进。

      总之,从决策树到深度学习,每种模型都有其独特之处和适用场景。作为AI从业者或爱好者,了解不同模型的特点和应用场景,并根据实际问题选择合适的模型是至关重要的。通过不断学习和实践,您将能够更好地利用AI技术解决实际问题,并推动人工智能领域的发展。

      OpenAI

      提示词Prompts

      本质上就是对模型进行“编程”,输入Prompt 返回(Completion)补全

      Token

      我们的模型通过将文本分解为令牌(Token)来理解和处理文本,语意最小单元