通过Langchain善用(yòng)大语言模型的“脑力”

通过Langchain善用(yòng)大语言模型的“脑力”
    马上咨询


    讲师介绍:徐老师

    bothub 创始人。毕业于上海交通大學(xué)计算机系试点班,在 Trilogy Software 写过大型企业软件;在 MediaV 担任技术总监,从零开始搭建支撑每天百亿流量的广告算法系统;2015 年,加入拼多(duō)多(duō),参与重写拼多(duō)多(duō)的交易系统;2016 年底创办 bothub.ai,通过自然语言处理(lǐ)技术,為(wèi)走向海外的中國(guó)企业提供英语的智能(néng)客服和社交网络营销服務(wù)


    课程简介

    随着GPT-4模型的发布,大语言模型體(tǐ)现出了通用(yòng)人工智能(néng)(AGI)的潜力。特别是GPT-4的推理(lǐ)能(néng)力,使得我们可(kě)以通过大语言模型,自行制定计划并且根据计划执行。而通过外部的插件与工具这样的机制,我们可(kě)以让大语言模型操作外部的工具和系统。伴随着推理(lǐ)能(néng)力+行动能(néng)力的组合,我们可(kě)以快速开发出新(xīn)一代的AI应用(yòng)。

    在这个分(fēn)享中,我会带你了解 Reasoning + Action 这个新(xīn)一代的AI应用(yòng)开发模式。帮助你了解如何根据自己想要达成的目标,设计和开发基于大语言模型的AI应用(yòng)。而不仅仅是局限于文(wén)案改写或者客服问答(dá)这样的简单场景。通过Langchain这个目前流行的开源库,实现AI自动写代码、AI自动进行商(shāng)品推荐等一系列实用(yòng)的应用(yòng)场景。并且更近一步,设计一个有(yǒu)属于自己”记忆“、”身份“、”行為(wèi)模式“的”電(diàn)子脑”。

    通过课程,让你深入应用(yòng)“大型语言模型”解决问题,帮助你理(lǐ)解大语言模型的来龙去脉。希望在上完这个直播课之后,你能(néng)获得以下这些知识:

    1. 自然语言处理(lǐ)问题,是如何从最简单的词频统计,一步步走到今天的生成式大语言模型的。
    2. 我们希望通过AI解决的自然语言处理(lǐ)的问题,如何被拆分(fēn)成一个可(kě)以被大语言模型解决的问题的。
    3. 理(lǐ)解大语言模型最大的价值,不在于文(wén)本生成,而是逻辑推理(lǐ)。學(xué)会开发一个“有(yǒu)性格、有(yǒu)智商(shāng)、有(yǒu)人设”的AI机器人。
    4. 如何解决数据安全问题,既可(kě)以通过仅仅使用(yòng)模型的推理(lǐ)能(néng)力,也包括尝试微调一个属于自己的开源模型。


    希望能(néng)够覆盖以下四个角度的内容,覆盖到大型语言模型使用(yòng)的方方面面

    1. 大语言模型的前世今生

    我们快速回顾一下NLP领域的整个历史,看看我们是如何从简单的字频一步步进化到GPT系列的大型语言模型的。这里主要覆盖两部分(fēn)内容,分(fēn)别是:

    语言模型的发展历程:

           * 史前时代 - TF-IDF 和 朴素贝叶斯

           * 文(wén)明萌芽 - Word2Vec的出现

           * 文(wén)艺复兴 - RNN和LSTM

           * 工业革命 - Transformer和BERT家族

           * 奇点降临 - GPT-3和ChatGPT

    自然语言处理(lǐ)的子问题:

           * 命名实體(tǐ)识别

           * 文(wén)本分(fēn)类

           * 文(wén)本摘要

           * 自然语言推理(lǐ)

           * 自然语言生成

    这个过程中,我们会同步體(tǐ)会,GPT可(kě)以直接解决这些子问题,而不再需要单独的模型。


    2. 大语言模型的实战应用(yòng) - 自动问答(dá)篇

    单个问题容易解决,但是真实场景中的 “AI” 往往要组合大语言模型中的各种能(néng)力。这一讲,我们就讲解常见的面向C端的产品,如何通过大语言模型的两个核心能(néng)力来实现。

    大语言模型的核心接口:

           * Embedding,向量化,让自然语言问题变成传统机器學(xué)习问题

           * Completion,文(wén)本接龙,通过文(wén)本生成解决一切问题

    实战应用(yòng):

           * 零样本分(fēn)类和小(xiǎo)样本分(fēn)类 - 通过AI解决分(fēn)类、聚类问题

           * 文(wén)本切分(fēn)和Embedding - 如何让AI按照我自己的材料来回答(dá)问题

           * Langchain - 如何让AI能(néng)够根据外部的实时数据回答(dá)问题

    这个过程中,我们会实际搭建一个AI应用(yòng),让你能(néng)用(yòng)自然语言来分(fēn)析数据库里的数据。


    3. 大语言模型的实战应用(yòng) - 逻辑推理(lǐ)篇

    如果只是问答(dá)、或者智能(néng)客服这样的应用(yòng),其实在ChatGPT出现之前,已经能(néng)解决得不错了。很(hěn)多(duō)人会误以為(wèi),ChatGPT的强大之处在于说人话。但是ChatGPT,特别是从GPT-4最强大的不是“口舌之利“而是”聪明的大脑“。GPT-4體(tǐ)现出来强大的推理(lǐ)能(néng)力,让我们第一次看到了通用(yòng)人工智能(néng)的曙光。


    这部分(fēn),我们就来剖析和體(tǐ)验一下红火的 Generative Agents 和 AutoGPT 是如何实现的。本质上,我们就是尝试通过大语言模型,来模拟一个人类大脑:

           * Generative Agent 的原理(lǐ)剖析和实现

           * AutoGPT 的原理(lǐ)剖析和实现


    4. 开源模型与数据安全 

    因為(wèi)数据安全的问题,我们并不一定方便把所有(yǒu)的数据都通过ChatGPT来处理(lǐ)。对于这个,我们可(kě)以通过以下几种方式来解决:

           * 如何避免发送隐私数据给到ChatGPT

           * 如何对开源模型进行指令微调,获得一个专属于自己的“大模型”

    对应的,我们也会提供几个示例来解决问题。分(fēn)别尝试解决

    1. 过滤替换隐私信息,使用(yòng)ChatGPT的问答(dá)能(néng)力

    2. 随机干扰数据信息,使用(yòng)ChatGPT的推理(lǐ)能(néng)力

    3. 使用(yòng)自己的数据语料,微调自己的大模型