大型语言模型可以帮助您编写代码——或重写广告,让它们看起来很新鲜。 通过写作和回答问题,他们可以更轻松地快速掌握研究论文或新闻报道的要点。 或者他们可能会把事情弄错,令人尴尬。
像 GPT-3 这样的大型语言模型是谷歌和 Bing 等搜索引擎的关键,它还能在电子邮件和聊天中提供建议回复,尝试在 Word 中完成你的句子,并为 GitHub Copilot 等编码助手提供支持。
但它们也不完美。 对它们可能造成的危害的考虑通常集中在您从网络上发布的所有内容中学到的东西,其中包括一些人持有的不太积极的意见。 在大量文本源(例如在线社区)上训练的大型语言模型最终可能会重复一些相当冒犯性的言论。 当模型从带有常见偏见的写作中学习时,比如一组用头衔称呼男性、用名字称呼女性的采访,或者假设男性是医生,女性是护士,这些偏见很可能会出现在 模型写道。
代码生成的可能危害包括代码错误但看起来正确; 审查 AI 支持的建议并确保他们理解他们所做的仍然取决于编码人员,但并不是每个人都会这样做。
“循环中的人”审查阶段对于负责任地使用大型语言模型很重要,因为这是在文本发布或代码投入生产之前发现问题的一种方式。 在编写代码时,代码许可证是一个问题,但人工智能生成的文本可能会造成各种令人头疼的问题,有些令人尴尬,有些则更严重。
大型语言模型的工作方式是预测句子中的下一个词是什么,然后是下一个词,然后是下一个词,等等,一直到句子的结尾,段落或 代码片段,在它周围的所有单词的上下文中查看每个单词。
这意味着搜索引擎可以理解询问“什么会加重脑震荡”的搜索查询是在询问当有人头部受伤时该怎么做,而不是脑震荡的症状或原因。
另一种方法是将大型语言模型与不同种类的机器学习模型配对,以避免整个类别的危害。 选择最有可能的词可能意味着大型语言模型只会给你明显的答案,比如当被问及“什么能飞”时总是回答“鸟”而从不回答“蝴蝶”或“接种疫苗的航空公司乘客”。 添加一个区分不同种类鸟类的二元模型可能会让您“除了鸵鸟、企鹅和其他不会飞的鸟类之外,其他鸟类都能飞翔”。
将二进制模型与大型语言模型一起使用是 Bing 如何使用多个 AI 模型来回答问题的一个例子。 他们中的许多人都是为了应对我们有多少种不同的方式来表达同一件事。
有关实体(如埃菲尔铁塔)的信息存储为矢量,因此即使您的查询不包含埃菲尔这个词,Bing 也可以告诉您塔的高度——询问“巴黎铁塔有多高”会给您正确的答案。 Microsoft Generic Intent Encoder 将搜索查询转换为向量,因此它可以捕获人们希望在搜索结果中看到(和单击)的内容,即使他们使用的词汇在语义上非常不同。
Bing 使用 Microsoft 的大型语言模型(Azure 认知搜索服务也是如此,它允许您为自己的文档和内容创建自定义搜索工具)对搜索结果进行排名,从网页中提取片段并突出显示最佳结果或突出显示关键短语 帮助您了解某个网页是否包含您要查找的信息,或者为您提供可能为您提供更好搜索结果的不同术语的想法。 这不会改变任何东西,除了可能是句子的强调。
但 Bing 还使用一种称为图灵自然语言生成的大型语言模型来总结搜索结果中网页中的一些信息,重写和缩短你看到的片段,以便更好地回答你输入的问题。到目前为止,所以 有用。
在某些 Bing 搜索中,您会在“People Also Ask”标题下看到一个问题列表。 最初,这只是一些其他 Bing 用户输入的相关查询,所以如果你正在搜索“会计课程”,你还会看到诸如获得会计师资格需要多长时间的问题,以节省你输入的时间 其他人自己搜索。
Bing 并不总是有匹配每个搜索的问题和答案对,所以去年微软开始使用 Turing NLG 在任何人输入搜索之前为文档创建问题和答案,这些搜索将按需创建,因此更多的搜索会得到额外的想法 和方便的掘金。
问答可以向您显示比标题和您在新闻报道结果中看到的片段更多的详细信息。 但只有当 Bing 生成的问题与答案准确无误时,它才有用。
整个夏天,Bing 提出的一个问题表明,常见的隐喻可能是 AI 工具的一个问题。 或许是对某位名人批评某人的行为是“抨击”他们的报道的头条新闻感到困惑,我看到这些图灵写的问题之一清楚地误解了特定新闻故事中谁在做什么。
创建问答对的生成语言模型不是认知搜索的一部分。 微软仅在私人预览版中提供其 GPT-3 服务(可以生成相同类型的语言),因此普通企业不必担心在自己的搜索页面上犯此类错误。 但它表明这些模型可能会出错,因此您需要有一个适当的流程来处理它们。
搜索引擎不会在您看到搜索结果的每一页之前人工查看它们; 人工智能模型的重点是解决规模太大而人类无法解决的问题。 但企业可能仍希望对他们使用大型语言模型生成的文字进行人工审查。 暂时不要将人排除在外。