概述
审核端点是一种工具,可用于检查内容是否符合 OpenAI 的使用策略。因此,开发人员可以识别我们的使用策略禁止的内容并采取行动,例如通过过滤。
这些模型分为以下类别:
类别 | 描述 |
---|---|
hate | 表达、煽动或宣扬基于种族、性别、民族、宗教、国籍、性取向、残疾状况或种姓的仇恨的内容。 |
hate/threatening | 仇恨内容,还包括对目标群体的暴力或严重伤害。 |
self-harm | 宣扬、鼓励或描绘自残行为(例如自杀、割伤和饮食失调)的内容。 |
sexual | 旨在引起性兴奋的内容,例如对性活动的描述,或宣传性服务(不包括性教育和健康)的内容。 |
sexual/minors | 包含未满 18 周岁的个人的色情内容。 |
violence | 宣扬或美化暴力或歌颂他人遭受苦难或羞辱的内容。 |
violence/graphic | 以极端血腥细节描绘死亡、暴力或严重身体伤害的暴力内容。 |
在监视 OpenAI API 的输入和输出时,可以免费使用审查终结点。我们目前不支持监控第三方流量。
我们一直在努力提高分类器的准确性,特别是致力于改进 hate
、self-harm
和 violence/graphic
内容的分类。我们对非英语语言的支持目前有限。
快速入门
若要获取一段文本的分类,请向审查端点发出请求,如以下代码片段所示:
示例:获取审核
卷曲选择库蟒卷曲复制
1 2 3 4 5 |
curl https://api.openai.com/v1/moderations \ -X POST \ -H "Content-Type: application/json" \ -H "Authorization: Bearer $OPENAI_API_KEY" \ -d '{"input": "Sample text goes here"}' |
下面是终结点的示例输出。它返回以下字段:
flagged
:如果模型将内容分类为违反 OpenAI 的使用策略,则设置为。true
false
categories
:包含每个类别的二进制使用策略冲突标志的字典。对于每个类别,该值为模型将相应类别标记为违反,否则。true
false
category_scores
:包含模型输出的每个类别原始分数的字典,表示模型对输入违反 OpenAI 类别策略的置信度。该值介于 0 和 1 之间,其中值越高表示置信度越高。分数不应被解释为概率。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 |
{ "id": "modr-XXXXX", "model": "text-moderation-001", "results": [ { "categories": { "hate": false, "hate/threatening": false, "self-harm": false, "sexual": false, "sexual/minors": false, "violence": false, "violence/graphic": false }, "category_scores": { "hate": 0.18805529177188873, "hate/threatening": 0.0001250059431185946, "self-harm": 0.0003706029092427343, "sexual": 0.0008735615410842001, "sexual/minors": 0.0007470346172340214, "violence": 0.0041268812492489815, "violence/graphic": 0.00023186142789199948 }, "flagged": false } ] } |
OpenAI 将不断升级审核端点的基础模型。因此,随着时间的推移,依赖于 category_scores
的自定义策略可能需要重新校准。