SAMPLE_DATA_README.md 5.4 KB

示例数据说明

本文档说明如何使用示例数据来测试标注平台的功能。

快速开始

1. 确保服务器正在运行

后端服务器:

cd backend
python -m uvicorn main:app --reload --host 0.0.0.0 --port 8000

前端服务器:

cd web
yarn nx serve lq_label

2. 初始化示例数据

文本标注示例数据:

cd backend
python init_sample_data.py

这将创建 3 个文本标注项目和 6 个示例任务。

图片标注示例数据:

cd backend
python init_image_annotation_data.py

这将创建 6 个图片标注项目和 14 个示例任务。

详细说明:

示例项目说明

1. 情感分析标注项目

项目描述: 对用户评论进行情感分类(正面/负面/中性)

标注配置:

  • 单选分类
  • 三个类别:正面、负面、中性

示例任务:

  1. 文本分类任务-1

    • 文本:这家餐厅的服务态度非常好,菜品也很美味,环境优雅,强烈推荐!
    • 预期标注:正面
  2. 文本分类任务-2

    • 文本:产品质量太差了,用了不到一周就坏了,客服态度也很恶劣,非常失望。
    • 预期标注:负面
  3. 文本分类任务-3

    • 文本:这款手机性能一般,价格适中,适合日常使用。
    • 预期标注:中性

2. 命名实体识别项目

项目描述: 识别文本中的人名、地名、机构名和时间等实体

标注配置:

  • 文本高亮标注
  • 四个实体类型:人名、地名、机构名、时间

示例任务:

  1. 命名实体识别任务-1

    • 文本:2024年1月15日,张三在北京大学参加了人工智能研讨会。
    • 预期标注:
      • 时间:2024年1月15日
      • 人名:张三
      • 机构名:北京大学
  2. 命名实体识别任务-2

    • 文本:李明是清华大学的教授,他在上海交通大学获得了博士学位。
    • 预期标注:
      • 人名:李明
      • 机构名:清华大学、上海交通大学

3. 文本高亮标注项目

项目描述: 标记文本中的重要信息、关键词和问题

标注配置:

  • 文本高亮标注
  • 三个标签类型:重要信息、关键词、问题

示例任务:

  1. 文本高亮任务-1
    • 文本:机器学习是人工智能的一个重要分支,它使计算机能够从数据中学习并做出决策。深度学习是机器学习的一个子领域,使用神经网络来模拟人脑的工作方式。
    • 预期标注:
      • 关键词:机器学习、人工智能、深度学习、神经网络
      • 重要信息:从数据中学习并做出决策

测试流程

1. 查看项目列表

访问 http://localhost:4200/projects,你应该能看到 3 个示例项目。

2. 查看项目详情

点击任意项目,查看项目信息和关联的任务列表。

3. 开始标注

  1. 在任务列表中点击"开始标注"按钮
  2. 使用 LabelStudio 编辑器进行标注
  3. 完成标注后点击"保存"按钮
  4. 标注结果将被保存到数据库

4. 验证标注结果

可以通过以下方式验证标注结果:

查看数据库:

cd backend
python -c "import sqlite3; conn = sqlite3.connect('annotation_platform.db'); cursor = conn.cursor(); cursor.execute('SELECT * FROM annotations'); print(cursor.fetchall()); conn.close()"

通过 API 查询:

curl http://localhost:8000/api/annotations

LabelStudio 配置说明

文本分类配置

<View>
  <Header value="文本分类标注"/>
  <Text name="text" value="$text"/>
  <Choices name="sentiment" toName="text" choice="single" showInline="true">
    <Choice value="正面"/>
    <Choice value="负面"/>
    <Choice value="中性"/>
  </Choices>
</View>

命名实体识别配置

<View>
  <Header value="命名实体识别"/>
  <Text name="text" value="$text"/>
  <Labels name="label" toName="text">
    <Label value="人名" background="red"/>
    <Label value="地名" background="blue"/>
    <Label value="机构名" background="green"/>
    <Label value="时间" background="orange"/>
  </Labels>
</View>

文本高亮配置

<View>
  <Header value="文本高亮标注"/>
  <Text name="text" value="$text"/>
  <Labels name="label" toName="text">
    <Label value="重要信息" background="yellow"/>
    <Label value="关键词" background="lightblue"/>
    <Label value="问题" background="pink"/>
  </Labels>
</View>

清理示例数据

如果需要清理示例数据,可以删除数据库文件:

cd backend
rm annotation_platform.db

然后重启后端服务器,数据库将被重新初始化为空。

常见问题

Q: 运行脚本时提示连接错误

A: 请确保后端服务器正在运行在 http://localhost:8000

Q: 标注编辑器无法加载

A: 请检查:

  1. 前端服务器是否正在运行
  2. 浏览器控制台是否有错误信息
  3. 项目配置是否正确(XML 格式)

Q: 保存标注时提示错误

A: 请检查:

  1. 是否完成了标注(标注结果不能为空)
  2. 后端 API 是否正常工作
  3. 浏览器控制台的错误信息

更多信息