点播 Python抽取多源数据文本信息

课程时长 01小时37分钟

学习期限 12 个月 退款期限 30 天

市场价格 免费 会员价格 免费

难度级别 初级 学习人次 8480 综合评分 4.3

内容实用 4.3 分

简洁易懂 4.3 分

逻辑清晰 4.4 分

  • 详情
  • 目录
  • 评价2

简介:本课程由数据预处理整个流程到综合实战。包括:Anaconda、Sublime、Pywin32、数据采集、数据集成、缺失值处理、正则、jieba分词、NLTK、词袋模型、数据抽样、特征词抽取、文本向量化、gensim、数据降维、numpy、sicpy、pandas、matplotlib、seabom、Xgboost等核心技术。

第1章课程介绍

  • 什么是数据预处理
    03分钟23秒
  • 预处理流程
    01分钟56秒
  • 为什么做这门课程
    01分钟56秒
  • 可以学习到什么东西
    06分钟11秒
  • 开发环境说明
    32秒
  • 课程体系介绍
    04分钟23秒

第2章抽取文本信息

  • 数据类型与数据采集
    04分钟12秒
  • 文本抽取问题
    03分钟09秒
  • 抽取word文档文本内容
    20分钟32秒
  • 抽取PDF文档文本内容
    07分钟24秒
  • 封装多格式的文本信息抽取工具
    15分钟21秒
  • 遍历读取文件
    08分钟29秒
  • 遍历文件批量抽取文本内容(1)
    14分钟38秒
  • 遍历文件批量抽取文本内容(2)
    05分钟10秒
8480
2
0