Skip to content

Ygd's Wiki

数据重复值整理

Ygd's Wiki

Home
FileFormats
FileFormats
- 文件格式简介
- jsonlines
  jsonlines
  - jsonlines 格式介绍
  - python 下 jsonlines 库
    python 下 jsonlines 库
    
    jsonlines
- json
  json
  - JSON 格式介绍
  - Python 下 JSON 库
    Python 下 JSON 库
    
    json
    
    orjson
- csv
  csv
  - CSV 格式介绍
  - DuckDB 下处理 CSV 文件
- ibd
  ibd
  - ibd 文件
- parquet
  parquet
  - parquet
- patent
  patent
  - 专利文献代码
- 打包和压缩
  打包和压缩
  - 打包和压缩格式介绍
  - Linux 下打包和压缩
- edgar
  edgar
  - edgar
  - SGML
  - XBRL
  - TYPE
    TYPE
    
    10-K
Network
Network
- 网络
- 链路层
- 网络层
- 运输层
- 应用层
- 数据包分析工具WireShark
  数据包分析工具WireShark
- HTTP 协议抓包工具 whistle
  HTTP 协议抓包工具 whistle
  - whistle
- 自用设置
  自用设置
  - 宽带桥接
Linux
Linux
- Linux 介绍
  Linux 介绍
- Linux 安装
  Linux 安装
- Linux 桌面环境
  Linux 桌面环境
- Linux 包管理工具
  Linux 包管理工具
- Linux 远程管理
  Linux 远程管理
  - 远程管理
  - 远程连接客户端
  - OpenSSH
    OpenSSH
    
    SSH
    
    ssh
    
    sshd
    
    ssh-keygen
    
    sftp
  - gnome-remote-desktop
  - vnc
  - X11Forwarding
  - waypipe
  - iterm2 Shell Integration
- Linux 磁盘管理
  Linux 磁盘管理
- Linux 网络管理
  Linux 网络管理
  - 网络管理
- Linux 文件和目录管理
  Linux 文件和目录管理
- Linux 用户及权限管理
  Linux 用户及权限管理
  - 用户管理
- Bash
  Bash
  - Bash
- Linux 下服务架设
  Linux 下服务架设
  - 服务架设
  - readis
    readis
    
    redis
    
    安装
    
    配置
    配置
    
    Redis 配置
    
    Redis 持久化
    
    Redis 安全
    
    客户端
    客户端
    
    Redis 客户端
    
    CLI
    
    Insight
    
    数据类型
    数据类型
    
    Redis 数据类型
    
    set
    
    数据操作
    数据操作
    
    Redis 操作
    
    scan
  - ODBC
    ODBC
    
    ODBC
    
    unixODBC
- 虚拟化
  虚拟化
  - Linux 下的虚拟化
  - windows
    windows
    
    Windows 安装
    
    Windows 远程桌面服务
- 附录1: 常用工具介绍
  附录1: 常用工具介绍
  - 网路下载工具: curl
  - 终端复用工具: tmux
  - dotfiles 管理工具: yadm
  - 打包工具
    打包工具
    
    tar
    
    zip
    
    7zip
  - 文件处理工具
    文件处理工具
    
    文件拆分: split
BigData
BigData
- 大数据简介
- SQL
  SQL
  - SQL 简介
  - SQL语法
  - 数据定义语言(DDL)
    数据定义语言(DDL)
    
    数据定义语言(DDL)索引
  - 数据操纵语言(DML)
    数据操纵语言(DML)
    
    数据操纵语言(DML)索引
  - 事务控制语言(TCL)
    事务控制语言(TCL)
    
    事务控制语言(TCL)索引
  - 数据控制语言(DCL)
    数据控制语言(DCL)
    
    数据控制语言(DCL)索引
  - 数据查询语言(DQL)
    数据查询语言(DQL)
    
    数据查询语言(DQL)索引
  - 数据类型
    数据类型
    
    数据类型
    
    NULL
  - 其他语句
    其他语句
    
    其他语句索引
    
    ATTACH/DETACH
    
    COPY
    
    CASE
  - 函数和运算符
    函数和运算符
    
    函数和运算符
    
    日期时间函数
    
    数字运算函数
    
    文本函数
    
    全文搜索函数
    
    模式匹配表达式
    
    类型转换
    
    条件表达式
    
    数组函数
    
    聚合函数
    
    窗口函数
  - 索引
- Arrow
  Arrow
  - Arrow 简介
  - ADBC
- DuckDB
  DuckDB
  - DuckDB 简介
  - 客户端
    客户端
    
    CLI
    
    Python API
    Python API
    
    Python API 简介
    
    DBAPI
    
    Relational API
    
    Types API
    
    Function API
    
    Expression API
    
    DuckDB 与 Pandas 交互
    
    DuckDB 与 PyArrow 交互
  - 数据源
    数据源
    
    DuckDB 下处理 CSV 文件
    
    JSON
    
    Parquet
    
    DuckDB
    
    DataBase
  - 高级
    高级
    
    DuckDB 并发模型
- Pandas
  Pandas
  - Pandas
  - 数据源
    数据源
    
    从数据源中构建 DataFrame
    
    CSV
    
    Excel
    
    JSON
    
    Parquet
    
    SQL
    
    Stata
    
    dict
    
    records
  - 数据结构
    数据结构
    
    数据结构
    
    Series
    
    DataFrame
  - 数据类型
    数据类型
    
    数据类型
  - 数据缺失值清洗和整理
  - 数据重复值整理数据重复值整理
    Table of contents
    
    参考
  - 选择数据子集
  - 合并数据集
  - 分类汇总统计数据
  - 可视化呈现数据
Program
Program
- 编程语言介绍
  编程语言介绍
- 语言特性
  语言特性
  - 语法
  - 变量和作用域
  - 运算符和表达式
  - 流程控制语句
  - 函数
  - 异常
  - 类型
  - 数据结构
  - 对象
  - 继承
  - 并发
- 语言工具
  语言工具
  - 工具: 更好的编写程序
  - 编辑器
    编辑器
    
    neovim
    neovim
    
    neovim 简介
    
    Neovim 中 Lua
    
    AstroNvim
    AstroNvim
    
    AstroNvim 简介
    
    AstroCore
    
    AstroLSP
    
    AstroUI
    
    AstroCommunity
    
    User
    
    Nvim插件
    Nvim插件
    
    Plugin
    
    插件管理器 Lazy
    
    molten-nvim
    
    nvim-treesitter
    
    Neovim 配置 Python
    
    使用说明
    使用说明
    
    使用说明
    
    折叠(fold)
    
    颜色主题(colorscheme)和语法高亮(syntax)
    
    jupyter
    jupyter
    
    jupyter
    
    Jupyter Server
    Jupyter Server
    
    Jupyter Server
    
    Jupyter Server 配置
    
    JupyterHub
    JupyterHub
    
    JupyterHub
    
    JupyterLab
    JupyterLab
    
    JupyterLab
    
    Notebook
    
    Extensions
    
    Kernel
    Kernel
    
    Kernel
    
    IPython
    
    Jupyter 配置 Python
    
    VSCode
    VSCode
    
    VSCode 简介
    
    VSCode 用户界面
    
    VSCode 设置
    
    VSCode 键位绑定
    
    VSCode 插件
    
    VSCode 片段
    
    VSCode GIT
    
    VSCode 远程开发
    
    VSCode 基本配置
    
    VSCode 配置 Python
  - 调试器
    调试器
    
    Debugger
  - 单元测试
    单元测试
    
    Unit testing
  - 文档工具
    文档工具
    
    MkDocs
  - 包管理器工具
    包管理器工具
    
    Python
    Python
    
    环境管理工具 Conda
    
    Python 包管理工具 pip
    
    Python 环境管理工具 venv
  - 版本控制工具
    版本控制工具
    
    git
    git
    
    git
    
    版本控制系统
    
    git 命令
    
    lazygit
    
    cookbook
    cookbook
    
    NoteBook 下使用 git
- 框架和库
  框架和库
  - 框架和库介绍
  - 异步
    异步
    
    异步简介
    
    Python 下异步框架 asyncio
  - 网络通信
    网络通信
    
    网络通信简介
    
    Python
    Python
    
    requests
    
    aiohttp HTTP Client
  - Web 框架
    Web 框架
    
    Web 框架
    
    Python
    Python
    
    aiohttp
  - 日期时间
    日期时间
    
    日期时间
    
    Python
    Python
    
    datetime
    
    arrow
  - 字符串
    字符串
    
    字符串简介
    
    Python
    Python
    
    string
  - I/O
    I/O
    
    I/O
    
    Python
    Python
    
    io
  - 打包和压缩
    打包和压缩
    
    打包和压缩格式介绍
    
    Python
    Python
    
    gzip
    
    zipfile
    
    tarfile
  - 路径
    路径
    
    路径简介
    
    Python
    Python
    
    pathlib
  - 正则表达式
    正则表达式
    
    正则表达式
    
    Python
    Python
    
    re
  - 标准库
    标准库
    
    Python 标准库
    Python 标准库
    
    Python 标准库索引
    
    datetime
    
    gzip
    
    hashlib
    
    io
    
    itertools
    
    json
    
    pathlib
    
    re
    
    string
    
    subprocess
    
    zipfile
    
    tarfile
    
    asyncio
    asyncio
    
    Python 下异步框架 asyncio
    
    事件循环
    
    异步队列
    
    同步原语
  - 第三方库
    第三方库
    
    Python 第三方库
    Python 第三方库
    
    Python 第三方库索引
    
    aiostream
    
    arrow-odbc-py
    
    arrow
    
    bs4
    
    jsonlines
    
    motor
    
    orjson
    
    parsel
    
    pymongo
    
    redis
    
    requests
    
    sqlparse
    
    aiohttp
    aiohttp
    
    aiohttp
    
    aiohttp HTTP Client
    
    aiohttp HTTP Server
    aiohttp HTTP Server
    
    aiohttp
    
    WebSocket
    
    sqlalchemy
    sqlalchemy
    
    SQLAlchemy
    
    统一教程
    
    Engine
    
    Schema
    
    类映射
    
    数据类型
    
    约束
    
    反射
    
    SQL 表达式语言
    
    Result
    
    Session
    
    Dialect
    
    JavaScript 第三方库
    JavaScript 第三方库
    
    Readme
    
    puppeteer
    puppeteer
    
    puppeteer
    
    frame
    
    browser
    
    page
    
    locator
    
    wait
    
    Request and Response
    
    network
    
    events
- 语言社区
  语言社区
  - PEP
Docker
Docker
- Docker
- Docker Desktop
  Docker Desktop
  - Docker Desktop
- Docker Engine
  Docker Engine
- Docker Build
  Docker Build
  - Ducker Build
- Docker Compose
  Docker Compose
  - Docker Compose
- Docker Hub
  Docker Hub
  - Docker Hub
  - redis
  - v2raya
  - ddns-go
Worker
Worker
- Worker
- media
  media
  - Readme
  - audio handle
  - pyaudioanalysis
  - speech-emotion-recognition
  - modules
    modules
    
    pydub
- fuzzy_string
  fuzzy_string
  - 模糊字符串匹配
  - TF-IDF and KNN
    TF-IDF and KNN
    
    TFIDF and KNN 执行模糊字符串匹配
    
    tfidfvectorizer
    
    NearestNeighbors
  - Other Library
    Other Library
    
    thefuzz
    
    annoy
- sec
  sec
  - 美国上市公司报告
  - all_files
- dataset
  dataset
About

Duplicate Data

对于重复数据的处理主要是通过来两个函数来实现的:

duplicated(): 返回一个布尔列表，其中标识了每行是否重复
drop_duplicates(): 删除重复行，他相当于删除所有 duplicated() 为 True 的行

这两个函数都接受一个 keep 属性来表示保留的行:

keep = 'first': 保留第一行
keep = 'last': 保留最后一行
keep = False: 删除所有重复行

Python

In [298]: df2 = pd.DataFrame({'a': ['one', 'one', 'two', 'two', 'two', 'three', 'four'],
   .....:                     'b': ['x', 'y', 'x', 'y', 'x', 'x', 'x'],
   .....:                     'c': np.random.randn(7)})
   .....:

In [299]: df2
Out[299]:
       a  b         c
0    one  x -1.067137
1    one  y  0.309500
2    two  x -0.211056
3    two  y -1.842023
4    two  x -0.390820
5  three  x -1.964475
6   four  x  1.298329

In [300]: df2.duplicated('a')
Out[300]:
0    False
1     True
2    False
3     True
4     True
5    False
6    False
dtype: bool

In [301]: df2.duplicated('a', keep='last')
Out[301]:
0     True
1    False
2     True
3     True
4    False
5    False
6    False
dtype: bool

In [302]: df2.duplicated('a', keep=False)
Out[302]:
0     True
1     True
2     True
3     True
4     True
5    False
6    False
dtype: bool

In [303]: df2.drop_duplicates('a')
Out[303]:
       a  b         c
0    one  x -1.067137
2    two  x -0.211056
5  three  x -1.964475
6   four  x  1.298329

In [304]: df2.drop_duplicates('a', keep='last')
Out[304]:
       a  b         c
1    one  y  0.309500
4    two  x -0.390820
5  three  x -1.964475
6   four  x  1.298329

In [305]: df2.drop_duplicates('a', keep=False)
Out[305]:
       a  b         c
5  three  x -1.964475
6   four  x  1.298329

参考

重复数据处理