Database Sharding Cheat Sheet

Database sharding strategies — horizontal partitioning, shard keys, consistent hashing, resharding, and cross-shard query handling.

Last Updated: May 1, 2025

Sharding Strategies

Item	Description
`High Cardinality`	Many distinct values — 10M users across 4 shards works
`Even Distribution`	Avoid hot spots — hash user_id, not range on date
`Query Locality`	Keep related data on same shard
`Avoid Cross-Shard Joins`	Denormalize or use app-level joins

Item	Description
`Vitess (MySQL)`	YouTube sharding middleware — auto resharding, connection pooling
`Citus (PostgreSQL)`	Distributed PostgreSQL — shards + coordinator, SQL-compatible
`DynamoDB`	AWS managed — partition key, auto-scaling
`Cassandra`	Ring-based consistent hashing — no master, gossip protocol

Item	Description
`Joins`	Impossible at DB level — app-level or denormalize
`Transactions`	2PC is slow — use eventual consistency or Saga pattern
`Unique Constraints`	Use UUIDv7 or global sequence service
`Resharding`	Use consistent hashing to minimize data movement

Pro Tip: Choose your shard key carefully — changing it later requires resharding ALL data. Hash user_id for even distribution.