ore: Only IO one group at a time (API change)
authorBoaz Harrosh <bharrosh@panasas.com>
Wed, 28 Sep 2011 08:55:51 +0000 (11:55 +0300)
committerBoaz Harrosh <bharrosh@panasas.com>
Fri, 14 Oct 2011 16:52:50 +0000 (18:52 +0200)
commitb916c5cd4d895a27b47a652648958f73e4f23ac6
tree9fe6e59edd44119c79a18b9df0b02a0c4dacb6d1
parentd866d875f68fdeae63df334d291fe138dc636d96
ore: Only IO one group at a time (API change)

Usually a single IO is confined to one group of devices
(group_width) and at the boundary of a raid group it can
spill into a second group. Current code would allocate a
full device_table size array at each io_state so it can
comply to requests that span two groups. Needless to say
that is very wasteful, specially when device_table count
can get very large (hundreds even thousands), while a
group_width is usually 8 or 10.

* Change ore API to trim on IO that spans two raid groups.
  The user passes offset+length to ore_get_rw_state, the
  ore might trim on that length if spanning a group boundary.
  The user must check ios->length or ios->nrpages to see
  how much IO will be preformed. It is the responsibility
  of the user to re-issue the reminder of the IO.

* Modify exofs To copy spilled pages on to the next IO.
  This means one last kick is needed after all coalescing
  of pages is done.

Signed-off-by: Boaz Harrosh <bharrosh@panasas.com>
fs/exofs/inode.c
fs/exofs/ore.c