[PATCH] mm: split page table lock

Christoph Lameter demonstrated very poor scalability on the SGI 512-way, with a many-threaded application which concurrently initializes different parts of a large anonymous area. This patch corrects that, by using a separate spinlock per page table page, to guard the page table entries in that page, instead of using the mm's single page_table_lock. (But even then, page_table_lock is still used to guard page table allocation, and anon_vma allocation.) In this implementation, the spinlock is tucked inside the struct page of the page table page: with a BUILD_BUG_ON in case it overflows - which it would in the case of 32-bit PA-RISC with spinlock debugging enabled. Splitting the lock is not quite for free: another cacheline access. Ideally, I suppose we would use split ptlock only for multi-threaded processes on multi-cpu machines; but deciding that dynamically would have its own costs. So for now enable it by config, at some number of cpus - since the Kconfig language doesn't support inequalities, let preprocessor compare that with NR_CPUS. But I don't think it's worth being user-configurable: for good testing of both split and unsplit configs, split now at 4 cpus, and perhaps change that to 8 later. There is a benefit even for singly threaded processes: kswapd can be attacking one part of the mm while another part is busy faulting. Signed-off-by: Hugh Dickins <hugh@veritas.com> Signed-off-by: Andrew Morton <akpm@osdl.org> Signed-off-by: Linus Torvalds <torvalds@osdl.org>

[PATCH] mm: split page table lock
Christoph Lameter demonstrated very poor scalability on the SGI 512-way, with a many-threaded application which concurrently initializes different parts of a large anonymous area. This patch corrects that, by using a separate spinlock per page table page, to guard the page table entries in that page, instead of using the mm's single page_table_lock. (But even then, page_table_lock is still used to guard page table allocation, and anon_vma allocation.) In this implementation, the spinlock is tucked inside the struct page of the page table page: with a BUILD_BUG_ON in case it overflows - which it would in the case of 32-bit PA-RISC with spinlock debugging enabled. Splitting the lock is not quite for free: another cacheline access. Ideally, I suppose we would use split ptlock only for multi-threaded processes on multi-cpu machines; but deciding that dynamically would have its own costs. So for now enable it by config, at some number of cpus - since the Kconfig language doesn't support inequalities, let preprocessor compare that with NR_CPUS. But I don't think it's worth being user-configurable: for good testing of both split and unsplit configs, split now at 4 cpus, and perhaps change that to 8 later. There is a benefit even for singly threaded processes: kswapd can be attacking one part of the mm while another part is busy faulting. Signed-off-by: Hugh Dickins <hugh@veritas.com> Signed-off-by: Andrew Morton <akpm@osdl.org> Signed-off-by: Linus Torvalds <torvalds@osdl.org>
Hugh Dickins · Linus Torvalds
1 parent b38c6845b6
Showing 23 changed files with 138 additions and 79 deletions Side-by-side Diff
arch/arm/mm/mm-armv.c
arch/frv/mm/pgalloc.c
arch/i386/mm/pgtable.c
arch/um/kernel/skas/mmu.c
fs/afs/file.c
fs/buffer.c
fs/jfs/jfs_metapage.c
fs/xfs/linux-2.6/xfs_buf.c
include/linux/buffer_head.h
include/linux/mm.h
kernel/kexec.c
mm/Kconfig
mm/filemap.c
mm/memory.c
mm/mremap.c
mm/page_alloc.c
mm/page_io.c
mm/rmap.c
mm/shmem.c
mm/swap.c
@@ -229,6 +229,7 @@
 	pte = pmd_page(*pmd);
 	pmd_clear(pmd);
 	dec_page_state(nr_page_table_pages);
+	pte_lock_deinit(pte);
 	pte_free(pte);
 	pmd_free(pmd);
 free:
@@ -87,14 +87,14 @@
 	if (pgd_list)
 		pgd_list->private = (unsigned long) &page->index;
 	pgd_list = page;
-	page->private = (unsigned long) &pgd_list;
+	set_page_private(page, (unsigned long)&pgd_list);
 }
  
 static inline void pgd_list_del(pgd_t *pgd)
 {
 	struct page *next, **pprev, *page = virt_to_page(pgd);
 	next = (struct page *) page->index;
-	pprev = (struct page **) page->private;
+	pprev = (struct page **)page_private(page);
 	*pprev = next;
 	if (next)
 		next->private = (unsigned long) pprev;
@@ -188,19 +188,19 @@
 	struct page *page = virt_to_page(pgd);
 	page->index = (unsigned long)pgd_list;
 	if (pgd_list)
-		pgd_list->private = (unsigned long)&page->index;
+		set_page_private(pgd_list, (unsigned long)&page->index);
 	pgd_list = page;
-	page->private = (unsigned long)&pgd_list;
+	set_page_private(page, (unsigned long)&pgd_list);
 }
  
 static inline void pgd_list_del(pgd_t *pgd)
 {
 	struct page *next, **pprev, *page = virt_to_page(pgd);
 	next = (struct page *)page->index;
-	pprev = (struct page **)page->private;
+	pprev = (struct page **)page_private(page);
 	*pprev = next;
 	if (next)
-		next->private = (unsigned long)pprev;
+		set_page_private(next, (unsigned long)pprev);
 }
  
 void pgd_ctor(void *pgd, kmem_cache_t *cache, unsigned long unused)
@@ -144,6 +144,7 @@
  
 	if(!proc_mm || !ptrace_faultinfo){
 		free_page(mmu->id.stack);
+		pte_lock_deinit(virt_to_page(mmu->last_page_table));
 		pte_free_kernel((pte_t *) mmu->last_page_table);
                 dec_page_state(nr_page_table_pages);
 #ifdef CONFIG_3_LEVEL_PGTABLES
@@ -291,8 +291,8 @@
 		cachefs_uncache_page(vnode->cache, page);
 #endif
  
-		pageio = (struct cachefs_page *) page->private;
-		page->private = 0;
+		pageio = (struct cachefs_page *) page_private(page);
+		set_page_private(page, 0);
 		ClearPagePrivate(page);
  
 		if (pageio)
@@ -96,7 +96,7 @@
 __clear_page_buffers(struct page *page)
 {
 	ClearPagePrivate(page);
-	page->private = 0;
+	set_page_private(page, 0);
 	page_cache_release(page);
 }
  
@@ -86,7 +86,7 @@
 	atomic_t io_count;
 	struct metapage *mp[MPS_PER_PAGE];
 };
-#define mp_anchor(page) ((struct meta_anchor *)page->private)
+#define mp_anchor(page) ((struct meta_anchor *)page_private(page))
  
 static inline struct metapage *page_to_mp(struct page *page, uint offset)
 {
@@ -108,7 +108,7 @@
 		if (!a)
 			return -ENOMEM;
 		memset(a, 0, sizeof(struct meta_anchor));
-		page->private = (unsigned long)a;
+		set_page_private(page, (unsigned long)a);
 		SetPagePrivate(page);
 		kmap(page);
 	}
@@ -136,7 +136,7 @@
 	a->mp[index] = NULL;
 	if (--a->mp_count == 0) {
 		kfree(a);
-		page->private = 0;
+		set_page_private(page, 0);
 		ClearPagePrivate(page);
 		kunmap(page);
 	}
  
@@ -156,13 +156,13 @@
 #else
 static inline struct metapage *page_to_mp(struct page *page, uint offset)
 {
-	return PagePrivate(page) ? (struct metapage *)page->private : NULL;
+	return PagePrivate(page) ? (struct metapage *)page_private(page) : NULL;
 }
  
 static inline int insert_metapage(struct page *page, struct metapage *mp)
 {
 	if (mp) {
-		page->private = (unsigned long)mp;
+		set_page_private(page, (unsigned long)mp);
 		SetPagePrivate(page);
 		kmap(page);
 	}
@@ -171,7 +171,7 @@
  
 static inline void remove_metapage(struct page *page, struct metapage *mp)
 {
-	page->private = 0;
+	set_page_private(page, 0);
 	ClearPagePrivate(page);
 	kunmap(page);
 }
@@ -181,8 +181,9 @@
 	size_t		offset,
 	size_t		length)
 {
-	page->private |= page_region_mask(offset, length);
-	if (page->private == ~0UL)
+	set_page_private(page,
+		page_private(page) | page_region_mask(offset, length));
+	if (page_private(page) == ~0UL)
 		SetPageUptodate(page);
 }
  
@@ -194,7 +195,7 @@
 {
 	unsigned long	mask = page_region_mask(offset, length);
  
-	return (mask && (page->private & mask) == mask);
+	return (mask && (page_private(page) & mask) == mask);
 }
  
 /*
@@ -126,8 +126,8 @@
 /* If we *know* page->private refers to buffer_heads */
 #define page_buffers(page)					\
 	({							\
-		BUG_ON(!PagePrivate(page));		\
-		((struct buffer_head *)(page)->private);	\
+		BUG_ON(!PagePrivate(page));			\
+		((struct buffer_head *)page_private(page));	\
 	})
 #define page_has_buffers(page)	PagePrivate(page)
  
@@ -219,7 +219,7 @@
 {
 	page_cache_get(page);
 	SetPagePrivate(page);
-	page->private = (unsigned long)head;
+	set_page_private(page, (unsigned long)head);
 }
  
 static inline void get_bh(struct buffer_head *bh)
@@ -226,13 +226,18 @@
 					 * to show when page is mapped
 					 * & limit reverse map searches.
 					 */
-	unsigned long private;		/* Mapping-private opaque data:
+	union {
+		unsigned long private;	/* Mapping-private opaque data:
 					 * usually used for buffer_heads
 					 * if PagePrivate set; used for
 					 * swp_entry_t if PageSwapCache
 					 * When page is free, this indicates
 					 * order in the buddy system.
 					 */
+#if NR_CPUS >= CONFIG_SPLIT_PTLOCK_CPUS
+		spinlock_t ptl;
+#endif
+	} u;
 	struct address_space *mapping;	/* If low bit clear, points to
 					 * inode address_space, or NULL.
 					 * If page mapped as anonymous
@@ -260,6 +265,9 @@
 #endif /* WANT_PAGE_VIRTUAL */
 };
  
+#define page_private(page)		((page)->u.private)
+#define set_page_private(page, v)	((page)->u.private = (v))
+
 /*
  * FIXME: take this include out, include page-flags.h in
  * files which need it (119 of them)
  
  
@@ -311,17 +319,17 @@
  
 #ifdef CONFIG_HUGETLB_PAGE
  
-static inline int page_count(struct page *p)
+static inline int page_count(struct page *page)
 {
-	if (PageCompound(p))
-		p = (struct page *)p->private;
-	return atomic_read(&(p)->_count) + 1;
+	if (PageCompound(page))
+		page = (struct page *)page_private(page);
+	return atomic_read(&page->_count) + 1;
 }
  
 static inline void get_page(struct page *page)
 {
 	if (unlikely(PageCompound(page)))
-		page = (struct page *)page->private;
+		page = (struct page *)page_private(page);
 	atomic_inc(&page->_count);
 }
  
@@ -587,7 +595,7 @@
 static inline pgoff_t page_index(struct page *page)
 {
 	if (unlikely(PageSwapCache(page)))
-		return page->private;
+		return page_private(page);
 	return page->index;
 }
  
  
@@ -779,9 +787,31 @@
 }
 #endif /* CONFIG_MMU && !__ARCH_HAS_4LEVEL_HACK */
  
+#if NR_CPUS >= CONFIG_SPLIT_PTLOCK_CPUS
+/*
+ * We tuck a spinlock to guard each pagetable page into its struct page,
+ * at page->private, with BUILD_BUG_ON to make sure that this will not
+ * overflow into the next struct page (as it might with DEBUG_SPINLOCK).
+ * When freeing, reset page->mapping so free_pages_check won't complain.
+ */
+#define __pte_lockptr(page)	&((page)->u.ptl)
+#define pte_lock_init(_page)	do {					\
+	spin_lock_init(__pte_lockptr(_page));				\
+} while (0)
+#define pte_lock_deinit(page)	((page)->mapping = NULL)
+#define pte_lockptr(mm, pmd)	({(void)(mm); __pte_lockptr(pmd_page(*(pmd)));})
+#else
+/*
+ * We use mm->page_table_lock to guard all pagetable pages of the mm.
+ */
+#define pte_lock_init(page)	do {} while (0)
+#define pte_lock_deinit(page)	do {} while (0)
+#define pte_lockptr(mm, pmd)	({(void)(pmd); &(mm)->page_table_lock;})
+#endif /* NR_CPUS < CONFIG_SPLIT_PTLOCK_CPUS */
+
 #define pte_offset_map_lock(mm, pmd, address, ptlp)	\
 ({							\
-	spinlock_t *__ptl = &(mm)->page_table_lock;	\
+	spinlock_t *__ptl = pte_lockptr(mm, pmd);	\
 	pte_t *__pte = pte_offset_map(pmd, address);	\
 	*(ptlp) = __ptl;				\
 	spin_lock(__ptl);				\
@@ -334,7 +334,7 @@
 	if (pages) {
 		unsigned int count, i;
 		pages->mapping = NULL;
-		pages->private = order;
+		set_page_private(pages, order);
 		count = 1 << order;
 		for (i = 0; i < count; i++)
 			SetPageReserved(pages + i);
@@ -347,7 +347,7 @@
 {
 	unsigned int order, count, i;
  
-	order = page->private;
+	order = page_private(page);
 	count = 1 << order;
 	for (i = 0; i < count; i++)
 		ClearPageReserved(page + i);
@@ -111,4 +111,17 @@
 config SPARSEMEM_EXTREME
 	def_bool y
 	depends on SPARSEMEM && !SPARSEMEM_STATIC
+
+# Heavily threaded applications may benefit from splitting the mm-wide
+# page_table_lock, so that faults on different parts of the user address
+# space can be handled with less contention: split it at this NR_CPUS.
+# Default to 4 for wider testing, though 8 might be more appropriate.
+# ARM's adjust_pte (unused if VIPT) depends on mm-wide page_table_lock.
+# PA-RISC's debug spinlock_t is too large for the 32-bit struct page.
+#
+config SPLIT_PTLOCK_CPUS
+	int
+	default "4096" if ARM && !CPU_CACHE_VIPT
+	default "4096" if PARISC && DEBUG_SPINLOCK && !64BIT
+	default "4"
@@ -152,7 +152,7 @@
 	 * in the ->sync_page() methods make essential use of the
 	 * page_mapping(), merely passing the page down to the backing
 	 * device's unplug functions when it's non-NULL, which in turn
-	 * ignore it for all cases but swap, where only page->private is
+	 * ignore it for all cases but swap, where only page_private(page) is
 	 * of interest. When page_mapping() does go NULL, the entire
 	 * call stack gracefully ignores the page and returns.
 	 * -- wli
@@ -114,6 +114,7 @@
 {
 	struct page *page = pmd_page(*pmd);
 	pmd_clear(pmd);
+	pte_lock_deinit(page);
 	pte_free_tlb(tlb, page);
 	dec_page_state(nr_page_table_pages);
 	tlb->mm->nr_ptes--;
  
  
@@ -294,10 +295,12 @@
 	if (!new)
 		return -ENOMEM;
  
+	pte_lock_init(new);
 	spin_lock(&mm->page_table_lock);
-	if (pmd_present(*pmd))		/* Another has populated it */
+	if (pmd_present(*pmd)) {	/* Another has populated it */
+		pte_lock_deinit(new);
 		pte_free(new);
-	else {
+	} else {
 		mm->nr_ptes++;
 		inc_page_state(nr_page_table_pages);
 		pmd_populate(mm, pmd, new);
@@ -432,7 +435,7 @@
 	if (!dst_pte)
 		return -ENOMEM;
 	src_pte = pte_offset_map_nested(src_pmd, addr);
-	src_ptl = &src_mm->page_table_lock;
+	src_ptl = pte_lockptr(src_mm, src_pmd);
 	spin_lock(src_ptl);
  
 	do {
  
  
@@ -1194,15 +1197,16 @@
  * (but do_wp_page is only called after already making such a check;
  * and do_anonymous_page and do_no_page can safely check later on).
  */
-static inline int pte_unmap_same(struct mm_struct *mm,
+static inline int pte_unmap_same(struct mm_struct *mm, pmd_t *pmd,
 				pte_t *page_table, pte_t orig_pte)
 {
 	int same = 1;
 #if defined(CONFIG_SMP) || defined(CONFIG_PREEMPT)
 	if (sizeof(pte_t) > sizeof(unsigned long)) {
-		spin_lock(&mm->page_table_lock);
+		spinlock_t *ptl = pte_lockptr(mm, pmd);
+		spin_lock(ptl);
 		same = pte_same(*page_table, orig_pte);
-		spin_unlock(&mm->page_table_lock);
+		spin_unlock(ptl);
 	}
 #endif
 	pte_unmap(page_table);
@@ -1655,7 +1659,7 @@
 	pte_t pte;
 	int ret = VM_FAULT_MINOR;
  
-	if (!pte_unmap_same(mm, page_table, orig_pte))
+	if (!pte_unmap_same(mm, pmd, page_table, orig_pte))
 		goto out;
  
 	entry = pte_to_swp_entry(orig_pte);
@@ -1773,7 +1777,7 @@
 		page_cache_get(page);
 		entry = mk_pte(page, vma->vm_page_prot);
  
-		ptl = &mm->page_table_lock;
+		ptl = pte_lockptr(mm, pmd);
 		spin_lock(ptl);
 		if (!pte_none(*page_table))
 			goto release;
@@ -1934,7 +1938,7 @@
 	pgoff_t pgoff;
 	int err;
  
-	if (!pte_unmap_same(mm, page_table, orig_pte))
+	if (!pte_unmap_same(mm, pmd, page_table, orig_pte))
 		return VM_FAULT_MINOR;
  
 	if (unlikely(!(vma->vm_flags & VM_NONLINEAR))) {
@@ -1992,7 +1996,7 @@
 					pte, pmd, write_access, entry);
 	}
  
-	ptl = &mm->page_table_lock;
+	ptl = pte_lockptr(mm, pmd);
 	spin_lock(ptl);
 	if (unlikely(!pte_same(*pte, entry)))
 		goto unlock;
@@ -72,7 +72,7 @@
 	struct address_space *mapping = NULL;
 	struct mm_struct *mm = vma->vm_mm;
 	pte_t *old_pte, *new_pte, pte;
-	spinlock_t *old_ptl;
+	spinlock_t *old_ptl, *new_ptl;
  
 	if (vma->vm_file) {
 		/*
  
@@ -88,8 +88,15 @@
 			new_vma->vm_truncate_count = 0;
 	}
  
+	/*
+	 * We don't have to worry about the ordering of src and dst
+	 * pte locks because exclusive mmap_sem prevents deadlock.
+	 */
 	old_pte = pte_offset_map_lock(mm, old_pmd, old_addr, &old_ptl);
  	new_pte = pte_offset_map_nested(new_pmd, new_addr);
+	new_ptl = pte_lockptr(mm, new_pmd);
+	if (new_ptl != old_ptl)
+		spin_lock(new_ptl);
  
 	for (; old_addr < old_end; old_pte++, old_addr += PAGE_SIZE,
 				   new_pte++, new_addr += PAGE_SIZE) {
@@ -101,6 +108,8 @@
 		set_pte_at(mm, new_addr, new_pte, pte);
 	}
  
+	if (new_ptl != old_ptl)
+		spin_unlock(new_ptl);
 	pte_unmap_nested(new_pte - 1);
 	pte_unmap_unlock(old_pte - 1, old_ptl);
 	if (mapping)
@@ -154,7 +154,7 @@
 		struct page *p = page + i;
  
 		SetPageCompound(p);
-		p->private = (unsigned long)page;
+		set_page_private(p, (unsigned long)page);
 	}
 }
  
@@ -174,7 +174,7 @@
  
 		if (!PageCompound(p))
 			bad_page(__FUNCTION__, page);
-		if (p->private != (unsigned long)page)
+		if (page_private(p) != (unsigned long)page)
 			bad_page(__FUNCTION__, page);
 		ClearPageCompound(p);
 	}
  
  
@@ -187,18 +187,18 @@
  * So, we don't need atomic page->flags operations here.
  */
 static inline unsigned long page_order(struct page *page) {
-	return page->private;
+	return page_private(page);
 }
  
 static inline void set_page_order(struct page *page, int order) {
-	page->private = order;
+	set_page_private(page, order);
 	__SetPagePrivate(page);
 }
  
 static inline void rmv_page_order(struct page *page)
 {
 	__ClearPagePrivate(page);
-	page->private = 0;
+	set_page_private(page, 0);
 }
  
 /*
@@ -238,7 +238,7 @@
  * (a) the buddy is free &&
  * (b) the buddy is on the buddy system &&
  * (c) a page and its buddy have the same order.
- * for recording page's order, we use page->private and PG_private.
+ * for recording page's order, we use page_private(page) and PG_private.
  *
  */
 static inline int page_is_buddy(struct page *page, int order)
@@ -264,7 +264,7 @@
  * parts of the VM system.
  * At each level, we keep a list of pages, which are heads of continuous
  * free pages of length of (1 << order) and marked with PG_Private.Page's
- * order is recorded in page->private field.
+ * order is recorded in page_private(page) field.
  * So when we are allocating or freeing one, we can derive the state of the
  * other.  That is, if we allocate a small block, and both were   
  * free, the remainder of the region must be split into blocks.   
@@ -463,7 +463,7 @@
 	page->flags &= ~(1 << PG_uptodate | 1 << PG_error |
 			1 << PG_referenced | 1 << PG_arch_1 |
 			1 << PG_checked | 1 << PG_mappedtodisk);
-	page->private = 0;
+	set_page_private(page, 0);
 	set_page_refs(page, order);
 	kernel_map_pages(page, 1 << order, 1);
 }
@@ -91,7 +91,8 @@
 		unlock_page(page);
 		goto out;
 	}
-	bio = get_swap_bio(GFP_NOIO, page->private, page, end_swap_bio_write);
+	bio = get_swap_bio(GFP_NOIO, page_private(page), page,
+				end_swap_bio_write);
 	if (bio == NULL) {
 		set_page_dirty(page);
 		unlock_page(page);
@@ -115,7 +116,8 @@
  
 	BUG_ON(!PageLocked(page));
 	ClearPageUptodate(page);
-	bio = get_swap_bio(GFP_KERNEL, page->private, page, end_swap_bio_read);
+	bio = get_swap_bio(GFP_KERNEL, page_private(page), page,
+				end_swap_bio_read);
 	if (bio == NULL) {
 		unlock_page(page);
 		ret = -ENOMEM;
@@ -274,7 +274,7 @@
 		return NULL;
 	}
  
-	ptl = &mm->page_table_lock;
+	ptl = pte_lockptr(mm, pmd);
 	spin_lock(ptl);
 	if (pte_present(*pte) && page_to_pfn(page) == pte_pfn(*pte)) {
 		*ptlp = ptl;
@@ -550,7 +550,7 @@
 	update_hiwater_rss(mm);
  
 	if (PageAnon(page)) {
-		swp_entry_t entry = { .val = page->private };
+		swp_entry_t entry = { .val = page_private(page) };
 		/*
 		 * Store the swap location in the pte.
 		 * See handle_pte_fault() ...
@@ -71,9 +71,6 @@
 /* Pretend that each entry is of this size in directory's i_size */
 #define BOGO_DIRENT_SIZE 20
  
-/* Keep swapped page count in private field of indirect struct page */
-#define nr_swapped		private
-
 /* Flag allocation requirements to shmem_getpage and shmem_swp_alloc */
 enum sgp_type {
 	SGP_QUICK,	/* don't try more than file page cache lookup */
@@ -324,8 +321,10 @@
  
 	entry->val = value;
 	info->swapped += incdec;
-	if ((unsigned long)(entry - info->i_direct) >= SHMEM_NR_DIRECT)
-		kmap_atomic_to_page(entry)->nr_swapped += incdec;
+	if ((unsigned long)(entry - info->i_direct) >= SHMEM_NR_DIRECT) {
+		struct page *page = kmap_atomic_to_page(entry);
+		set_page_private(page, page_private(page) + incdec);
+	}
 }
  
 /*
@@ -368,9 +367,8 @@
  
 		spin_unlock(&info->lock);
 		page = shmem_dir_alloc(mapping_gfp_mask(inode->i_mapping) | __GFP_ZERO);
-		if (page) {
-			page->nr_swapped = 0;
-		}
+		if (page)
+			set_page_private(page, 0);
 		spin_lock(&info->lock);
  
 		if (!page) {
@@ -561,7 +559,7 @@
 			diroff = 0;
 		}
 		subdir = dir[diroff];
-		if (subdir && subdir->nr_swapped) {
+		if (subdir && page_private(subdir)) {
 			size = limit - idx;
 			if (size > ENTRIES_PER_PAGE)
 				size = ENTRIES_PER_PAGE;
  
@@ -572,10 +570,10 @@
 			nr_swaps_freed += freed;
 			if (offset)
 				spin_lock(&info->lock);
-			subdir->nr_swapped -= freed;
+			set_page_private(subdir, page_private(subdir) - freed);
 			if (offset)
 				spin_unlock(&info->lock);
-			BUG_ON(subdir->nr_swapped > offset);
+			BUG_ON(page_private(subdir) > offset);
 		}
 		if (offset)
 			offset = 0;
@@ -743,7 +741,7 @@
 			dir = shmem_dir_map(subdir);
 		}
 		subdir = *dir;
-		if (subdir && subdir->nr_swapped) {
+		if (subdir && page_private(subdir)) {
 			ptr = shmem_swp_map(subdir);
 			size = limit - idx;
 			if (size > ENTRIES_PER_PAGE)
@@ -39,7 +39,7 @@
 void put_page(struct page *page)
 {
 	if (unlikely(PageCompound(page))) {
-		page = (struct page *)page->private;
+		page = (struct page *)page_private(page);
 		if (put_page_testzero(page)) {
 			void (*dtor)(struct page *page);
  
@@ -83,7 +83,7 @@
 			page_cache_get(page);
 			SetPageLocked(page);
 			SetPageSwapCache(page);
-			page->private = entry.val;
+			set_page_private(page, entry.val);
 			total_swapcache_pages++;
 			pagecache_acct(1);
 		}
@@ -126,8 +126,8 @@
 	BUG_ON(PageWriteback(page));
 	BUG_ON(PagePrivate(page));
  
-	radix_tree_delete(&swapper_space.page_tree, page->private);
-	page->private = 0;
+	radix_tree_delete(&swapper_space.page_tree, page_private(page));
+	set_page_private(page, 0);
 	ClearPageSwapCache(page);
 	total_swapcache_pages--;
 	pagecache_acct(-1);
@@ -197,7 +197,7 @@
 {
 	swp_entry_t entry;
  
-	entry.val = page->private;
+	entry.val = page_private(page);
  
 	write_lock_irq(&swapper_space.tree_lock);
 	__delete_from_swap_cache(page);
@@ -61,7 +61,7 @@
 	swp_entry_t entry;
  
 	down_read(&swap_unplug_sem);
-	entry.val = page->private;
+	entry.val = page_private(page);
 	if (PageSwapCache(page)) {
 		struct block_device *bdev = swap_info[swp_type(entry)].bdev;
 		struct backing_dev_info *bdi;
@@ -69,8 +69,8 @@
 		/*
 		 * If the page is removed from swapcache from under us (with a
 		 * racy try_to_unuse/swapoff) we need an additional reference
-		 * count to avoid reading garbage from page->private above. If
-		 * the WARN_ON triggers during a swapoff it maybe the race
+		 * count to avoid reading garbage from page_private(page) above.
+		 * If the WARN_ON triggers during a swapoff it maybe the race
 		 * condition and it's harmless. However if it triggers without
 		 * swapoff it signals a problem.
 		 */
@@ -294,7 +294,7 @@
 	struct swap_info_struct *p;
 	swp_entry_t entry;
  
-	entry.val = page->private;
+	entry.val = page_private(page);
 	p = swap_info_get(entry);
 	if (p) {
 		/* Subtract the 1 for the swap cache itself */
@@ -339,7 +339,7 @@
 	if (page_count(page) != 2) /* 2: us + cache */
 		return 0;
  
-	entry.val = page->private;
+	entry.val = page_private(page);
 	p = swap_info_get(entry);
 	if (!p)
 		return 0;
@@ -1042,7 +1042,7 @@
 	BUG_ON(!PageLocked(page));	/* It pins the swap_info_struct */
  
 	if (PageSwapCache(page)) {
-		swp_entry_t entry = { .val = page->private };
+		swp_entry_t entry = { .val = page_private(page) };
 		struct swap_info_struct *sis;
  
 		sis = get_swap_info_struct(swp_type(entry));
@@ -521,7 +521,7 @@
  
 #ifdef CONFIG_SWAP
 		if (PageSwapCache(page)) {
-			swp_entry_t swap = { .val = page->private };
+			swp_entry_t swap = { .val = page_private(page) };
 			__delete_from_swap_cache(page);
 			write_unlock_irq(&mapping->tree_lock);
 			swap_free(swap);
...	...	@@ -229,6 +229,7 @@
229	229	pte = pmd_page(*pmd);
230	230	pmd_clear(pmd);
231	231	dec_page_state(nr_page_table_pages);
	232	+ pte_lock_deinit(pte);
232	233	pte_free(pte);
233	234	pmd_free(pmd);
234	235	free:
...	...	@@ -87,14 +87,14 @@
87	87	if (pgd_list)
88	88	pgd_list->private = (unsigned long) &page->index;
89	89	pgd_list = page;
90		- page->private = (unsigned long) &pgd_list;
	90	+ set_page_private(page, (unsigned long)&pgd_list);
91	91	}
92	92
93	93	static inline void pgd_list_del(pgd_t *pgd)
94	94	{
95	95	struct page next, pprev, page = virt_to_page(pgd);
96	96	next = (struct page *) page->index;
97		- pprev = (struct page **) page->private;
	97	+ pprev = (struct page **)page_private(page);
98	98	*pprev = next;
99	99	if (next)
100	100	next->private = (unsigned long) pprev;
...	...	@@ -188,19 +188,19 @@
188	188	struct page *page = virt_to_page(pgd);
189	189	page->index = (unsigned long)pgd_list;
190	190	if (pgd_list)
191		- pgd_list->private = (unsigned long)&page->index;
	191	+ set_page_private(pgd_list, (unsigned long)&page->index);
192	192	pgd_list = page;
193		- page->private = (unsigned long)&pgd_list;
	193	+ set_page_private(page, (unsigned long)&pgd_list);
194	194	}
195	195
196	196	static inline void pgd_list_del(pgd_t *pgd)
197	197	{
198	198	struct page next, pprev, page = virt_to_page(pgd);
199	199	next = (struct page *)page->index;
200		- pprev = (struct page **)page->private;
	200	+ pprev = (struct page **)page_private(page);
201	201	*pprev = next;
202	202	if (next)
203		- next->private = (unsigned long)pprev;
	203	+ set_page_private(next, (unsigned long)pprev);
204	204	}
205	205
206	206	void pgd_ctor(void pgd, kmem_cache_t cache, unsigned long unused)
...	...	@@ -144,6 +144,7 @@
144	144
145	145	if(!proc_mm \|\| !ptrace_faultinfo){
146	146	free_page(mmu->id.stack);
	147	+ pte_lock_deinit(virt_to_page(mmu->last_page_table));
147	148	pte_free_kernel((pte_t *) mmu->last_page_table);
148	149	dec_page_state(nr_page_table_pages);
149	150	#ifdef CONFIG_3_LEVEL_PGTABLES
...	...	@@ -291,8 +291,8 @@
291	291	cachefs_uncache_page(vnode->cache, page);
292	292	#endif
293	293
294		- pageio = (struct cachefs_page *) page->private;
295		- page->private = 0;
	294	+ pageio = (struct cachefs_page *) page_private(page);
	295	+ set_page_private(page, 0);
296	296	ClearPagePrivate(page);
297	297
298	298	if (pageio)
...	...	@@ -96,7 +96,7 @@
96	96	__clear_page_buffers(struct page *page)
97	97	{
98	98	ClearPagePrivate(page);
99		- page->private = 0;
	99	+ set_page_private(page, 0);
100	100	page_cache_release(page);
101	101	}
102	102
...	...	@@ -86,7 +86,7 @@
86	86	atomic_t io_count;
87	87	struct metapage *mp[MPS_PER_PAGE];
88	88	};
89		-#define mp_anchor(page) ((struct meta_anchor *)page->private)
	89	+#define mp_anchor(page) ((struct meta_anchor *)page_private(page))
90	90
91	91	static inline struct metapage page_to_mp(struct page page, uint offset)
92	92	{
...	...	@@ -108,7 +108,7 @@
108	108	if (!a)
109	109	return -ENOMEM;
110	110	memset(a, 0, sizeof(struct meta_anchor));
111		- page->private = (unsigned long)a;
	111	+ set_page_private(page, (unsigned long)a);
112	112	SetPagePrivate(page);
113	113	kmap(page);
114	114	}
...	...	@@ -136,7 +136,7 @@
136	136	a->mp[index] = NULL;
137	137	if (--a->mp_count == 0) {
138	138	kfree(a);
139		- page->private = 0;
	139	+ set_page_private(page, 0);
140	140	ClearPagePrivate(page);
141	141	kunmap(page);
142	142	}
143	143
...	...	@@ -156,13 +156,13 @@
156	156	#else
157	157	static inline struct metapage page_to_mp(struct page page, uint offset)
158	158	{
159		- return PagePrivate(page) ? (struct metapage *)page->private : NULL;
	159	+ return PagePrivate(page) ? (struct metapage *)page_private(page) : NULL;
160	160	}
161	161
162	162	static inline int insert_metapage(struct page page, struct metapage mp)
163	163	{
164	164	if (mp) {
165		- page->private = (unsigned long)mp;
	165	+ set_page_private(page, (unsigned long)mp);
166	166	SetPagePrivate(page);
167	167	kmap(page);
168	168	}
...	...	@@ -171,7 +171,7 @@
171	171
172	172	static inline void remove_metapage(struct page page, struct metapage mp)
173	173	{
174		- page->private = 0;
	174	+ set_page_private(page, 0);
175	175	ClearPagePrivate(page);
176	176	kunmap(page);
177	177	}
...	...	@@ -181,8 +181,9 @@
181	181	size_t offset,
182	182	size_t length)
183	183	{
184		- page->private \|= page_region_mask(offset, length);
185		- if (page->private == ~0UL)
	184	+ set_page_private(page,
	185	+ page_private(page) \| page_region_mask(offset, length));
	186	+ if (page_private(page) == ~0UL)
186	187	SetPageUptodate(page);
187	188	}
188	189
...	...	@@ -194,7 +195,7 @@
194	195	{
195	196	unsigned long mask = page_region_mask(offset, length);
196	197
197		- return (mask && (page->private & mask) == mask);
	198	+ return (mask && (page_private(page) & mask) == mask);
198	199	}
199	200
200	201	/*
...	...	@@ -126,8 +126,8 @@
126	126	/* If we know page->private refers to buffer_heads */
127	127	#define page_buffers(page) \
128	128	({ \
129		- BUG_ON(!PagePrivate(page)); \
130		- ((struct buffer_head *)(page)->private); \
	129	+ BUG_ON(!PagePrivate(page)); \
	130	+ ((struct buffer_head *)page_private(page)); \
131	131	})
132	132	#define page_has_buffers(page) PagePrivate(page)
133	133
...	...	@@ -219,7 +219,7 @@
219	219	{
220	220	page_cache_get(page);
221	221	SetPagePrivate(page);
222		- page->private = (unsigned long)head;
	222	+ set_page_private(page, (unsigned long)head);
223	223	}
224	224
225	225	static inline void get_bh(struct buffer_head *bh)
...	...	@@ -226,13 +226,18 @@
226	226	* to show when page is mapped
227	227	* & limit reverse map searches.
228	228	*/
229		- unsigned long private; /* Mapping-private opaque data:
	229	+ union {
	230	+ unsigned long private; /* Mapping-private opaque data:
230	231	* usually used for buffer_heads
231	232	* if PagePrivate set; used for
232	233	* swp_entry_t if PageSwapCache
233	234	* When page is free, this indicates
234	235	* order in the buddy system.
235	236	*/
	237	+#if NR_CPUS >= CONFIG_SPLIT_PTLOCK_CPUS
	238	+ spinlock_t ptl;
	239	+#endif
	240	+ } u;
236	241	struct address_space mapping; / If low bit clear, points to
237	242	* inode address_space, or NULL.
238	243	* If page mapped as anonymous
...	...	@@ -260,6 +265,9 @@
260	265	#endif /* WANT_PAGE_VIRTUAL */
261	266	};
262	267
	268	+#define page_private(page) ((page)->u.private)
	269	+#define set_page_private(page, v) ((page)->u.private = (v))
	270	+
263	271	/*
264	272	* FIXME: take this include out, include page-flags.h in
265	273	* files which need it (119 of them)
266	274
267	275
...	...	@@ -311,17 +319,17 @@
311	319
312	320	#ifdef CONFIG_HUGETLB_PAGE
313	321
314		-static inline int page_count(struct page *p)
	322	+static inline int page_count(struct page *page)
315	323	{
316		- if (PageCompound(p))
317		- p = (struct page *)p->private;
318		- return atomic_read(&(p)->_count) + 1;
	324	+ if (PageCompound(page))
	325	+ page = (struct page *)page_private(page);
	326	+ return atomic_read(&page->_count) + 1;
319	327	}
320	328
321	329	static inline void get_page(struct page *page)
322	330	{
323	331	if (unlikely(PageCompound(page)))
324		- page = (struct page *)page->private;
	332	+ page = (struct page *)page_private(page);
325	333	atomic_inc(&page->_count);
326	334	}
327	335
...	...	@@ -587,7 +595,7 @@
587	595	static inline pgoff_t page_index(struct page *page)
588	596	{
589	597	if (unlikely(PageSwapCache(page)))
590		- return page->private;
	598	+ return page_private(page);
591	599	return page->index;
592	600	}
593	601
594	602
...	...	@@ -779,9 +787,31 @@
779	787	}
780	788	#endif /* CONFIG_MMU && !__ARCH_HAS_4LEVEL_HACK */
781	789
	790	+#if NR_CPUS >= CONFIG_SPLIT_PTLOCK_CPUS
	791	+/*
	792	+ * We tuck a spinlock to guard each pagetable page into its struct page,
	793	+ * at page->private, with BUILD_BUG_ON to make sure that this will not
	794	+ * overflow into the next struct page (as it might with DEBUG_SPINLOCK).
	795	+ * When freeing, reset page->mapping so free_pages_check won't complain.
	796	+ */
	797	+#define __pte_lockptr(page) &((page)->u.ptl)
	798	+#define pte_lock_init(_page) do { \
	799	+ spin_lock_init(__pte_lockptr(_page)); \
	800	+} while (0)
	801	+#define pte_lock_deinit(page) ((page)->mapping = NULL)
	802	+#define pte_lockptr(mm, pmd) ({(void)(mm); __pte_lockptr(pmd_page(*(pmd)));})
	803	+#else
	804	+/*
	805	+ * We use mm->page_table_lock to guard all pagetable pages of the mm.
	806	+ */
	807	+#define pte_lock_init(page) do {} while (0)
	808	+#define pte_lock_deinit(page) do {} while (0)
	809	+#define pte_lockptr(mm, pmd) ({(void)(pmd); &(mm)->page_table_lock;})
	810	+#endif /* NR_CPUS < CONFIG_SPLIT_PTLOCK_CPUS */
	811	+
782	812	#define pte_offset_map_lock(mm, pmd, address, ptlp) \
783	813	({ \
784		- spinlock_t *__ptl = &(mm)->page_table_lock; \
	814	+ spinlock_t *__ptl = pte_lockptr(mm, pmd); \
785	815	pte_t *__pte = pte_offset_map(pmd, address); \
786	816	*(ptlp) = __ptl; \
787	817	spin_lock(__ptl); \