drm/amdgpu/bu: add mtype_local as a module parameter
[platform/kernel/linux-rpi.git] / drivers / gpu / drm / amd / amdkfd / kfd_svm.c
1 // SPDX-License-Identifier: GPL-2.0 OR MIT
2 /*
3  * Copyright 2020-2021 Advanced Micro Devices, Inc.
4  *
5  * Permission is hereby granted, free of charge, to any person obtaining a
6  * copy of this software and associated documentation files (the "Software"),
7  * to deal in the Software without restriction, including without limitation
8  * the rights to use, copy, modify, merge, publish, distribute, sublicense,
9  * and/or sell copies of the Software, and to permit persons to whom the
10  * Software is furnished to do so, subject to the following conditions:
11  *
12  * The above copyright notice and this permission notice shall be included in
13  * all copies or substantial portions of the Software.
14  *
15  * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
16  * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
17  * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT.  IN NO EVENT SHALL
18  * THE COPYRIGHT HOLDER(S) OR AUTHOR(S) BE LIABLE FOR ANY CLAIM, DAMAGES OR
19  * OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE,
20  * ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR
21  * OTHER DEALINGS IN THE SOFTWARE.
22  */
23
24 #include <linux/types.h>
25 #include <linux/sched/task.h>
26 #include <drm/ttm/ttm_tt.h>
27 #include "amdgpu_sync.h"
28 #include "amdgpu_object.h"
29 #include "amdgpu_vm.h"
30 #include "amdgpu_hmm.h"
31 #include "amdgpu.h"
32 #include "amdgpu_xgmi.h"
33 #include "kfd_priv.h"
34 #include "kfd_svm.h"
35 #include "kfd_migrate.h"
36 #include "kfd_smi_events.h"
37
38 #ifdef dev_fmt
39 #undef dev_fmt
40 #endif
41 #define dev_fmt(fmt) "kfd_svm: %s: " fmt, __func__
42
43 #define AMDGPU_SVM_RANGE_RESTORE_DELAY_MS 1
44
45 /* Long enough to ensure no retry fault comes after svm range is restored and
46  * page table is updated.
47  */
48 #define AMDGPU_SVM_RANGE_RETRY_FAULT_PENDING    (2UL * NSEC_PER_MSEC)
49
50 /* Giant svm range split into smaller ranges based on this, it is decided using
51  * minimum of all dGPU/APU 1/32 VRAM size, between 2MB to 1GB and alignment to
52  * power of 2MB.
53  */
54 static uint64_t max_svm_range_pages;
55
56 struct criu_svm_metadata {
57         struct list_head list;
58         struct kfd_criu_svm_range_priv_data data;
59 };
60
61 static void svm_range_evict_svm_bo_worker(struct work_struct *work);
62 static bool
63 svm_range_cpu_invalidate_pagetables(struct mmu_interval_notifier *mni,
64                                     const struct mmu_notifier_range *range,
65                                     unsigned long cur_seq);
66 static int
67 svm_range_check_vm(struct kfd_process *p, uint64_t start, uint64_t last,
68                    uint64_t *bo_s, uint64_t *bo_l);
69 static const struct mmu_interval_notifier_ops svm_range_mn_ops = {
70         .invalidate = svm_range_cpu_invalidate_pagetables,
71 };
72
73 /**
74  * svm_range_unlink - unlink svm_range from lists and interval tree
75  * @prange: svm range structure to be removed
76  *
77  * Remove the svm_range from the svms and svm_bo lists and the svms
78  * interval tree.
79  *
80  * Context: The caller must hold svms->lock
81  */
82 static void svm_range_unlink(struct svm_range *prange)
83 {
84         pr_debug("svms 0x%p prange 0x%p [0x%lx 0x%lx]\n", prange->svms,
85                  prange, prange->start, prange->last);
86
87         if (prange->svm_bo) {
88                 spin_lock(&prange->svm_bo->list_lock);
89                 list_del(&prange->svm_bo_list);
90                 spin_unlock(&prange->svm_bo->list_lock);
91         }
92
93         list_del(&prange->list);
94         if (prange->it_node.start != 0 && prange->it_node.last != 0)
95                 interval_tree_remove(&prange->it_node, &prange->svms->objects);
96 }
97
98 static void
99 svm_range_add_notifier_locked(struct mm_struct *mm, struct svm_range *prange)
100 {
101         pr_debug("svms 0x%p prange 0x%p [0x%lx 0x%lx]\n", prange->svms,
102                  prange, prange->start, prange->last);
103
104         mmu_interval_notifier_insert_locked(&prange->notifier, mm,
105                                      prange->start << PAGE_SHIFT,
106                                      prange->npages << PAGE_SHIFT,
107                                      &svm_range_mn_ops);
108 }
109
110 /**
111  * svm_range_add_to_svms - add svm range to svms
112  * @prange: svm range structure to be added
113  *
114  * Add the svm range to svms interval tree and link list
115  *
116  * Context: The caller must hold svms->lock
117  */
118 static void svm_range_add_to_svms(struct svm_range *prange)
119 {
120         pr_debug("svms 0x%p prange 0x%p [0x%lx 0x%lx]\n", prange->svms,
121                  prange, prange->start, prange->last);
122
123         list_move_tail(&prange->list, &prange->svms->list);
124         prange->it_node.start = prange->start;
125         prange->it_node.last = prange->last;
126         interval_tree_insert(&prange->it_node, &prange->svms->objects);
127 }
128
129 static void svm_range_remove_notifier(struct svm_range *prange)
130 {
131         pr_debug("remove notifier svms 0x%p prange 0x%p [0x%lx 0x%lx]\n",
132                  prange->svms, prange,
133                  prange->notifier.interval_tree.start >> PAGE_SHIFT,
134                  prange->notifier.interval_tree.last >> PAGE_SHIFT);
135
136         if (prange->notifier.interval_tree.start != 0 &&
137             prange->notifier.interval_tree.last != 0)
138                 mmu_interval_notifier_remove(&prange->notifier);
139 }
140
141 static bool
142 svm_is_valid_dma_mapping_addr(struct device *dev, dma_addr_t dma_addr)
143 {
144         return dma_addr && !dma_mapping_error(dev, dma_addr) &&
145                !(dma_addr & SVM_RANGE_VRAM_DOMAIN);
146 }
147
148 static int
149 svm_range_dma_map_dev(struct amdgpu_device *adev, struct svm_range *prange,
150                       unsigned long offset, unsigned long npages,
151                       unsigned long *hmm_pfns, uint32_t gpuidx)
152 {
153         enum dma_data_direction dir = DMA_BIDIRECTIONAL;
154         dma_addr_t *addr = prange->dma_addr[gpuidx];
155         struct device *dev = adev->dev;
156         struct page *page;
157         int i, r;
158
159         if (!addr) {
160                 addr = kvcalloc(prange->npages, sizeof(*addr), GFP_KERNEL);
161                 if (!addr)
162                         return -ENOMEM;
163                 prange->dma_addr[gpuidx] = addr;
164         }
165
166         addr += offset;
167         for (i = 0; i < npages; i++) {
168                 if (svm_is_valid_dma_mapping_addr(dev, addr[i]))
169                         dma_unmap_page(dev, addr[i], PAGE_SIZE, dir);
170
171                 page = hmm_pfn_to_page(hmm_pfns[i]);
172                 if (is_zone_device_page(page)) {
173                         struct amdgpu_device *bo_adev = prange->svm_bo->node->adev;
174
175                         addr[i] = (hmm_pfns[i] << PAGE_SHIFT) +
176                                    bo_adev->vm_manager.vram_base_offset -
177                                    bo_adev->kfd.pgmap.range.start;
178                         addr[i] |= SVM_RANGE_VRAM_DOMAIN;
179                         pr_debug_ratelimited("vram address: 0x%llx\n", addr[i]);
180                         continue;
181                 }
182                 addr[i] = dma_map_page(dev, page, 0, PAGE_SIZE, dir);
183                 r = dma_mapping_error(dev, addr[i]);
184                 if (r) {
185                         dev_err(dev, "failed %d dma_map_page\n", r);
186                         return r;
187                 }
188                 pr_debug_ratelimited("dma mapping 0x%llx for page addr 0x%lx\n",
189                                      addr[i] >> PAGE_SHIFT, page_to_pfn(page));
190         }
191         return 0;
192 }
193
194 static int
195 svm_range_dma_map(struct svm_range *prange, unsigned long *bitmap,
196                   unsigned long offset, unsigned long npages,
197                   unsigned long *hmm_pfns)
198 {
199         struct kfd_process *p;
200         uint32_t gpuidx;
201         int r;
202
203         p = container_of(prange->svms, struct kfd_process, svms);
204
205         for_each_set_bit(gpuidx, bitmap, MAX_GPU_INSTANCE) {
206                 struct kfd_process_device *pdd;
207
208                 pr_debug("mapping to gpu idx 0x%x\n", gpuidx);
209                 pdd = kfd_process_device_from_gpuidx(p, gpuidx);
210                 if (!pdd) {
211                         pr_debug("failed to find device idx %d\n", gpuidx);
212                         return -EINVAL;
213                 }
214
215                 r = svm_range_dma_map_dev(pdd->dev->adev, prange, offset, npages,
216                                           hmm_pfns, gpuidx);
217                 if (r)
218                         break;
219         }
220
221         return r;
222 }
223
224 void svm_range_dma_unmap(struct device *dev, dma_addr_t *dma_addr,
225                          unsigned long offset, unsigned long npages)
226 {
227         enum dma_data_direction dir = DMA_BIDIRECTIONAL;
228         int i;
229
230         if (!dma_addr)
231                 return;
232
233         for (i = offset; i < offset + npages; i++) {
234                 if (!svm_is_valid_dma_mapping_addr(dev, dma_addr[i]))
235                         continue;
236                 pr_debug_ratelimited("unmap 0x%llx\n", dma_addr[i] >> PAGE_SHIFT);
237                 dma_unmap_page(dev, dma_addr[i], PAGE_SIZE, dir);
238                 dma_addr[i] = 0;
239         }
240 }
241
242 void svm_range_free_dma_mappings(struct svm_range *prange)
243 {
244         struct kfd_process_device *pdd;
245         dma_addr_t *dma_addr;
246         struct device *dev;
247         struct kfd_process *p;
248         uint32_t gpuidx;
249
250         p = container_of(prange->svms, struct kfd_process, svms);
251
252         for (gpuidx = 0; gpuidx < MAX_GPU_INSTANCE; gpuidx++) {
253                 dma_addr = prange->dma_addr[gpuidx];
254                 if (!dma_addr)
255                         continue;
256
257                 pdd = kfd_process_device_from_gpuidx(p, gpuidx);
258                 if (!pdd) {
259                         pr_debug("failed to find device idx %d\n", gpuidx);
260                         continue;
261                 }
262                 dev = &pdd->dev->adev->pdev->dev;
263                 svm_range_dma_unmap(dev, dma_addr, 0, prange->npages);
264                 kvfree(dma_addr);
265                 prange->dma_addr[gpuidx] = NULL;
266         }
267 }
268
269 static void svm_range_free(struct svm_range *prange, bool update_mem_usage)
270 {
271         uint64_t size = (prange->last - prange->start + 1) << PAGE_SHIFT;
272         struct kfd_process *p = container_of(prange->svms, struct kfd_process, svms);
273
274         pr_debug("svms 0x%p prange 0x%p [0x%lx 0x%lx]\n", prange->svms, prange,
275                  prange->start, prange->last);
276
277         svm_range_vram_node_free(prange);
278         svm_range_free_dma_mappings(prange);
279
280         if (update_mem_usage && !p->xnack_enabled) {
281                 pr_debug("unreserve prange 0x%p size: 0x%llx\n", prange, size);
282                 amdgpu_amdkfd_unreserve_mem_limit(NULL, size,
283                                         KFD_IOC_ALLOC_MEM_FLAGS_USERPTR);
284         }
285         mutex_destroy(&prange->lock);
286         mutex_destroy(&prange->migrate_mutex);
287         kfree(prange);
288 }
289
290 static void
291 svm_range_set_default_attributes(int32_t *location, int32_t *prefetch_loc,
292                                  uint8_t *granularity, uint32_t *flags)
293 {
294         *location = KFD_IOCTL_SVM_LOCATION_UNDEFINED;
295         *prefetch_loc = KFD_IOCTL_SVM_LOCATION_UNDEFINED;
296         *granularity = 9;
297         *flags =
298                 KFD_IOCTL_SVM_FLAG_HOST_ACCESS | KFD_IOCTL_SVM_FLAG_COHERENT;
299 }
300
301 static struct
302 svm_range *svm_range_new(struct svm_range_list *svms, uint64_t start,
303                          uint64_t last, bool update_mem_usage)
304 {
305         uint64_t size = last - start + 1;
306         struct svm_range *prange;
307         struct kfd_process *p;
308
309         prange = kzalloc(sizeof(*prange), GFP_KERNEL);
310         if (!prange)
311                 return NULL;
312
313         p = container_of(svms, struct kfd_process, svms);
314         if (!p->xnack_enabled && update_mem_usage &&
315             amdgpu_amdkfd_reserve_mem_limit(NULL, size << PAGE_SHIFT,
316                                             KFD_IOC_ALLOC_MEM_FLAGS_USERPTR)) {
317                 pr_info("SVM mapping failed, exceeds resident system memory limit\n");
318                 kfree(prange);
319                 return NULL;
320         }
321         prange->npages = size;
322         prange->svms = svms;
323         prange->start = start;
324         prange->last = last;
325         INIT_LIST_HEAD(&prange->list);
326         INIT_LIST_HEAD(&prange->update_list);
327         INIT_LIST_HEAD(&prange->svm_bo_list);
328         INIT_LIST_HEAD(&prange->deferred_list);
329         INIT_LIST_HEAD(&prange->child_list);
330         atomic_set(&prange->invalid, 0);
331         prange->validate_timestamp = 0;
332         mutex_init(&prange->migrate_mutex);
333         mutex_init(&prange->lock);
334
335         if (p->xnack_enabled)
336                 bitmap_copy(prange->bitmap_access, svms->bitmap_supported,
337                             MAX_GPU_INSTANCE);
338
339         svm_range_set_default_attributes(&prange->preferred_loc,
340                                          &prange->prefetch_loc,
341                                          &prange->granularity, &prange->flags);
342
343         pr_debug("svms 0x%p [0x%llx 0x%llx]\n", svms, start, last);
344
345         return prange;
346 }
347
348 static bool svm_bo_ref_unless_zero(struct svm_range_bo *svm_bo)
349 {
350         if (!svm_bo || !kref_get_unless_zero(&svm_bo->kref))
351                 return false;
352
353         return true;
354 }
355
356 static void svm_range_bo_release(struct kref *kref)
357 {
358         struct svm_range_bo *svm_bo;
359
360         svm_bo = container_of(kref, struct svm_range_bo, kref);
361         pr_debug("svm_bo 0x%p\n", svm_bo);
362
363         spin_lock(&svm_bo->list_lock);
364         while (!list_empty(&svm_bo->range_list)) {
365                 struct svm_range *prange =
366                                 list_first_entry(&svm_bo->range_list,
367                                                 struct svm_range, svm_bo_list);
368                 /* list_del_init tells a concurrent svm_range_vram_node_new when
369                  * it's safe to reuse the svm_bo pointer and svm_bo_list head.
370                  */
371                 list_del_init(&prange->svm_bo_list);
372                 spin_unlock(&svm_bo->list_lock);
373
374                 pr_debug("svms 0x%p [0x%lx 0x%lx]\n", prange->svms,
375                          prange->start, prange->last);
376                 mutex_lock(&prange->lock);
377                 prange->svm_bo = NULL;
378                 mutex_unlock(&prange->lock);
379
380                 spin_lock(&svm_bo->list_lock);
381         }
382         spin_unlock(&svm_bo->list_lock);
383         if (!dma_fence_is_signaled(&svm_bo->eviction_fence->base)) {
384                 /* We're not in the eviction worker.
385                  * Signal the fence and synchronize with any
386                  * pending eviction work.
387                  */
388                 dma_fence_signal(&svm_bo->eviction_fence->base);
389                 cancel_work_sync(&svm_bo->eviction_work);
390         }
391         dma_fence_put(&svm_bo->eviction_fence->base);
392         amdgpu_bo_unref(&svm_bo->bo);
393         kfree(svm_bo);
394 }
395
396 static void svm_range_bo_wq_release(struct work_struct *work)
397 {
398         struct svm_range_bo *svm_bo;
399
400         svm_bo = container_of(work, struct svm_range_bo, release_work);
401         svm_range_bo_release(&svm_bo->kref);
402 }
403
404 static void svm_range_bo_release_async(struct kref *kref)
405 {
406         struct svm_range_bo *svm_bo;
407
408         svm_bo = container_of(kref, struct svm_range_bo, kref);
409         pr_debug("svm_bo 0x%p\n", svm_bo);
410         INIT_WORK(&svm_bo->release_work, svm_range_bo_wq_release);
411         schedule_work(&svm_bo->release_work);
412 }
413
414 void svm_range_bo_unref_async(struct svm_range_bo *svm_bo)
415 {
416         kref_put(&svm_bo->kref, svm_range_bo_release_async);
417 }
418
419 static void svm_range_bo_unref(struct svm_range_bo *svm_bo)
420 {
421         if (svm_bo)
422                 kref_put(&svm_bo->kref, svm_range_bo_release);
423 }
424
425 static bool
426 svm_range_validate_svm_bo(struct kfd_node *node, struct svm_range *prange)
427 {
428         mutex_lock(&prange->lock);
429         if (!prange->svm_bo) {
430                 mutex_unlock(&prange->lock);
431                 return false;
432         }
433         if (prange->ttm_res) {
434                 /* We still have a reference, all is well */
435                 mutex_unlock(&prange->lock);
436                 return true;
437         }
438         if (svm_bo_ref_unless_zero(prange->svm_bo)) {
439                 /*
440                  * Migrate from GPU to GPU, remove range from source svm_bo->node
441                  * range list, and return false to allocate svm_bo from destination
442                  * node.
443                  */
444                 if (prange->svm_bo->node != node) {
445                         mutex_unlock(&prange->lock);
446
447                         spin_lock(&prange->svm_bo->list_lock);
448                         list_del_init(&prange->svm_bo_list);
449                         spin_unlock(&prange->svm_bo->list_lock);
450
451                         svm_range_bo_unref(prange->svm_bo);
452                         return false;
453                 }
454                 if (READ_ONCE(prange->svm_bo->evicting)) {
455                         struct dma_fence *f;
456                         struct svm_range_bo *svm_bo;
457                         /* The BO is getting evicted,
458                          * we need to get a new one
459                          */
460                         mutex_unlock(&prange->lock);
461                         svm_bo = prange->svm_bo;
462                         f = dma_fence_get(&svm_bo->eviction_fence->base);
463                         svm_range_bo_unref(prange->svm_bo);
464                         /* wait for the fence to avoid long spin-loop
465                          * at list_empty_careful
466                          */
467                         dma_fence_wait(f, false);
468                         dma_fence_put(f);
469                 } else {
470                         /* The BO was still around and we got
471                          * a new reference to it
472                          */
473                         mutex_unlock(&prange->lock);
474                         pr_debug("reuse old bo svms 0x%p [0x%lx 0x%lx]\n",
475                                  prange->svms, prange->start, prange->last);
476
477                         prange->ttm_res = prange->svm_bo->bo->tbo.resource;
478                         return true;
479                 }
480
481         } else {
482                 mutex_unlock(&prange->lock);
483         }
484
485         /* We need a new svm_bo. Spin-loop to wait for concurrent
486          * svm_range_bo_release to finish removing this range from
487          * its range list. After this, it is safe to reuse the
488          * svm_bo pointer and svm_bo_list head.
489          */
490         while (!list_empty_careful(&prange->svm_bo_list))
491                 ;
492
493         return false;
494 }
495
496 static struct svm_range_bo *svm_range_bo_new(void)
497 {
498         struct svm_range_bo *svm_bo;
499
500         svm_bo = kzalloc(sizeof(*svm_bo), GFP_KERNEL);
501         if (!svm_bo)
502                 return NULL;
503
504         kref_init(&svm_bo->kref);
505         INIT_LIST_HEAD(&svm_bo->range_list);
506         spin_lock_init(&svm_bo->list_lock);
507
508         return svm_bo;
509 }
510
511 int
512 svm_range_vram_node_new(struct kfd_node *node, struct svm_range *prange,
513                         bool clear)
514 {
515         struct amdgpu_bo_param bp;
516         struct svm_range_bo *svm_bo;
517         struct amdgpu_bo_user *ubo;
518         struct amdgpu_bo *bo;
519         struct kfd_process *p;
520         struct mm_struct *mm;
521         int r;
522
523         p = container_of(prange->svms, struct kfd_process, svms);
524         pr_debug("pasid: %x svms 0x%p [0x%lx 0x%lx]\n", p->pasid, prange->svms,
525                  prange->start, prange->last);
526
527         if (svm_range_validate_svm_bo(node, prange))
528                 return 0;
529
530         svm_bo = svm_range_bo_new();
531         if (!svm_bo) {
532                 pr_debug("failed to alloc svm bo\n");
533                 return -ENOMEM;
534         }
535         mm = get_task_mm(p->lead_thread);
536         if (!mm) {
537                 pr_debug("failed to get mm\n");
538                 kfree(svm_bo);
539                 return -ESRCH;
540         }
541         svm_bo->node = node;
542         svm_bo->eviction_fence =
543                 amdgpu_amdkfd_fence_create(dma_fence_context_alloc(1),
544                                            mm,
545                                            svm_bo);
546         mmput(mm);
547         INIT_WORK(&svm_bo->eviction_work, svm_range_evict_svm_bo_worker);
548         svm_bo->evicting = 0;
549         memset(&bp, 0, sizeof(bp));
550         bp.size = prange->npages * PAGE_SIZE;
551         bp.byte_align = PAGE_SIZE;
552         bp.domain = AMDGPU_GEM_DOMAIN_VRAM;
553         bp.flags = AMDGPU_GEM_CREATE_NO_CPU_ACCESS;
554         bp.flags |= clear ? AMDGPU_GEM_CREATE_VRAM_CLEARED : 0;
555         bp.flags |= AMDGPU_GEM_CREATE_DISCARDABLE;
556         bp.type = ttm_bo_type_device;
557         bp.resv = NULL;
558
559         /* TODO: Allocate memory from the right memory partition. We can sort
560          * out the details later, once basic memory partitioning is working
561          */
562         r = amdgpu_bo_create_user(node->adev, &bp, &ubo);
563         if (r) {
564                 pr_debug("failed %d to create bo\n", r);
565                 goto create_bo_failed;
566         }
567         bo = &ubo->bo;
568         r = amdgpu_bo_reserve(bo, true);
569         if (r) {
570                 pr_debug("failed %d to reserve bo\n", r);
571                 goto reserve_bo_failed;
572         }
573
574         if (clear) {
575                 r = amdgpu_bo_sync_wait(bo, AMDGPU_FENCE_OWNER_KFD, false);
576                 if (r) {
577                         pr_debug("failed %d to sync bo\n", r);
578                         amdgpu_bo_unreserve(bo);
579                         goto reserve_bo_failed;
580                 }
581         }
582
583         r = dma_resv_reserve_fences(bo->tbo.base.resv, 1);
584         if (r) {
585                 pr_debug("failed %d to reserve bo\n", r);
586                 amdgpu_bo_unreserve(bo);
587                 goto reserve_bo_failed;
588         }
589         amdgpu_bo_fence(bo, &svm_bo->eviction_fence->base, true);
590
591         amdgpu_bo_unreserve(bo);
592
593         svm_bo->bo = bo;
594         prange->svm_bo = svm_bo;
595         prange->ttm_res = bo->tbo.resource;
596         prange->offset = 0;
597
598         spin_lock(&svm_bo->list_lock);
599         list_add(&prange->svm_bo_list, &svm_bo->range_list);
600         spin_unlock(&svm_bo->list_lock);
601
602         return 0;
603
604 reserve_bo_failed:
605         amdgpu_bo_unref(&bo);
606 create_bo_failed:
607         dma_fence_put(&svm_bo->eviction_fence->base);
608         kfree(svm_bo);
609         prange->ttm_res = NULL;
610
611         return r;
612 }
613
614 void svm_range_vram_node_free(struct svm_range *prange)
615 {
616         svm_range_bo_unref(prange->svm_bo);
617         prange->ttm_res = NULL;
618 }
619
620 struct kfd_node *
621 svm_range_get_node_by_id(struct svm_range *prange, uint32_t gpu_id)
622 {
623         struct kfd_process *p;
624         struct kfd_process_device *pdd;
625
626         p = container_of(prange->svms, struct kfd_process, svms);
627         pdd = kfd_process_device_data_by_id(p, gpu_id);
628         if (!pdd) {
629                 pr_debug("failed to get kfd process device by id 0x%x\n", gpu_id);
630                 return NULL;
631         }
632
633         return pdd->dev;
634 }
635
636 struct kfd_process_device *
637 svm_range_get_pdd_by_node(struct svm_range *prange, struct kfd_node *node)
638 {
639         struct kfd_process *p;
640
641         p = container_of(prange->svms, struct kfd_process, svms);
642
643         return kfd_get_process_device_data(node, p);
644 }
645
646 static int svm_range_bo_validate(void *param, struct amdgpu_bo *bo)
647 {
648         struct ttm_operation_ctx ctx = { false, false };
649
650         amdgpu_bo_placement_from_domain(bo, AMDGPU_GEM_DOMAIN_VRAM);
651
652         return ttm_bo_validate(&bo->tbo, &bo->placement, &ctx);
653 }
654
655 static int
656 svm_range_check_attr(struct kfd_process *p,
657                      uint32_t nattr, struct kfd_ioctl_svm_attribute *attrs)
658 {
659         uint32_t i;
660
661         for (i = 0; i < nattr; i++) {
662                 uint32_t val = attrs[i].value;
663                 int gpuidx = MAX_GPU_INSTANCE;
664
665                 switch (attrs[i].type) {
666                 case KFD_IOCTL_SVM_ATTR_PREFERRED_LOC:
667                         if (val != KFD_IOCTL_SVM_LOCATION_SYSMEM &&
668                             val != KFD_IOCTL_SVM_LOCATION_UNDEFINED)
669                                 gpuidx = kfd_process_gpuidx_from_gpuid(p, val);
670                         break;
671                 case KFD_IOCTL_SVM_ATTR_PREFETCH_LOC:
672                         if (val != KFD_IOCTL_SVM_LOCATION_SYSMEM)
673                                 gpuidx = kfd_process_gpuidx_from_gpuid(p, val);
674                         break;
675                 case KFD_IOCTL_SVM_ATTR_ACCESS:
676                 case KFD_IOCTL_SVM_ATTR_ACCESS_IN_PLACE:
677                 case KFD_IOCTL_SVM_ATTR_NO_ACCESS:
678                         gpuidx = kfd_process_gpuidx_from_gpuid(p, val);
679                         break;
680                 case KFD_IOCTL_SVM_ATTR_SET_FLAGS:
681                         break;
682                 case KFD_IOCTL_SVM_ATTR_CLR_FLAGS:
683                         break;
684                 case KFD_IOCTL_SVM_ATTR_GRANULARITY:
685                         break;
686                 default:
687                         pr_debug("unknown attr type 0x%x\n", attrs[i].type);
688                         return -EINVAL;
689                 }
690
691                 if (gpuidx < 0) {
692                         pr_debug("no GPU 0x%x found\n", val);
693                         return -EINVAL;
694                 } else if (gpuidx < MAX_GPU_INSTANCE &&
695                            !test_bit(gpuidx, p->svms.bitmap_supported)) {
696                         pr_debug("GPU 0x%x not supported\n", val);
697                         return -EINVAL;
698                 }
699         }
700
701         return 0;
702 }
703
704 static void
705 svm_range_apply_attrs(struct kfd_process *p, struct svm_range *prange,
706                       uint32_t nattr, struct kfd_ioctl_svm_attribute *attrs,
707                       bool *update_mapping)
708 {
709         uint32_t i;
710         int gpuidx;
711
712         for (i = 0; i < nattr; i++) {
713                 switch (attrs[i].type) {
714                 case KFD_IOCTL_SVM_ATTR_PREFERRED_LOC:
715                         prange->preferred_loc = attrs[i].value;
716                         break;
717                 case KFD_IOCTL_SVM_ATTR_PREFETCH_LOC:
718                         prange->prefetch_loc = attrs[i].value;
719                         break;
720                 case KFD_IOCTL_SVM_ATTR_ACCESS:
721                 case KFD_IOCTL_SVM_ATTR_ACCESS_IN_PLACE:
722                 case KFD_IOCTL_SVM_ATTR_NO_ACCESS:
723                         if (!p->xnack_enabled)
724                                 *update_mapping = true;
725
726                         gpuidx = kfd_process_gpuidx_from_gpuid(p,
727                                                                attrs[i].value);
728                         if (attrs[i].type == KFD_IOCTL_SVM_ATTR_NO_ACCESS) {
729                                 bitmap_clear(prange->bitmap_access, gpuidx, 1);
730                                 bitmap_clear(prange->bitmap_aip, gpuidx, 1);
731                         } else if (attrs[i].type == KFD_IOCTL_SVM_ATTR_ACCESS) {
732                                 bitmap_set(prange->bitmap_access, gpuidx, 1);
733                                 bitmap_clear(prange->bitmap_aip, gpuidx, 1);
734                         } else {
735                                 bitmap_clear(prange->bitmap_access, gpuidx, 1);
736                                 bitmap_set(prange->bitmap_aip, gpuidx, 1);
737                         }
738                         break;
739                 case KFD_IOCTL_SVM_ATTR_SET_FLAGS:
740                         *update_mapping = true;
741                         prange->flags |= attrs[i].value;
742                         break;
743                 case KFD_IOCTL_SVM_ATTR_CLR_FLAGS:
744                         *update_mapping = true;
745                         prange->flags &= ~attrs[i].value;
746                         break;
747                 case KFD_IOCTL_SVM_ATTR_GRANULARITY:
748                         prange->granularity = attrs[i].value;
749                         break;
750                 default:
751                         WARN_ONCE(1, "svm_range_check_attrs wasn't called?");
752                 }
753         }
754 }
755
756 static bool
757 svm_range_is_same_attrs(struct kfd_process *p, struct svm_range *prange,
758                         uint32_t nattr, struct kfd_ioctl_svm_attribute *attrs)
759 {
760         uint32_t i;
761         int gpuidx;
762
763         for (i = 0; i < nattr; i++) {
764                 switch (attrs[i].type) {
765                 case KFD_IOCTL_SVM_ATTR_PREFERRED_LOC:
766                         if (prange->preferred_loc != attrs[i].value)
767                                 return false;
768                         break;
769                 case KFD_IOCTL_SVM_ATTR_PREFETCH_LOC:
770                         /* Prefetch should always trigger a migration even
771                          * if the value of the attribute didn't change.
772                          */
773                         return false;
774                 case KFD_IOCTL_SVM_ATTR_ACCESS:
775                 case KFD_IOCTL_SVM_ATTR_ACCESS_IN_PLACE:
776                 case KFD_IOCTL_SVM_ATTR_NO_ACCESS:
777                         gpuidx = kfd_process_gpuidx_from_gpuid(p,
778                                                                attrs[i].value);
779                         if (attrs[i].type == KFD_IOCTL_SVM_ATTR_NO_ACCESS) {
780                                 if (test_bit(gpuidx, prange->bitmap_access) ||
781                                     test_bit(gpuidx, prange->bitmap_aip))
782                                         return false;
783                         } else if (attrs[i].type == KFD_IOCTL_SVM_ATTR_ACCESS) {
784                                 if (!test_bit(gpuidx, prange->bitmap_access))
785                                         return false;
786                         } else {
787                                 if (!test_bit(gpuidx, prange->bitmap_aip))
788                                         return false;
789                         }
790                         break;
791                 case KFD_IOCTL_SVM_ATTR_SET_FLAGS:
792                         if ((prange->flags & attrs[i].value) != attrs[i].value)
793                                 return false;
794                         break;
795                 case KFD_IOCTL_SVM_ATTR_CLR_FLAGS:
796                         if ((prange->flags & attrs[i].value) != 0)
797                                 return false;
798                         break;
799                 case KFD_IOCTL_SVM_ATTR_GRANULARITY:
800                         if (prange->granularity != attrs[i].value)
801                                 return false;
802                         break;
803                 default:
804                         WARN_ONCE(1, "svm_range_check_attrs wasn't called?");
805                 }
806         }
807
808         return true;
809 }
810
811 /**
812  * svm_range_debug_dump - print all range information from svms
813  * @svms: svm range list header
814  *
815  * debug output svm range start, end, prefetch location from svms
816  * interval tree and link list
817  *
818  * Context: The caller must hold svms->lock
819  */
820 static void svm_range_debug_dump(struct svm_range_list *svms)
821 {
822         struct interval_tree_node *node;
823         struct svm_range *prange;
824
825         pr_debug("dump svms 0x%p list\n", svms);
826         pr_debug("range\tstart\tpage\tend\t\tlocation\n");
827
828         list_for_each_entry(prange, &svms->list, list) {
829                 pr_debug("0x%p 0x%lx\t0x%llx\t0x%llx\t0x%x\n",
830                          prange, prange->start, prange->npages,
831                          prange->start + prange->npages - 1,
832                          prange->actual_loc);
833         }
834
835         pr_debug("dump svms 0x%p interval tree\n", svms);
836         pr_debug("range\tstart\tpage\tend\t\tlocation\n");
837         node = interval_tree_iter_first(&svms->objects, 0, ~0ULL);
838         while (node) {
839                 prange = container_of(node, struct svm_range, it_node);
840                 pr_debug("0x%p 0x%lx\t0x%llx\t0x%llx\t0x%x\n",
841                          prange, prange->start, prange->npages,
842                          prange->start + prange->npages - 1,
843                          prange->actual_loc);
844                 node = interval_tree_iter_next(node, 0, ~0ULL);
845         }
846 }
847
848 static int
849 svm_range_split_array(void *ppnew, void *ppold, size_t size,
850                       uint64_t old_start, uint64_t old_n,
851                       uint64_t new_start, uint64_t new_n)
852 {
853         unsigned char *new, *old, *pold;
854         uint64_t d;
855
856         if (!ppold)
857                 return 0;
858         pold = *(unsigned char **)ppold;
859         if (!pold)
860                 return 0;
861
862         new = kvmalloc_array(new_n, size, GFP_KERNEL);
863         if (!new)
864                 return -ENOMEM;
865
866         d = (new_start - old_start) * size;
867         memcpy(new, pold + d, new_n * size);
868
869         old = kvmalloc_array(old_n, size, GFP_KERNEL);
870         if (!old) {
871                 kvfree(new);
872                 return -ENOMEM;
873         }
874
875         d = (new_start == old_start) ? new_n * size : 0;
876         memcpy(old, pold + d, old_n * size);
877
878         kvfree(pold);
879         *(void **)ppold = old;
880         *(void **)ppnew = new;
881
882         return 0;
883 }
884
885 static int
886 svm_range_split_pages(struct svm_range *new, struct svm_range *old,
887                       uint64_t start, uint64_t last)
888 {
889         uint64_t npages = last - start + 1;
890         int i, r;
891
892         for (i = 0; i < MAX_GPU_INSTANCE; i++) {
893                 r = svm_range_split_array(&new->dma_addr[i], &old->dma_addr[i],
894                                           sizeof(*old->dma_addr[i]), old->start,
895                                           npages, new->start, new->npages);
896                 if (r)
897                         return r;
898         }
899
900         return 0;
901 }
902
903 static int
904 svm_range_split_nodes(struct svm_range *new, struct svm_range *old,
905                       uint64_t start, uint64_t last)
906 {
907         uint64_t npages = last - start + 1;
908
909         pr_debug("svms 0x%p new prange 0x%p start 0x%lx [0x%llx 0x%llx]\n",
910                  new->svms, new, new->start, start, last);
911
912         if (new->start == old->start) {
913                 new->offset = old->offset;
914                 old->offset += new->npages;
915         } else {
916                 new->offset = old->offset + npages;
917         }
918
919         new->svm_bo = svm_range_bo_ref(old->svm_bo);
920         new->ttm_res = old->ttm_res;
921
922         spin_lock(&new->svm_bo->list_lock);
923         list_add(&new->svm_bo_list, &new->svm_bo->range_list);
924         spin_unlock(&new->svm_bo->list_lock);
925
926         return 0;
927 }
928
929 /**
930  * svm_range_split_adjust - split range and adjust
931  *
932  * @new: new range
933  * @old: the old range
934  * @start: the old range adjust to start address in pages
935  * @last: the old range adjust to last address in pages
936  *
937  * Copy system memory dma_addr or vram ttm_res in old range to new
938  * range from new_start up to size new->npages, the remaining old range is from
939  * start to last
940  *
941  * Return:
942  * 0 - OK, -ENOMEM - out of memory
943  */
944 static int
945 svm_range_split_adjust(struct svm_range *new, struct svm_range *old,
946                       uint64_t start, uint64_t last)
947 {
948         int r;
949
950         pr_debug("svms 0x%p new 0x%lx old [0x%lx 0x%lx] => [0x%llx 0x%llx]\n",
951                  new->svms, new->start, old->start, old->last, start, last);
952
953         if (new->start < old->start ||
954             new->last > old->last) {
955                 WARN_ONCE(1, "invalid new range start or last\n");
956                 return -EINVAL;
957         }
958
959         r = svm_range_split_pages(new, old, start, last);
960         if (r)
961                 return r;
962
963         if (old->actual_loc && old->ttm_res) {
964                 r = svm_range_split_nodes(new, old, start, last);
965                 if (r)
966                         return r;
967         }
968
969         old->npages = last - start + 1;
970         old->start = start;
971         old->last = last;
972         new->flags = old->flags;
973         new->preferred_loc = old->preferred_loc;
974         new->prefetch_loc = old->prefetch_loc;
975         new->actual_loc = old->actual_loc;
976         new->granularity = old->granularity;
977         new->mapped_to_gpu = old->mapped_to_gpu;
978         bitmap_copy(new->bitmap_access, old->bitmap_access, MAX_GPU_INSTANCE);
979         bitmap_copy(new->bitmap_aip, old->bitmap_aip, MAX_GPU_INSTANCE);
980
981         return 0;
982 }
983
984 /**
985  * svm_range_split - split a range in 2 ranges
986  *
987  * @prange: the svm range to split
988  * @start: the remaining range start address in pages
989  * @last: the remaining range last address in pages
990  * @new: the result new range generated
991  *
992  * Two cases only:
993  * case 1: if start == prange->start
994  *         prange ==> prange[start, last]
995  *         new range [last + 1, prange->last]
996  *
997  * case 2: if last == prange->last
998  *         prange ==> prange[start, last]
999  *         new range [prange->start, start - 1]
1000  *
1001  * Return:
1002  * 0 - OK, -ENOMEM - out of memory, -EINVAL - invalid start, last
1003  */
1004 static int
1005 svm_range_split(struct svm_range *prange, uint64_t start, uint64_t last,
1006                 struct svm_range **new)
1007 {
1008         uint64_t old_start = prange->start;
1009         uint64_t old_last = prange->last;
1010         struct svm_range_list *svms;
1011         int r = 0;
1012
1013         pr_debug("svms 0x%p [0x%llx 0x%llx] to [0x%llx 0x%llx]\n", prange->svms,
1014                  old_start, old_last, start, last);
1015
1016         if (old_start != start && old_last != last)
1017                 return -EINVAL;
1018         if (start < old_start || last > old_last)
1019                 return -EINVAL;
1020
1021         svms = prange->svms;
1022         if (old_start == start)
1023                 *new = svm_range_new(svms, last + 1, old_last, false);
1024         else
1025                 *new = svm_range_new(svms, old_start, start - 1, false);
1026         if (!*new)
1027                 return -ENOMEM;
1028
1029         r = svm_range_split_adjust(*new, prange, start, last);
1030         if (r) {
1031                 pr_debug("failed %d split [0x%llx 0x%llx] to [0x%llx 0x%llx]\n",
1032                          r, old_start, old_last, start, last);
1033                 svm_range_free(*new, false);
1034                 *new = NULL;
1035         }
1036
1037         return r;
1038 }
1039
1040 static int
1041 svm_range_split_tail(struct svm_range *prange,
1042                      uint64_t new_last, struct list_head *insert_list)
1043 {
1044         struct svm_range *tail;
1045         int r = svm_range_split(prange, prange->start, new_last, &tail);
1046
1047         if (!r)
1048                 list_add(&tail->list, insert_list);
1049         return r;
1050 }
1051
1052 static int
1053 svm_range_split_head(struct svm_range *prange,
1054                      uint64_t new_start, struct list_head *insert_list)
1055 {
1056         struct svm_range *head;
1057         int r = svm_range_split(prange, new_start, prange->last, &head);
1058
1059         if (!r)
1060                 list_add(&head->list, insert_list);
1061         return r;
1062 }
1063
1064 static void
1065 svm_range_add_child(struct svm_range *prange, struct mm_struct *mm,
1066                     struct svm_range *pchild, enum svm_work_list_ops op)
1067 {
1068         pr_debug("add child 0x%p [0x%lx 0x%lx] to prange 0x%p child list %d\n",
1069                  pchild, pchild->start, pchild->last, prange, op);
1070
1071         pchild->work_item.mm = mm;
1072         pchild->work_item.op = op;
1073         list_add_tail(&pchild->child_list, &prange->child_list);
1074 }
1075
1076 /**
1077  * svm_range_split_by_granularity - collect ranges within granularity boundary
1078  *
1079  * @p: the process with svms list
1080  * @mm: mm structure
1081  * @addr: the vm fault address in pages, to split the prange
1082  * @parent: parent range if prange is from child list
1083  * @prange: prange to split
1084  *
1085  * Trims @prange to be a single aligned block of prange->granularity if
1086  * possible. The head and tail are added to the child_list in @parent.
1087  *
1088  * Context: caller must hold mmap_read_lock and prange->lock
1089  *
1090  * Return:
1091  * 0 - OK, otherwise error code
1092  */
1093 int
1094 svm_range_split_by_granularity(struct kfd_process *p, struct mm_struct *mm,
1095                                unsigned long addr, struct svm_range *parent,
1096                                struct svm_range *prange)
1097 {
1098         struct svm_range *head, *tail;
1099         unsigned long start, last, size;
1100         int r;
1101
1102         /* Align splited range start and size to granularity size, then a single
1103          * PTE will be used for whole range, this reduces the number of PTE
1104          * updated and the L1 TLB space used for translation.
1105          */
1106         size = 1UL << prange->granularity;
1107         start = ALIGN_DOWN(addr, size);
1108         last = ALIGN(addr + 1, size) - 1;
1109
1110         pr_debug("svms 0x%p split [0x%lx 0x%lx] to [0x%lx 0x%lx] size 0x%lx\n",
1111                  prange->svms, prange->start, prange->last, start, last, size);
1112
1113         if (start > prange->start) {
1114                 r = svm_range_split(prange, start, prange->last, &head);
1115                 if (r)
1116                         return r;
1117                 svm_range_add_child(parent, mm, head, SVM_OP_ADD_RANGE);
1118         }
1119
1120         if (last < prange->last) {
1121                 r = svm_range_split(prange, prange->start, last, &tail);
1122                 if (r)
1123                         return r;
1124                 svm_range_add_child(parent, mm, tail, SVM_OP_ADD_RANGE);
1125         }
1126
1127         /* xnack on, update mapping on GPUs with ACCESS_IN_PLACE */
1128         if (p->xnack_enabled && prange->work_item.op == SVM_OP_ADD_RANGE) {
1129                 prange->work_item.op = SVM_OP_ADD_RANGE_AND_MAP;
1130                 pr_debug("change prange 0x%p [0x%lx 0x%lx] op %d\n",
1131                          prange, prange->start, prange->last,
1132                          SVM_OP_ADD_RANGE_AND_MAP);
1133         }
1134         return 0;
1135 }
1136 static bool
1137 svm_nodes_in_same_hive(struct kfd_node *node_a, struct kfd_node *node_b)
1138 {
1139         return (node_a->adev == node_b->adev ||
1140                 amdgpu_xgmi_same_hive(node_a->adev, node_b->adev));
1141 }
1142
1143 static uint64_t
1144 svm_range_get_pte_flags(struct kfd_node *node,
1145                         struct svm_range *prange, int domain)
1146 {
1147         struct kfd_node *bo_node;
1148         uint32_t flags = prange->flags;
1149         uint32_t mapping_flags = 0;
1150         uint64_t pte_flags;
1151         bool snoop = (domain != SVM_RANGE_VRAM_DOMAIN);
1152         bool coherent = flags & KFD_IOCTL_SVM_FLAG_COHERENT;
1153         bool uncached = flags & KFD_IOCTL_SVM_FLAG_UNCACHED;
1154         unsigned int mtype_local;
1155
1156         if (domain == SVM_RANGE_VRAM_DOMAIN)
1157                 bo_node = prange->svm_bo->node;
1158
1159         switch (node->adev->ip_versions[GC_HWIP][0]) {
1160         case IP_VERSION(9, 4, 1):
1161                 if (domain == SVM_RANGE_VRAM_DOMAIN) {
1162                         if (bo_node == node) {
1163                                 mapping_flags |= coherent ?
1164                                         AMDGPU_VM_MTYPE_CC : AMDGPU_VM_MTYPE_RW;
1165                         } else {
1166                                 mapping_flags |= coherent ?
1167                                         AMDGPU_VM_MTYPE_UC : AMDGPU_VM_MTYPE_NC;
1168                                 if (svm_nodes_in_same_hive(node, bo_node))
1169                                         snoop = true;
1170                         }
1171                 } else {
1172                         mapping_flags |= coherent ?
1173                                 AMDGPU_VM_MTYPE_UC : AMDGPU_VM_MTYPE_NC;
1174                 }
1175                 break;
1176         case IP_VERSION(9, 4, 2):
1177                 if (domain == SVM_RANGE_VRAM_DOMAIN) {
1178                         if (bo_node == node) {
1179                                 mapping_flags |= coherent ?
1180                                         AMDGPU_VM_MTYPE_CC : AMDGPU_VM_MTYPE_RW;
1181                                 if (node->adev->gmc.xgmi.connected_to_cpu)
1182                                         snoop = true;
1183                         } else {
1184                                 mapping_flags |= coherent ?
1185                                         AMDGPU_VM_MTYPE_UC : AMDGPU_VM_MTYPE_NC;
1186                                 if (svm_nodes_in_same_hive(node, bo_node))
1187                                         snoop = true;
1188                         }
1189                 } else {
1190                         mapping_flags |= coherent ?
1191                                 AMDGPU_VM_MTYPE_UC : AMDGPU_VM_MTYPE_NC;
1192                 }
1193                 break;
1194         case IP_VERSION(9, 4, 3):
1195                 mtype_local = amdgpu_mtype_local == 1 ? AMDGPU_VM_MTYPE_NC : (amdgpu_mtype_local == 2 ? AMDGPU_VM_MTYPE_RW : AMDGPU_VM_MTYPE_CC);
1196                 snoop = true;
1197                 if (uncached) {
1198                         mapping_flags |= AMDGPU_VM_MTYPE_UC;
1199                 } else if (domain == SVM_RANGE_VRAM_DOMAIN) {
1200                         /* local HBM region close to partition */
1201                         if (bo_node->adev == node->adev /* TODO: memory partitions &&
1202                             bo_node->mem_id == node->mem_id*/)
1203                                 mapping_flags |= mtype_local;
1204                         /* local HBM region far from partition or remote XGMI GPU */
1205                         else if (svm_nodes_in_same_hive(bo_node, node))
1206                                 mapping_flags |= AMDGPU_VM_MTYPE_NC;
1207                         /* PCIe P2P */
1208                         else
1209                                 mapping_flags |= AMDGPU_VM_MTYPE_UC;
1210                 /* system memory accessed by the APU */
1211                 } else if (node->adev->flags & AMD_IS_APU) {
1212                         /* On NUMA systems, locality is determined per-page
1213                          * in amdgpu_gmc_override_vm_pte_flags
1214                          */
1215                         if (num_possible_nodes() <= 1)
1216                                 mapping_flags |= mtype_local;
1217                         else
1218                                 mapping_flags |= AMDGPU_VM_MTYPE_NC;
1219                 /* system memory accessed by the dGPU */
1220                 } else {
1221                         mapping_flags |= AMDGPU_VM_MTYPE_UC;
1222                 }
1223                 break;
1224         default:
1225                 mapping_flags |= coherent ?
1226                         AMDGPU_VM_MTYPE_UC : AMDGPU_VM_MTYPE_NC;
1227         }
1228
1229         mapping_flags |= AMDGPU_VM_PAGE_READABLE | AMDGPU_VM_PAGE_WRITEABLE;
1230
1231         if (flags & KFD_IOCTL_SVM_FLAG_GPU_RO)
1232                 mapping_flags &= ~AMDGPU_VM_PAGE_WRITEABLE;
1233         if (flags & KFD_IOCTL_SVM_FLAG_GPU_EXEC)
1234                 mapping_flags |= AMDGPU_VM_PAGE_EXECUTABLE;
1235
1236         pte_flags = AMDGPU_PTE_VALID;
1237         pte_flags |= (domain == SVM_RANGE_VRAM_DOMAIN) ? 0 : AMDGPU_PTE_SYSTEM;
1238         pte_flags |= snoop ? AMDGPU_PTE_SNOOPED : 0;
1239
1240         pte_flags |= amdgpu_gem_va_map_flags(node->adev, mapping_flags);
1241         return pte_flags;
1242 }
1243
1244 static int
1245 svm_range_unmap_from_gpu(struct amdgpu_device *adev, struct amdgpu_vm *vm,
1246                          uint64_t start, uint64_t last,
1247                          struct dma_fence **fence)
1248 {
1249         uint64_t init_pte_value = 0;
1250
1251         pr_debug("[0x%llx 0x%llx]\n", start, last);
1252
1253         return amdgpu_vm_update_range(adev, vm, false, true, true, NULL, start,
1254                                       last, init_pte_value, 0, 0, NULL, NULL,
1255                                       fence);
1256 }
1257
1258 static int
1259 svm_range_unmap_from_gpus(struct svm_range *prange, unsigned long start,
1260                           unsigned long last, uint32_t trigger)
1261 {
1262         DECLARE_BITMAP(bitmap, MAX_GPU_INSTANCE);
1263         struct kfd_process_device *pdd;
1264         struct dma_fence *fence = NULL;
1265         struct kfd_process *p;
1266         uint32_t gpuidx;
1267         int r = 0;
1268
1269         if (!prange->mapped_to_gpu) {
1270                 pr_debug("prange 0x%p [0x%lx 0x%lx] not mapped to GPU\n",
1271                          prange, prange->start, prange->last);
1272                 return 0;
1273         }
1274
1275         if (prange->start == start && prange->last == last) {
1276                 pr_debug("unmap svms 0x%p prange 0x%p\n", prange->svms, prange);
1277                 prange->mapped_to_gpu = false;
1278         }
1279
1280         bitmap_or(bitmap, prange->bitmap_access, prange->bitmap_aip,
1281                   MAX_GPU_INSTANCE);
1282         p = container_of(prange->svms, struct kfd_process, svms);
1283
1284         for_each_set_bit(gpuidx, bitmap, MAX_GPU_INSTANCE) {
1285                 pr_debug("unmap from gpu idx 0x%x\n", gpuidx);
1286                 pdd = kfd_process_device_from_gpuidx(p, gpuidx);
1287                 if (!pdd) {
1288                         pr_debug("failed to find device idx %d\n", gpuidx);
1289                         return -EINVAL;
1290                 }
1291
1292                 kfd_smi_event_unmap_from_gpu(pdd->dev, p->lead_thread->pid,
1293                                              start, last, trigger);
1294
1295                 r = svm_range_unmap_from_gpu(pdd->dev->adev,
1296                                              drm_priv_to_vm(pdd->drm_priv),
1297                                              start, last, &fence);
1298                 if (r)
1299                         break;
1300
1301                 if (fence) {
1302                         r = dma_fence_wait(fence, false);
1303                         dma_fence_put(fence);
1304                         fence = NULL;
1305                         if (r)
1306                                 break;
1307                 }
1308                 kfd_flush_tlb(pdd, TLB_FLUSH_HEAVYWEIGHT);
1309         }
1310
1311         return r;
1312 }
1313
1314 static int
1315 svm_range_map_to_gpu(struct kfd_process_device *pdd, struct svm_range *prange,
1316                      unsigned long offset, unsigned long npages, bool readonly,
1317                      dma_addr_t *dma_addr, struct amdgpu_device *bo_adev,
1318                      struct dma_fence **fence, bool flush_tlb)
1319 {
1320         struct amdgpu_device *adev = pdd->dev->adev;
1321         struct amdgpu_vm *vm = drm_priv_to_vm(pdd->drm_priv);
1322         uint64_t pte_flags;
1323         unsigned long last_start;
1324         int last_domain;
1325         int r = 0;
1326         int64_t i, j;
1327
1328         last_start = prange->start + offset;
1329
1330         pr_debug("svms 0x%p [0x%lx 0x%lx] readonly %d\n", prange->svms,
1331                  last_start, last_start + npages - 1, readonly);
1332
1333         for (i = offset; i < offset + npages; i++) {
1334                 last_domain = dma_addr[i] & SVM_RANGE_VRAM_DOMAIN;
1335                 dma_addr[i] &= ~SVM_RANGE_VRAM_DOMAIN;
1336
1337                 /* Collect all pages in the same address range and memory domain
1338                  * that can be mapped with a single call to update mapping.
1339                  */
1340                 if (i < offset + npages - 1 &&
1341                     last_domain == (dma_addr[i + 1] & SVM_RANGE_VRAM_DOMAIN))
1342                         continue;
1343
1344                 pr_debug("Mapping range [0x%lx 0x%llx] on domain: %s\n",
1345                          last_start, prange->start + i, last_domain ? "GPU" : "CPU");
1346
1347                 pte_flags = svm_range_get_pte_flags(pdd->dev, prange, last_domain);
1348                 if (readonly)
1349                         pte_flags &= ~AMDGPU_PTE_WRITEABLE;
1350
1351                 pr_debug("svms 0x%p map [0x%lx 0x%llx] vram %d PTE 0x%llx\n",
1352                          prange->svms, last_start, prange->start + i,
1353                          (last_domain == SVM_RANGE_VRAM_DOMAIN) ? 1 : 0,
1354                          pte_flags);
1355
1356                 /* TODO: we still need to determine the vm_manager.vram_base_offset based on
1357                  * the memory partition.
1358                  */
1359                 r = amdgpu_vm_update_range(adev, vm, false, false, flush_tlb, NULL,
1360                                            last_start, prange->start + i,
1361                                            pte_flags,
1362                                            (last_start - prange->start) << PAGE_SHIFT,
1363                                            bo_adev ? bo_adev->vm_manager.vram_base_offset : 0,
1364                                            NULL, dma_addr, &vm->last_update);
1365
1366                 for (j = last_start - prange->start; j <= i; j++)
1367                         dma_addr[j] |= last_domain;
1368
1369                 if (r) {
1370                         pr_debug("failed %d to map to gpu 0x%lx\n", r, prange->start);
1371                         goto out;
1372                 }
1373                 last_start = prange->start + i + 1;
1374         }
1375
1376         r = amdgpu_vm_update_pdes(adev, vm, false);
1377         if (r) {
1378                 pr_debug("failed %d to update directories 0x%lx\n", r,
1379                          prange->start);
1380                 goto out;
1381         }
1382
1383         if (fence)
1384                 *fence = dma_fence_get(vm->last_update);
1385
1386 out:
1387         return r;
1388 }
1389
1390 static int
1391 svm_range_map_to_gpus(struct svm_range *prange, unsigned long offset,
1392                       unsigned long npages, bool readonly,
1393                       unsigned long *bitmap, bool wait, bool flush_tlb)
1394 {
1395         struct kfd_process_device *pdd;
1396         struct amdgpu_device *bo_adev = NULL;
1397         struct kfd_process *p;
1398         struct dma_fence *fence = NULL;
1399         uint32_t gpuidx;
1400         int r = 0;
1401
1402         if (prange->svm_bo && prange->ttm_res)
1403                 bo_adev = prange->svm_bo->node->adev;
1404
1405         p = container_of(prange->svms, struct kfd_process, svms);
1406         for_each_set_bit(gpuidx, bitmap, MAX_GPU_INSTANCE) {
1407                 pr_debug("mapping to gpu idx 0x%x\n", gpuidx);
1408                 pdd = kfd_process_device_from_gpuidx(p, gpuidx);
1409                 if (!pdd) {
1410                         pr_debug("failed to find device idx %d\n", gpuidx);
1411                         return -EINVAL;
1412                 }
1413
1414                 pdd = kfd_bind_process_to_device(pdd->dev, p);
1415                 if (IS_ERR(pdd))
1416                         return -EINVAL;
1417
1418                 if (bo_adev && pdd->dev->adev != bo_adev &&
1419                     !amdgpu_xgmi_same_hive(pdd->dev->adev, bo_adev)) {
1420                         pr_debug("cannot map to device idx %d\n", gpuidx);
1421                         continue;
1422                 }
1423
1424                 r = svm_range_map_to_gpu(pdd, prange, offset, npages, readonly,
1425                                          prange->dma_addr[gpuidx],
1426                                          bo_adev, wait ? &fence : NULL,
1427                                          flush_tlb);
1428                 if (r)
1429                         break;
1430
1431                 if (fence) {
1432                         r = dma_fence_wait(fence, false);
1433                         dma_fence_put(fence);
1434                         fence = NULL;
1435                         if (r) {
1436                                 pr_debug("failed %d to dma fence wait\n", r);
1437                                 break;
1438                         }
1439                 }
1440
1441                 kfd_flush_tlb(pdd, TLB_FLUSH_LEGACY);
1442         }
1443
1444         return r;
1445 }
1446
1447 struct svm_validate_context {
1448         struct kfd_process *process;
1449         struct svm_range *prange;
1450         bool intr;
1451         DECLARE_BITMAP(bitmap, MAX_GPU_INSTANCE);
1452         struct ttm_validate_buffer tv[MAX_GPU_INSTANCE];
1453         struct list_head validate_list;
1454         struct ww_acquire_ctx ticket;
1455 };
1456
1457 static int svm_range_reserve_bos(struct svm_validate_context *ctx)
1458 {
1459         struct kfd_process_device *pdd;
1460         struct amdgpu_vm *vm;
1461         uint32_t gpuidx;
1462         int r;
1463
1464         INIT_LIST_HEAD(&ctx->validate_list);
1465         for_each_set_bit(gpuidx, ctx->bitmap, MAX_GPU_INSTANCE) {
1466                 pdd = kfd_process_device_from_gpuidx(ctx->process, gpuidx);
1467                 if (!pdd) {
1468                         pr_debug("failed to find device idx %d\n", gpuidx);
1469                         return -EINVAL;
1470                 }
1471                 vm = drm_priv_to_vm(pdd->drm_priv);
1472
1473                 ctx->tv[gpuidx].bo = &vm->root.bo->tbo;
1474                 ctx->tv[gpuidx].num_shared = 4;
1475                 list_add(&ctx->tv[gpuidx].head, &ctx->validate_list);
1476         }
1477
1478         r = ttm_eu_reserve_buffers(&ctx->ticket, &ctx->validate_list,
1479                                    ctx->intr, NULL);
1480         if (r) {
1481                 pr_debug("failed %d to reserve bo\n", r);
1482                 return r;
1483         }
1484
1485         for_each_set_bit(gpuidx, ctx->bitmap, MAX_GPU_INSTANCE) {
1486                 pdd = kfd_process_device_from_gpuidx(ctx->process, gpuidx);
1487                 if (!pdd) {
1488                         pr_debug("failed to find device idx %d\n", gpuidx);
1489                         r = -EINVAL;
1490                         goto unreserve_out;
1491                 }
1492
1493                 r = amdgpu_vm_validate_pt_bos(pdd->dev->adev,
1494                                               drm_priv_to_vm(pdd->drm_priv),
1495                                               svm_range_bo_validate, NULL);
1496                 if (r) {
1497                         pr_debug("failed %d validate pt bos\n", r);
1498                         goto unreserve_out;
1499                 }
1500         }
1501
1502         return 0;
1503
1504 unreserve_out:
1505         ttm_eu_backoff_reservation(&ctx->ticket, &ctx->validate_list);
1506         return r;
1507 }
1508
1509 static void svm_range_unreserve_bos(struct svm_validate_context *ctx)
1510 {
1511         ttm_eu_backoff_reservation(&ctx->ticket, &ctx->validate_list);
1512 }
1513
1514 static void *kfd_svm_page_owner(struct kfd_process *p, int32_t gpuidx)
1515 {
1516         struct kfd_process_device *pdd;
1517
1518         pdd = kfd_process_device_from_gpuidx(p, gpuidx);
1519
1520         return SVM_ADEV_PGMAP_OWNER(pdd->dev->adev);
1521 }
1522
1523 /*
1524  * Validation+GPU mapping with concurrent invalidation (MMU notifiers)
1525  *
1526  * To prevent concurrent destruction or change of range attributes, the
1527  * svm_read_lock must be held. The caller must not hold the svm_write_lock
1528  * because that would block concurrent evictions and lead to deadlocks. To
1529  * serialize concurrent migrations or validations of the same range, the
1530  * prange->migrate_mutex must be held.
1531  *
1532  * For VRAM ranges, the SVM BO must be allocated and valid (protected by its
1533  * eviction fence.
1534  *
1535  * The following sequence ensures race-free validation and GPU mapping:
1536  *
1537  * 1. Reserve page table (and SVM BO if range is in VRAM)
1538  * 2. hmm_range_fault to get page addresses (if system memory)
1539  * 3. DMA-map pages (if system memory)
1540  * 4-a. Take notifier lock
1541  * 4-b. Check that pages still valid (mmu_interval_read_retry)
1542  * 4-c. Check that the range was not split or otherwise invalidated
1543  * 4-d. Update GPU page table
1544  * 4.e. Release notifier lock
1545  * 5. Release page table (and SVM BO) reservation
1546  */
1547 static int svm_range_validate_and_map(struct mm_struct *mm,
1548                                       struct svm_range *prange, int32_t gpuidx,
1549                                       bool intr, bool wait, bool flush_tlb)
1550 {
1551         struct svm_validate_context ctx;
1552         unsigned long start, end, addr;
1553         struct kfd_process *p;
1554         void *owner;
1555         int32_t idx;
1556         int r = 0;
1557
1558         ctx.process = container_of(prange->svms, struct kfd_process, svms);
1559         ctx.prange = prange;
1560         ctx.intr = intr;
1561
1562         if (gpuidx < MAX_GPU_INSTANCE) {
1563                 bitmap_zero(ctx.bitmap, MAX_GPU_INSTANCE);
1564                 bitmap_set(ctx.bitmap, gpuidx, 1);
1565         } else if (ctx.process->xnack_enabled) {
1566                 bitmap_copy(ctx.bitmap, prange->bitmap_aip, MAX_GPU_INSTANCE);
1567
1568                 /* If prefetch range to GPU, or GPU retry fault migrate range to
1569                  * GPU, which has ACCESS attribute to the range, create mapping
1570                  * on that GPU.
1571                  */
1572                 if (prange->actual_loc) {
1573                         gpuidx = kfd_process_gpuidx_from_gpuid(ctx.process,
1574                                                         prange->actual_loc);
1575                         if (gpuidx < 0) {
1576                                 WARN_ONCE(1, "failed get device by id 0x%x\n",
1577                                          prange->actual_loc);
1578                                 return -EINVAL;
1579                         }
1580                         if (test_bit(gpuidx, prange->bitmap_access))
1581                                 bitmap_set(ctx.bitmap, gpuidx, 1);
1582                 }
1583         } else {
1584                 bitmap_or(ctx.bitmap, prange->bitmap_access,
1585                           prange->bitmap_aip, MAX_GPU_INSTANCE);
1586         }
1587
1588         if (bitmap_empty(ctx.bitmap, MAX_GPU_INSTANCE)) {
1589                 if (!prange->mapped_to_gpu)
1590                         return 0;
1591
1592                 bitmap_copy(ctx.bitmap, prange->bitmap_access, MAX_GPU_INSTANCE);
1593         }
1594
1595         if (prange->actual_loc && !prange->ttm_res) {
1596                 /* This should never happen. actual_loc gets set by
1597                  * svm_migrate_ram_to_vram after allocating a BO.
1598                  */
1599                 WARN_ONCE(1, "VRAM BO missing during validation\n");
1600                 return -EINVAL;
1601         }
1602
1603         svm_range_reserve_bos(&ctx);
1604
1605         p = container_of(prange->svms, struct kfd_process, svms);
1606         owner = kfd_svm_page_owner(p, find_first_bit(ctx.bitmap,
1607                                                 MAX_GPU_INSTANCE));
1608         for_each_set_bit(idx, ctx.bitmap, MAX_GPU_INSTANCE) {
1609                 if (kfd_svm_page_owner(p, idx) != owner) {
1610                         owner = NULL;
1611                         break;
1612                 }
1613         }
1614
1615         start = prange->start << PAGE_SHIFT;
1616         end = (prange->last + 1) << PAGE_SHIFT;
1617         for (addr = start; addr < end && !r; ) {
1618                 struct hmm_range *hmm_range;
1619                 struct vm_area_struct *vma;
1620                 unsigned long next;
1621                 unsigned long offset;
1622                 unsigned long npages;
1623                 bool readonly;
1624
1625                 vma = vma_lookup(mm, addr);
1626                 if (!vma) {
1627                         r = -EFAULT;
1628                         goto unreserve_out;
1629                 }
1630                 readonly = !(vma->vm_flags & VM_WRITE);
1631
1632                 next = min(vma->vm_end, end);
1633                 npages = (next - addr) >> PAGE_SHIFT;
1634                 WRITE_ONCE(p->svms.faulting_task, current);
1635                 r = amdgpu_hmm_range_get_pages(&prange->notifier, addr, npages,
1636                                                readonly, owner, NULL,
1637                                                &hmm_range);
1638                 WRITE_ONCE(p->svms.faulting_task, NULL);
1639                 if (r) {
1640                         pr_debug("failed %d to get svm range pages\n", r);
1641                         goto unreserve_out;
1642                 }
1643
1644                 offset = (addr - start) >> PAGE_SHIFT;
1645                 r = svm_range_dma_map(prange, ctx.bitmap, offset, npages,
1646                                       hmm_range->hmm_pfns);
1647                 if (r) {
1648                         pr_debug("failed %d to dma map range\n", r);
1649                         goto unreserve_out;
1650                 }
1651
1652                 svm_range_lock(prange);
1653                 if (amdgpu_hmm_range_get_pages_done(hmm_range)) {
1654                         pr_debug("hmm update the range, need validate again\n");
1655                         r = -EAGAIN;
1656                         goto unlock_out;
1657                 }
1658                 if (!list_empty(&prange->child_list)) {
1659                         pr_debug("range split by unmap in parallel, validate again\n");
1660                         r = -EAGAIN;
1661                         goto unlock_out;
1662                 }
1663
1664                 r = svm_range_map_to_gpus(prange, offset, npages, readonly,
1665                                           ctx.bitmap, wait, flush_tlb);
1666
1667 unlock_out:
1668                 svm_range_unlock(prange);
1669
1670                 addr = next;
1671         }
1672
1673         if (addr == end) {
1674                 prange->validated_once = true;
1675                 prange->mapped_to_gpu = true;
1676         }
1677
1678 unreserve_out:
1679         svm_range_unreserve_bos(&ctx);
1680
1681         if (!r)
1682                 prange->validate_timestamp = ktime_get_boottime();
1683
1684         return r;
1685 }
1686
1687 /**
1688  * svm_range_list_lock_and_flush_work - flush pending deferred work
1689  *
1690  * @svms: the svm range list
1691  * @mm: the mm structure
1692  *
1693  * Context: Returns with mmap write lock held, pending deferred work flushed
1694  *
1695  */
1696 void
1697 svm_range_list_lock_and_flush_work(struct svm_range_list *svms,
1698                                    struct mm_struct *mm)
1699 {
1700 retry_flush_work:
1701         flush_work(&svms->deferred_list_work);
1702         mmap_write_lock(mm);
1703
1704         if (list_empty(&svms->deferred_range_list))
1705                 return;
1706         mmap_write_unlock(mm);
1707         pr_debug("retry flush\n");
1708         goto retry_flush_work;
1709 }
1710
1711 static void svm_range_restore_work(struct work_struct *work)
1712 {
1713         struct delayed_work *dwork = to_delayed_work(work);
1714         struct amdkfd_process_info *process_info;
1715         struct svm_range_list *svms;
1716         struct svm_range *prange;
1717         struct kfd_process *p;
1718         struct mm_struct *mm;
1719         int evicted_ranges;
1720         int invalid;
1721         int r;
1722
1723         svms = container_of(dwork, struct svm_range_list, restore_work);
1724         evicted_ranges = atomic_read(&svms->evicted_ranges);
1725         if (!evicted_ranges)
1726                 return;
1727
1728         pr_debug("restore svm ranges\n");
1729
1730         p = container_of(svms, struct kfd_process, svms);
1731         process_info = p->kgd_process_info;
1732
1733         /* Keep mm reference when svm_range_validate_and_map ranges */
1734         mm = get_task_mm(p->lead_thread);
1735         if (!mm) {
1736                 pr_debug("svms 0x%p process mm gone\n", svms);
1737                 return;
1738         }
1739
1740         mutex_lock(&process_info->lock);
1741         svm_range_list_lock_and_flush_work(svms, mm);
1742         mutex_lock(&svms->lock);
1743
1744         evicted_ranges = atomic_read(&svms->evicted_ranges);
1745
1746         list_for_each_entry(prange, &svms->list, list) {
1747                 invalid = atomic_read(&prange->invalid);
1748                 if (!invalid)
1749                         continue;
1750
1751                 pr_debug("restoring svms 0x%p prange 0x%p [0x%lx %lx] inv %d\n",
1752                          prange->svms, prange, prange->start, prange->last,
1753                          invalid);
1754
1755                 /*
1756                  * If range is migrating, wait for migration is done.
1757                  */
1758                 mutex_lock(&prange->migrate_mutex);
1759
1760                 r = svm_range_validate_and_map(mm, prange, MAX_GPU_INSTANCE,
1761                                                false, true, false);
1762                 if (r)
1763                         pr_debug("failed %d to map 0x%lx to gpus\n", r,
1764                                  prange->start);
1765
1766                 mutex_unlock(&prange->migrate_mutex);
1767                 if (r)
1768                         goto out_reschedule;
1769
1770                 if (atomic_cmpxchg(&prange->invalid, invalid, 0) != invalid)
1771                         goto out_reschedule;
1772         }
1773
1774         if (atomic_cmpxchg(&svms->evicted_ranges, evicted_ranges, 0) !=
1775             evicted_ranges)
1776                 goto out_reschedule;
1777
1778         evicted_ranges = 0;
1779
1780         r = kgd2kfd_resume_mm(mm);
1781         if (r) {
1782                 /* No recovery from this failure. Probably the CP is
1783                  * hanging. No point trying again.
1784                  */
1785                 pr_debug("failed %d to resume KFD\n", r);
1786         }
1787
1788         pr_debug("restore svm ranges successfully\n");
1789
1790 out_reschedule:
1791         mutex_unlock(&svms->lock);
1792         mmap_write_unlock(mm);
1793         mutex_unlock(&process_info->lock);
1794
1795         /* If validation failed, reschedule another attempt */
1796         if (evicted_ranges) {
1797                 pr_debug("reschedule to restore svm range\n");
1798                 schedule_delayed_work(&svms->restore_work,
1799                         msecs_to_jiffies(AMDGPU_SVM_RANGE_RESTORE_DELAY_MS));
1800
1801                 kfd_smi_event_queue_restore_rescheduled(mm);
1802         }
1803         mmput(mm);
1804 }
1805
1806 /**
1807  * svm_range_evict - evict svm range
1808  * @prange: svm range structure
1809  * @mm: current process mm_struct
1810  * @start: starting process queue number
1811  * @last: last process queue number
1812  *
1813  * Stop all queues of the process to ensure GPU doesn't access the memory, then
1814  * return to let CPU evict the buffer and proceed CPU pagetable update.
1815  *
1816  * Don't need use lock to sync cpu pagetable invalidation with GPU execution.
1817  * If invalidation happens while restore work is running, restore work will
1818  * restart to ensure to get the latest CPU pages mapping to GPU, then start
1819  * the queues.
1820  */
1821 static int
1822 svm_range_evict(struct svm_range *prange, struct mm_struct *mm,
1823                 unsigned long start, unsigned long last,
1824                 enum mmu_notifier_event event)
1825 {
1826         struct svm_range_list *svms = prange->svms;
1827         struct svm_range *pchild;
1828         struct kfd_process *p;
1829         int r = 0;
1830
1831         p = container_of(svms, struct kfd_process, svms);
1832
1833         pr_debug("invalidate svms 0x%p prange [0x%lx 0x%lx] [0x%lx 0x%lx]\n",
1834                  svms, prange->start, prange->last, start, last);
1835
1836         if (!p->xnack_enabled ||
1837             (prange->flags & KFD_IOCTL_SVM_FLAG_GPU_ALWAYS_MAPPED)) {
1838                 int evicted_ranges;
1839                 bool mapped = prange->mapped_to_gpu;
1840
1841                 list_for_each_entry(pchild, &prange->child_list, child_list) {
1842                         if (!pchild->mapped_to_gpu)
1843                                 continue;
1844                         mapped = true;
1845                         mutex_lock_nested(&pchild->lock, 1);
1846                         if (pchild->start <= last && pchild->last >= start) {
1847                                 pr_debug("increment pchild invalid [0x%lx 0x%lx]\n",
1848                                          pchild->start, pchild->last);
1849                                 atomic_inc(&pchild->invalid);
1850                         }
1851                         mutex_unlock(&pchild->lock);
1852                 }
1853
1854                 if (!mapped)
1855                         return r;
1856
1857                 if (prange->start <= last && prange->last >= start)
1858                         atomic_inc(&prange->invalid);
1859
1860                 evicted_ranges = atomic_inc_return(&svms->evicted_ranges);
1861                 if (evicted_ranges != 1)
1862                         return r;
1863
1864                 pr_debug("evicting svms 0x%p range [0x%lx 0x%lx]\n",
1865                          prange->svms, prange->start, prange->last);
1866
1867                 /* First eviction, stop the queues */
1868                 r = kgd2kfd_quiesce_mm(mm, KFD_QUEUE_EVICTION_TRIGGER_SVM);
1869                 if (r)
1870                         pr_debug("failed to quiesce KFD\n");
1871
1872                 pr_debug("schedule to restore svm %p ranges\n", svms);
1873                 schedule_delayed_work(&svms->restore_work,
1874                         msecs_to_jiffies(AMDGPU_SVM_RANGE_RESTORE_DELAY_MS));
1875         } else {
1876                 unsigned long s, l;
1877                 uint32_t trigger;
1878
1879                 if (event == MMU_NOTIFY_MIGRATE)
1880                         trigger = KFD_SVM_UNMAP_TRIGGER_MMU_NOTIFY_MIGRATE;
1881                 else
1882                         trigger = KFD_SVM_UNMAP_TRIGGER_MMU_NOTIFY;
1883
1884                 pr_debug("invalidate unmap svms 0x%p [0x%lx 0x%lx] from GPUs\n",
1885                          prange->svms, start, last);
1886                 list_for_each_entry(pchild, &prange->child_list, child_list) {
1887                         mutex_lock_nested(&pchild->lock, 1);
1888                         s = max(start, pchild->start);
1889                         l = min(last, pchild->last);
1890                         if (l >= s)
1891                                 svm_range_unmap_from_gpus(pchild, s, l, trigger);
1892                         mutex_unlock(&pchild->lock);
1893                 }
1894                 s = max(start, prange->start);
1895                 l = min(last, prange->last);
1896                 if (l >= s)
1897                         svm_range_unmap_from_gpus(prange, s, l, trigger);
1898         }
1899
1900         return r;
1901 }
1902
1903 static struct svm_range *svm_range_clone(struct svm_range *old)
1904 {
1905         struct svm_range *new;
1906
1907         new = svm_range_new(old->svms, old->start, old->last, false);
1908         if (!new)
1909                 return NULL;
1910
1911         if (old->svm_bo) {
1912                 new->ttm_res = old->ttm_res;
1913                 new->offset = old->offset;
1914                 new->svm_bo = svm_range_bo_ref(old->svm_bo);
1915                 spin_lock(&new->svm_bo->list_lock);
1916                 list_add(&new->svm_bo_list, &new->svm_bo->range_list);
1917                 spin_unlock(&new->svm_bo->list_lock);
1918         }
1919         new->flags = old->flags;
1920         new->preferred_loc = old->preferred_loc;
1921         new->prefetch_loc = old->prefetch_loc;
1922         new->actual_loc = old->actual_loc;
1923         new->granularity = old->granularity;
1924         new->mapped_to_gpu = old->mapped_to_gpu;
1925         bitmap_copy(new->bitmap_access, old->bitmap_access, MAX_GPU_INSTANCE);
1926         bitmap_copy(new->bitmap_aip, old->bitmap_aip, MAX_GPU_INSTANCE);
1927
1928         return new;
1929 }
1930
1931 void svm_range_set_max_pages(struct amdgpu_device *adev)
1932 {
1933         uint64_t max_pages;
1934         uint64_t pages, _pages;
1935
1936         /* 1/32 VRAM size in pages */
1937         pages = adev->gmc.real_vram_size >> 17;
1938         pages = clamp(pages, 1ULL << 9, 1ULL << 18);
1939         pages = rounddown_pow_of_two(pages);
1940         do {
1941                 max_pages = READ_ONCE(max_svm_range_pages);
1942                 _pages = min_not_zero(max_pages, pages);
1943         } while (cmpxchg(&max_svm_range_pages, max_pages, _pages) != max_pages);
1944 }
1945
1946 static int
1947 svm_range_split_new(struct svm_range_list *svms, uint64_t start, uint64_t last,
1948                     uint64_t max_pages, struct list_head *insert_list,
1949                     struct list_head *update_list)
1950 {
1951         struct svm_range *prange;
1952         uint64_t l;
1953
1954         pr_debug("max_svm_range_pages 0x%llx adding [0x%llx 0x%llx]\n",
1955                  max_pages, start, last);
1956
1957         while (last >= start) {
1958                 l = min(last, ALIGN_DOWN(start + max_pages, max_pages) - 1);
1959
1960                 prange = svm_range_new(svms, start, l, true);
1961                 if (!prange)
1962                         return -ENOMEM;
1963                 list_add(&prange->list, insert_list);
1964                 list_add(&prange->update_list, update_list);
1965
1966                 start = l + 1;
1967         }
1968         return 0;
1969 }
1970
1971 /**
1972  * svm_range_add - add svm range and handle overlap
1973  * @p: the range add to this process svms
1974  * @start: page size aligned
1975  * @size: page size aligned
1976  * @nattr: number of attributes
1977  * @attrs: array of attributes
1978  * @update_list: output, the ranges need validate and update GPU mapping
1979  * @insert_list: output, the ranges need insert to svms
1980  * @remove_list: output, the ranges are replaced and need remove from svms
1981  *
1982  * Check if the virtual address range has overlap with any existing ranges,
1983  * split partly overlapping ranges and add new ranges in the gaps. All changes
1984  * should be applied to the range_list and interval tree transactionally. If
1985  * any range split or allocation fails, the entire update fails. Therefore any
1986  * existing overlapping svm_ranges are cloned and the original svm_ranges left
1987  * unchanged.
1988  *
1989  * If the transaction succeeds, the caller can update and insert clones and
1990  * new ranges, then free the originals.
1991  *
1992  * Otherwise the caller can free the clones and new ranges, while the old
1993  * svm_ranges remain unchanged.
1994  *
1995  * Context: Process context, caller must hold svms->lock
1996  *
1997  * Return:
1998  * 0 - OK, otherwise error code
1999  */
2000 static int
2001 svm_range_add(struct kfd_process *p, uint64_t start, uint64_t size,
2002               uint32_t nattr, struct kfd_ioctl_svm_attribute *attrs,
2003               struct list_head *update_list, struct list_head *insert_list,
2004               struct list_head *remove_list)
2005 {
2006         unsigned long last = start + size - 1UL;
2007         struct svm_range_list *svms = &p->svms;
2008         struct interval_tree_node *node;
2009         struct svm_range *prange;
2010         struct svm_range *tmp;
2011         struct list_head new_list;
2012         int r = 0;
2013
2014         pr_debug("svms 0x%p [0x%llx 0x%lx]\n", &p->svms, start, last);
2015
2016         INIT_LIST_HEAD(update_list);
2017         INIT_LIST_HEAD(insert_list);
2018         INIT_LIST_HEAD(remove_list);
2019         INIT_LIST_HEAD(&new_list);
2020
2021         node = interval_tree_iter_first(&svms->objects, start, last);
2022         while (node) {
2023                 struct interval_tree_node *next;
2024                 unsigned long next_start;
2025
2026                 pr_debug("found overlap node [0x%lx 0x%lx]\n", node->start,
2027                          node->last);
2028
2029                 prange = container_of(node, struct svm_range, it_node);
2030                 next = interval_tree_iter_next(node, start, last);
2031                 next_start = min(node->last, last) + 1;
2032
2033                 if (svm_range_is_same_attrs(p, prange, nattr, attrs)) {
2034                         /* nothing to do */
2035                 } else if (node->start < start || node->last > last) {
2036                         /* node intersects the update range and its attributes
2037                          * will change. Clone and split it, apply updates only
2038                          * to the overlapping part
2039                          */
2040                         struct svm_range *old = prange;
2041
2042                         prange = svm_range_clone(old);
2043                         if (!prange) {
2044                                 r = -ENOMEM;
2045                                 goto out;
2046                         }
2047
2048                         list_add(&old->update_list, remove_list);
2049                         list_add(&prange->list, insert_list);
2050                         list_add(&prange->update_list, update_list);
2051
2052                         if (node->start < start) {
2053                                 pr_debug("change old range start\n");
2054                                 r = svm_range_split_head(prange, start,
2055                                                          insert_list);
2056                                 if (r)
2057                                         goto out;
2058                         }
2059                         if (node->last > last) {
2060                                 pr_debug("change old range last\n");
2061                                 r = svm_range_split_tail(prange, last,
2062                                                          insert_list);
2063                                 if (r)
2064                                         goto out;
2065                         }
2066                 } else {
2067                         /* The node is contained within start..last,
2068                          * just update it
2069                          */
2070                         list_add(&prange->update_list, update_list);
2071                 }
2072
2073                 /* insert a new node if needed */
2074                 if (node->start > start) {
2075                         r = svm_range_split_new(svms, start, node->start - 1,
2076                                                 READ_ONCE(max_svm_range_pages),
2077                                                 &new_list, update_list);
2078                         if (r)
2079                                 goto out;
2080                 }
2081
2082                 node = next;
2083                 start = next_start;
2084         }
2085
2086         /* add a final range at the end if needed */
2087         if (start <= last)
2088                 r = svm_range_split_new(svms, start, last,
2089                                         READ_ONCE(max_svm_range_pages),
2090                                         &new_list, update_list);
2091
2092 out:
2093         if (r) {
2094                 list_for_each_entry_safe(prange, tmp, insert_list, list)
2095                         svm_range_free(prange, false);
2096                 list_for_each_entry_safe(prange, tmp, &new_list, list)
2097                         svm_range_free(prange, true);
2098         } else {
2099                 list_splice(&new_list, insert_list);
2100         }
2101
2102         return r;
2103 }
2104
2105 static void
2106 svm_range_update_notifier_and_interval_tree(struct mm_struct *mm,
2107                                             struct svm_range *prange)
2108 {
2109         unsigned long start;
2110         unsigned long last;
2111
2112         start = prange->notifier.interval_tree.start >> PAGE_SHIFT;
2113         last = prange->notifier.interval_tree.last >> PAGE_SHIFT;
2114
2115         if (prange->start == start && prange->last == last)
2116                 return;
2117
2118         pr_debug("up notifier 0x%p prange 0x%p [0x%lx 0x%lx] [0x%lx 0x%lx]\n",
2119                   prange->svms, prange, start, last, prange->start,
2120                   prange->last);
2121
2122         if (start != 0 && last != 0) {
2123                 interval_tree_remove(&prange->it_node, &prange->svms->objects);
2124                 svm_range_remove_notifier(prange);
2125         }
2126         prange->it_node.start = prange->start;
2127         prange->it_node.last = prange->last;
2128
2129         interval_tree_insert(&prange->it_node, &prange->svms->objects);
2130         svm_range_add_notifier_locked(mm, prange);
2131 }
2132
2133 static void
2134 svm_range_handle_list_op(struct svm_range_list *svms, struct svm_range *prange,
2135                          struct mm_struct *mm)
2136 {
2137         switch (prange->work_item.op) {
2138         case SVM_OP_NULL:
2139                 pr_debug("NULL OP 0x%p prange 0x%p [0x%lx 0x%lx]\n",
2140                          svms, prange, prange->start, prange->last);
2141                 break;
2142         case SVM_OP_UNMAP_RANGE:
2143                 pr_debug("remove 0x%p prange 0x%p [0x%lx 0x%lx]\n",
2144                          svms, prange, prange->start, prange->last);
2145                 svm_range_unlink(prange);
2146                 svm_range_remove_notifier(prange);
2147                 svm_range_free(prange, true);
2148                 break;
2149         case SVM_OP_UPDATE_RANGE_NOTIFIER:
2150                 pr_debug("update notifier 0x%p prange 0x%p [0x%lx 0x%lx]\n",
2151                          svms, prange, prange->start, prange->last);
2152                 svm_range_update_notifier_and_interval_tree(mm, prange);
2153                 break;
2154         case SVM_OP_UPDATE_RANGE_NOTIFIER_AND_MAP:
2155                 pr_debug("update and map 0x%p prange 0x%p [0x%lx 0x%lx]\n",
2156                          svms, prange, prange->start, prange->last);
2157                 svm_range_update_notifier_and_interval_tree(mm, prange);
2158                 /* TODO: implement deferred validation and mapping */
2159                 break;
2160         case SVM_OP_ADD_RANGE:
2161                 pr_debug("add 0x%p prange 0x%p [0x%lx 0x%lx]\n", svms, prange,
2162                          prange->start, prange->last);
2163                 svm_range_add_to_svms(prange);
2164                 svm_range_add_notifier_locked(mm, prange);
2165                 break;
2166         case SVM_OP_ADD_RANGE_AND_MAP:
2167                 pr_debug("add and map 0x%p prange 0x%p [0x%lx 0x%lx]\n", svms,
2168                          prange, prange->start, prange->last);
2169                 svm_range_add_to_svms(prange);
2170                 svm_range_add_notifier_locked(mm, prange);
2171                 /* TODO: implement deferred validation and mapping */
2172                 break;
2173         default:
2174                 WARN_ONCE(1, "Unknown prange 0x%p work op %d\n", prange,
2175                          prange->work_item.op);
2176         }
2177 }
2178
2179 static void svm_range_drain_retry_fault(struct svm_range_list *svms)
2180 {
2181         struct kfd_process_device *pdd;
2182         struct kfd_process *p;
2183         int drain;
2184         uint32_t i;
2185
2186         p = container_of(svms, struct kfd_process, svms);
2187
2188 restart:
2189         drain = atomic_read(&svms->drain_pagefaults);
2190         if (!drain)
2191                 return;
2192
2193         for_each_set_bit(i, svms->bitmap_supported, p->n_pdds) {
2194                 pdd = p->pdds[i];
2195                 if (!pdd)
2196                         continue;
2197
2198                 pr_debug("drain retry fault gpu %d svms %p\n", i, svms);
2199
2200                 amdgpu_ih_wait_on_checkpoint_process_ts(pdd->dev->adev,
2201                                 pdd->dev->adev->irq.retry_cam_enabled ?
2202                                 &pdd->dev->adev->irq.ih :
2203                                 &pdd->dev->adev->irq.ih1);
2204
2205                 if (pdd->dev->adev->irq.retry_cam_enabled)
2206                         amdgpu_ih_wait_on_checkpoint_process_ts(pdd->dev->adev,
2207                                 &pdd->dev->adev->irq.ih_soft);
2208
2209
2210                 pr_debug("drain retry fault gpu %d svms 0x%p done\n", i, svms);
2211         }
2212         if (atomic_cmpxchg(&svms->drain_pagefaults, drain, 0) != drain)
2213                 goto restart;
2214 }
2215
2216 static void svm_range_deferred_list_work(struct work_struct *work)
2217 {
2218         struct svm_range_list *svms;
2219         struct svm_range *prange;
2220         struct mm_struct *mm;
2221
2222         svms = container_of(work, struct svm_range_list, deferred_list_work);
2223         pr_debug("enter svms 0x%p\n", svms);
2224
2225         spin_lock(&svms->deferred_list_lock);
2226         while (!list_empty(&svms->deferred_range_list)) {
2227                 prange = list_first_entry(&svms->deferred_range_list,
2228                                           struct svm_range, deferred_list);
2229                 spin_unlock(&svms->deferred_list_lock);
2230
2231                 pr_debug("prange 0x%p [0x%lx 0x%lx] op %d\n", prange,
2232                          prange->start, prange->last, prange->work_item.op);
2233
2234                 mm = prange->work_item.mm;
2235 retry:
2236                 mmap_write_lock(mm);
2237
2238                 /* Checking for the need to drain retry faults must be inside
2239                  * mmap write lock to serialize with munmap notifiers.
2240                  */
2241                 if (unlikely(atomic_read(&svms->drain_pagefaults))) {
2242                         mmap_write_unlock(mm);
2243                         svm_range_drain_retry_fault(svms);
2244                         goto retry;
2245                 }
2246
2247                 /* Remove from deferred_list must be inside mmap write lock, for
2248                  * two race cases:
2249                  * 1. unmap_from_cpu may change work_item.op and add the range
2250                  *    to deferred_list again, cause use after free bug.
2251                  * 2. svm_range_list_lock_and_flush_work may hold mmap write
2252                  *    lock and continue because deferred_list is empty, but
2253                  *    deferred_list work is actually waiting for mmap lock.
2254                  */
2255                 spin_lock(&svms->deferred_list_lock);
2256                 list_del_init(&prange->deferred_list);
2257                 spin_unlock(&svms->deferred_list_lock);
2258
2259                 mutex_lock(&svms->lock);
2260                 mutex_lock(&prange->migrate_mutex);
2261                 while (!list_empty(&prange->child_list)) {
2262                         struct svm_range *pchild;
2263
2264                         pchild = list_first_entry(&prange->child_list,
2265                                                 struct svm_range, child_list);
2266                         pr_debug("child prange 0x%p op %d\n", pchild,
2267                                  pchild->work_item.op);
2268                         list_del_init(&pchild->child_list);
2269                         svm_range_handle_list_op(svms, pchild, mm);
2270                 }
2271                 mutex_unlock(&prange->migrate_mutex);
2272
2273                 svm_range_handle_list_op(svms, prange, mm);
2274                 mutex_unlock(&svms->lock);
2275                 mmap_write_unlock(mm);
2276
2277                 /* Pairs with mmget in svm_range_add_list_work */
2278                 mmput(mm);
2279
2280                 spin_lock(&svms->deferred_list_lock);
2281         }
2282         spin_unlock(&svms->deferred_list_lock);
2283         pr_debug("exit svms 0x%p\n", svms);
2284 }
2285
2286 void
2287 svm_range_add_list_work(struct svm_range_list *svms, struct svm_range *prange,
2288                         struct mm_struct *mm, enum svm_work_list_ops op)
2289 {
2290         spin_lock(&svms->deferred_list_lock);
2291         /* if prange is on the deferred list */
2292         if (!list_empty(&prange->deferred_list)) {
2293                 pr_debug("update exist prange 0x%p work op %d\n", prange, op);
2294                 WARN_ONCE(prange->work_item.mm != mm, "unmatch mm\n");
2295                 if (op != SVM_OP_NULL &&
2296                     prange->work_item.op != SVM_OP_UNMAP_RANGE)
2297                         prange->work_item.op = op;
2298         } else {
2299                 prange->work_item.op = op;
2300
2301                 /* Pairs with mmput in deferred_list_work */
2302                 mmget(mm);
2303                 prange->work_item.mm = mm;
2304                 list_add_tail(&prange->deferred_list,
2305                               &prange->svms->deferred_range_list);
2306                 pr_debug("add prange 0x%p [0x%lx 0x%lx] to work list op %d\n",
2307                          prange, prange->start, prange->last, op);
2308         }
2309         spin_unlock(&svms->deferred_list_lock);
2310 }
2311
2312 void schedule_deferred_list_work(struct svm_range_list *svms)
2313 {
2314         spin_lock(&svms->deferred_list_lock);
2315         if (!list_empty(&svms->deferred_range_list))
2316                 schedule_work(&svms->deferred_list_work);
2317         spin_unlock(&svms->deferred_list_lock);
2318 }
2319
2320 static void
2321 svm_range_unmap_split(struct mm_struct *mm, struct svm_range *parent,
2322                       struct svm_range *prange, unsigned long start,
2323                       unsigned long last)
2324 {
2325         struct svm_range *head;
2326         struct svm_range *tail;
2327
2328         if (prange->work_item.op == SVM_OP_UNMAP_RANGE) {
2329                 pr_debug("prange 0x%p [0x%lx 0x%lx] is already freed\n", prange,
2330                          prange->start, prange->last);
2331                 return;
2332         }
2333         if (start > prange->last || last < prange->start)
2334                 return;
2335
2336         head = tail = prange;
2337         if (start > prange->start)
2338                 svm_range_split(prange, prange->start, start - 1, &tail);
2339         if (last < tail->last)
2340                 svm_range_split(tail, last + 1, tail->last, &head);
2341
2342         if (head != prange && tail != prange) {
2343                 svm_range_add_child(parent, mm, head, SVM_OP_UNMAP_RANGE);
2344                 svm_range_add_child(parent, mm, tail, SVM_OP_ADD_RANGE);
2345         } else if (tail != prange) {
2346                 svm_range_add_child(parent, mm, tail, SVM_OP_UNMAP_RANGE);
2347         } else if (head != prange) {
2348                 svm_range_add_child(parent, mm, head, SVM_OP_UNMAP_RANGE);
2349         } else if (parent != prange) {
2350                 prange->work_item.op = SVM_OP_UNMAP_RANGE;
2351         }
2352 }
2353
2354 static void
2355 svm_range_unmap_from_cpu(struct mm_struct *mm, struct svm_range *prange,
2356                          unsigned long start, unsigned long last)
2357 {
2358         uint32_t trigger = KFD_SVM_UNMAP_TRIGGER_UNMAP_FROM_CPU;
2359         struct svm_range_list *svms;
2360         struct svm_range *pchild;
2361         struct kfd_process *p;
2362         unsigned long s, l;
2363         bool unmap_parent;
2364
2365         p = kfd_lookup_process_by_mm(mm);
2366         if (!p)
2367                 return;
2368         svms = &p->svms;
2369
2370         pr_debug("svms 0x%p prange 0x%p [0x%lx 0x%lx] [0x%lx 0x%lx]\n", svms,
2371                  prange, prange->start, prange->last, start, last);
2372
2373         /* Make sure pending page faults are drained in the deferred worker
2374          * before the range is freed to avoid straggler interrupts on
2375          * unmapped memory causing "phantom faults".
2376          */
2377         atomic_inc(&svms->drain_pagefaults);
2378
2379         unmap_parent = start <= prange->start && last >= prange->last;
2380
2381         list_for_each_entry(pchild, &prange->child_list, child_list) {
2382                 mutex_lock_nested(&pchild->lock, 1);
2383                 s = max(start, pchild->start);
2384                 l = min(last, pchild->last);
2385                 if (l >= s)
2386                         svm_range_unmap_from_gpus(pchild, s, l, trigger);
2387                 svm_range_unmap_split(mm, prange, pchild, start, last);
2388                 mutex_unlock(&pchild->lock);
2389         }
2390         s = max(start, prange->start);
2391         l = min(last, prange->last);
2392         if (l >= s)
2393                 svm_range_unmap_from_gpus(prange, s, l, trigger);
2394         svm_range_unmap_split(mm, prange, prange, start, last);
2395
2396         if (unmap_parent)
2397                 svm_range_add_list_work(svms, prange, mm, SVM_OP_UNMAP_RANGE);
2398         else
2399                 svm_range_add_list_work(svms, prange, mm,
2400                                         SVM_OP_UPDATE_RANGE_NOTIFIER);
2401         schedule_deferred_list_work(svms);
2402
2403         kfd_unref_process(p);
2404 }
2405
2406 /**
2407  * svm_range_cpu_invalidate_pagetables - interval notifier callback
2408  * @mni: mmu_interval_notifier struct
2409  * @range: mmu_notifier_range struct
2410  * @cur_seq: value to pass to mmu_interval_set_seq()
2411  *
2412  * If event is MMU_NOTIFY_UNMAP, this is from CPU unmap range, otherwise, it
2413  * is from migration, or CPU page invalidation callback.
2414  *
2415  * For unmap event, unmap range from GPUs, remove prange from svms in a delayed
2416  * work thread, and split prange if only part of prange is unmapped.
2417  *
2418  * For invalidation event, if GPU retry fault is not enabled, evict the queues,
2419  * then schedule svm_range_restore_work to update GPU mapping and resume queues.
2420  * If GPU retry fault is enabled, unmap the svm range from GPU, retry fault will
2421  * update GPU mapping to recover.
2422  *
2423  * Context: mmap lock, notifier_invalidate_start lock are held
2424  *          for invalidate event, prange lock is held if this is from migration
2425  */
2426 static bool
2427 svm_range_cpu_invalidate_pagetables(struct mmu_interval_notifier *mni,
2428                                     const struct mmu_notifier_range *range,
2429                                     unsigned long cur_seq)
2430 {
2431         struct svm_range *prange;
2432         unsigned long start;
2433         unsigned long last;
2434
2435         if (range->event == MMU_NOTIFY_RELEASE)
2436                 return true;
2437         if (!mmget_not_zero(mni->mm))
2438                 return true;
2439
2440         start = mni->interval_tree.start;
2441         last = mni->interval_tree.last;
2442         start = max(start, range->start) >> PAGE_SHIFT;
2443         last = min(last, range->end - 1) >> PAGE_SHIFT;
2444         pr_debug("[0x%lx 0x%lx] range[0x%lx 0x%lx] notifier[0x%lx 0x%lx] %d\n",
2445                  start, last, range->start >> PAGE_SHIFT,
2446                  (range->end - 1) >> PAGE_SHIFT,
2447                  mni->interval_tree.start >> PAGE_SHIFT,
2448                  mni->interval_tree.last >> PAGE_SHIFT, range->event);
2449
2450         prange = container_of(mni, struct svm_range, notifier);
2451
2452         svm_range_lock(prange);
2453         mmu_interval_set_seq(mni, cur_seq);
2454
2455         switch (range->event) {
2456         case MMU_NOTIFY_UNMAP:
2457                 svm_range_unmap_from_cpu(mni->mm, prange, start, last);
2458                 break;
2459         default:
2460                 svm_range_evict(prange, mni->mm, start, last, range->event);
2461                 break;
2462         }
2463
2464         svm_range_unlock(prange);
2465         mmput(mni->mm);
2466
2467         return true;
2468 }
2469
2470 /**
2471  * svm_range_from_addr - find svm range from fault address
2472  * @svms: svm range list header
2473  * @addr: address to search range interval tree, in pages
2474  * @parent: parent range if range is on child list
2475  *
2476  * Context: The caller must hold svms->lock
2477  *
2478  * Return: the svm_range found or NULL
2479  */
2480 struct svm_range *
2481 svm_range_from_addr(struct svm_range_list *svms, unsigned long addr,
2482                     struct svm_range **parent)
2483 {
2484         struct interval_tree_node *node;
2485         struct svm_range *prange;
2486         struct svm_range *pchild;
2487
2488         node = interval_tree_iter_first(&svms->objects, addr, addr);
2489         if (!node)
2490                 return NULL;
2491
2492         prange = container_of(node, struct svm_range, it_node);
2493         pr_debug("address 0x%lx prange [0x%lx 0x%lx] node [0x%lx 0x%lx]\n",
2494                  addr, prange->start, prange->last, node->start, node->last);
2495
2496         if (addr >= prange->start && addr <= prange->last) {
2497                 if (parent)
2498                         *parent = prange;
2499                 return prange;
2500         }
2501         list_for_each_entry(pchild, &prange->child_list, child_list)
2502                 if (addr >= pchild->start && addr <= pchild->last) {
2503                         pr_debug("found address 0x%lx pchild [0x%lx 0x%lx]\n",
2504                                  addr, pchild->start, pchild->last);
2505                         if (parent)
2506                                 *parent = prange;
2507                         return pchild;
2508                 }
2509
2510         return NULL;
2511 }
2512
2513 /* svm_range_best_restore_location - decide the best fault restore location
2514  * @prange: svm range structure
2515  * @adev: the GPU on which vm fault happened
2516  *
2517  * This is only called when xnack is on, to decide the best location to restore
2518  * the range mapping after GPU vm fault. Caller uses the best location to do
2519  * migration if actual loc is not best location, then update GPU page table
2520  * mapping to the best location.
2521  *
2522  * If the preferred loc is accessible by faulting GPU, use preferred loc.
2523  * If vm fault gpu idx is on range ACCESSIBLE bitmap, best_loc is vm fault gpu
2524  * If vm fault gpu idx is on range ACCESSIBLE_IN_PLACE bitmap, then
2525  *    if range actual loc is cpu, best_loc is cpu
2526  *    if vm fault gpu is on xgmi same hive of range actual loc gpu, best_loc is
2527  *    range actual loc.
2528  * Otherwise, GPU no access, best_loc is -1.
2529  *
2530  * Return:
2531  * -1 means vm fault GPU no access
2532  * 0 for CPU or GPU id
2533  */
2534 static int32_t
2535 svm_range_best_restore_location(struct svm_range *prange,
2536                                 struct kfd_node *node,
2537                                 int32_t *gpuidx)
2538 {
2539         struct kfd_node *bo_node, *preferred_node;
2540         struct kfd_process *p;
2541         uint32_t gpuid;
2542         int r;
2543
2544         p = container_of(prange->svms, struct kfd_process, svms);
2545
2546         r = kfd_process_gpuid_from_node(p, node, &gpuid, gpuidx);
2547         if (r < 0) {
2548                 pr_debug("failed to get gpuid from kgd\n");
2549                 return -1;
2550         }
2551
2552         if (node->adev->gmc.is_app_apu)
2553                 return 0;
2554
2555         if (prange->preferred_loc == gpuid ||
2556             prange->preferred_loc == KFD_IOCTL_SVM_LOCATION_SYSMEM) {
2557                 return prange->preferred_loc;
2558         } else if (prange->preferred_loc != KFD_IOCTL_SVM_LOCATION_UNDEFINED) {
2559                 preferred_node = svm_range_get_node_by_id(prange, prange->preferred_loc);
2560                 if (preferred_node && svm_nodes_in_same_hive(node, preferred_node))
2561                         return prange->preferred_loc;
2562                 /* fall through */
2563         }
2564
2565         if (test_bit(*gpuidx, prange->bitmap_access))
2566                 return gpuid;
2567
2568         if (test_bit(*gpuidx, prange->bitmap_aip)) {
2569                 if (!prange->actual_loc)
2570                         return 0;
2571
2572                 bo_node = svm_range_get_node_by_id(prange, prange->actual_loc);
2573                 if (bo_node && svm_nodes_in_same_hive(node, bo_node))
2574                         return prange->actual_loc;
2575                 else
2576                         return 0;
2577         }
2578
2579         return -1;
2580 }
2581
2582 static int
2583 svm_range_get_range_boundaries(struct kfd_process *p, int64_t addr,
2584                                unsigned long *start, unsigned long *last,
2585                                bool *is_heap_stack)
2586 {
2587         struct vm_area_struct *vma;
2588         struct interval_tree_node *node;
2589         unsigned long start_limit, end_limit;
2590
2591         vma = vma_lookup(p->mm, addr << PAGE_SHIFT);
2592         if (!vma) {
2593                 pr_debug("VMA does not exist in address [0x%llx]\n", addr);
2594                 return -EFAULT;
2595         }
2596
2597         *is_heap_stack = (vma->vm_start <= vma->vm_mm->brk &&
2598                           vma->vm_end >= vma->vm_mm->start_brk) ||
2599                          (vma->vm_start <= vma->vm_mm->start_stack &&
2600                           vma->vm_end >= vma->vm_mm->start_stack);
2601
2602         start_limit = max(vma->vm_start >> PAGE_SHIFT,
2603                       (unsigned long)ALIGN_DOWN(addr, 2UL << 8));
2604         end_limit = min(vma->vm_end >> PAGE_SHIFT,
2605                     (unsigned long)ALIGN(addr + 1, 2UL << 8));
2606         /* First range that starts after the fault address */
2607         node = interval_tree_iter_first(&p->svms.objects, addr + 1, ULONG_MAX);
2608         if (node) {
2609                 end_limit = min(end_limit, node->start);
2610                 /* Last range that ends before the fault address */
2611                 node = container_of(rb_prev(&node->rb),
2612                                     struct interval_tree_node, rb);
2613         } else {
2614                 /* Last range must end before addr because
2615                  * there was no range after addr
2616                  */
2617                 node = container_of(rb_last(&p->svms.objects.rb_root),
2618                                     struct interval_tree_node, rb);
2619         }
2620         if (node) {
2621                 if (node->last >= addr) {
2622                         WARN(1, "Overlap with prev node and page fault addr\n");
2623                         return -EFAULT;
2624                 }
2625                 start_limit = max(start_limit, node->last + 1);
2626         }
2627
2628         *start = start_limit;
2629         *last = end_limit - 1;
2630
2631         pr_debug("vma [0x%lx 0x%lx] range [0x%lx 0x%lx] is_heap_stack %d\n",
2632                  vma->vm_start >> PAGE_SHIFT, vma->vm_end >> PAGE_SHIFT,
2633                  *start, *last, *is_heap_stack);
2634
2635         return 0;
2636 }
2637
2638 static int
2639 svm_range_check_vm_userptr(struct kfd_process *p, uint64_t start, uint64_t last,
2640                            uint64_t *bo_s, uint64_t *bo_l)
2641 {
2642         struct amdgpu_bo_va_mapping *mapping;
2643         struct interval_tree_node *node;
2644         struct amdgpu_bo *bo = NULL;
2645         unsigned long userptr;
2646         uint32_t i;
2647         int r;
2648
2649         for (i = 0; i < p->n_pdds; i++) {
2650                 struct amdgpu_vm *vm;
2651
2652                 if (!p->pdds[i]->drm_priv)
2653                         continue;
2654
2655                 vm = drm_priv_to_vm(p->pdds[i]->drm_priv);
2656                 r = amdgpu_bo_reserve(vm->root.bo, false);
2657                 if (r)
2658                         return r;
2659
2660                 /* Check userptr by searching entire vm->va interval tree */
2661                 node = interval_tree_iter_first(&vm->va, 0, ~0ULL);
2662                 while (node) {
2663                         mapping = container_of((struct rb_node *)node,
2664                                                struct amdgpu_bo_va_mapping, rb);
2665                         bo = mapping->bo_va->base.bo;
2666
2667                         if (!amdgpu_ttm_tt_affect_userptr(bo->tbo.ttm,
2668                                                          start << PAGE_SHIFT,
2669                                                          last << PAGE_SHIFT,
2670                                                          &userptr)) {
2671                                 node = interval_tree_iter_next(node, 0, ~0ULL);
2672                                 continue;
2673                         }
2674
2675                         pr_debug("[0x%llx 0x%llx] already userptr mapped\n",
2676                                  start, last);
2677                         if (bo_s && bo_l) {
2678                                 *bo_s = userptr >> PAGE_SHIFT;
2679                                 *bo_l = *bo_s + bo->tbo.ttm->num_pages - 1;
2680                         }
2681                         amdgpu_bo_unreserve(vm->root.bo);
2682                         return -EADDRINUSE;
2683                 }
2684                 amdgpu_bo_unreserve(vm->root.bo);
2685         }
2686         return 0;
2687 }
2688
2689 static struct
2690 svm_range *svm_range_create_unregistered_range(struct kfd_node *node,
2691                                                 struct kfd_process *p,
2692                                                 struct mm_struct *mm,
2693                                                 int64_t addr)
2694 {
2695         struct svm_range *prange = NULL;
2696         unsigned long start, last;
2697         uint32_t gpuid, gpuidx;
2698         bool is_heap_stack;
2699         uint64_t bo_s = 0;
2700         uint64_t bo_l = 0;
2701         int r;
2702
2703         if (svm_range_get_range_boundaries(p, addr, &start, &last,
2704                                            &is_heap_stack))
2705                 return NULL;
2706
2707         r = svm_range_check_vm(p, start, last, &bo_s, &bo_l);
2708         if (r != -EADDRINUSE)
2709                 r = svm_range_check_vm_userptr(p, start, last, &bo_s, &bo_l);
2710
2711         if (r == -EADDRINUSE) {
2712                 if (addr >= bo_s && addr <= bo_l)
2713                         return NULL;
2714
2715                 /* Create one page svm range if 2MB range overlapping */
2716                 start = addr;
2717                 last = addr;
2718         }
2719
2720         prange = svm_range_new(&p->svms, start, last, true);
2721         if (!prange) {
2722                 pr_debug("Failed to create prange in address [0x%llx]\n", addr);
2723                 return NULL;
2724         }
2725         if (kfd_process_gpuid_from_node(p, node, &gpuid, &gpuidx)) {
2726                 pr_debug("failed to get gpuid from kgd\n");
2727                 svm_range_free(prange, true);
2728                 return NULL;
2729         }
2730
2731         if (is_heap_stack)
2732                 prange->preferred_loc = KFD_IOCTL_SVM_LOCATION_SYSMEM;
2733
2734         svm_range_add_to_svms(prange);
2735         svm_range_add_notifier_locked(mm, prange);
2736
2737         return prange;
2738 }
2739
2740 /* svm_range_skip_recover - decide if prange can be recovered
2741  * @prange: svm range structure
2742  *
2743  * GPU vm retry fault handle skip recover the range for cases:
2744  * 1. prange is on deferred list to be removed after unmap, it is stale fault,
2745  *    deferred list work will drain the stale fault before free the prange.
2746  * 2. prange is on deferred list to add interval notifier after split, or
2747  * 3. prange is child range, it is split from parent prange, recover later
2748  *    after interval notifier is added.
2749  *
2750  * Return: true to skip recover, false to recover
2751  */
2752 static bool svm_range_skip_recover(struct svm_range *prange)
2753 {
2754         struct svm_range_list *svms = prange->svms;
2755
2756         spin_lock(&svms->deferred_list_lock);
2757         if (list_empty(&prange->deferred_list) &&
2758             list_empty(&prange->child_list)) {
2759                 spin_unlock(&svms->deferred_list_lock);
2760                 return false;
2761         }
2762         spin_unlock(&svms->deferred_list_lock);
2763
2764         if (prange->work_item.op == SVM_OP_UNMAP_RANGE) {
2765                 pr_debug("svms 0x%p prange 0x%p [0x%lx 0x%lx] unmapped\n",
2766                          svms, prange, prange->start, prange->last);
2767                 return true;
2768         }
2769         if (prange->work_item.op == SVM_OP_ADD_RANGE_AND_MAP ||
2770             prange->work_item.op == SVM_OP_ADD_RANGE) {
2771                 pr_debug("svms 0x%p prange 0x%p [0x%lx 0x%lx] not added yet\n",
2772                          svms, prange, prange->start, prange->last);
2773                 return true;
2774         }
2775         return false;
2776 }
2777
2778 static void
2779 svm_range_count_fault(struct kfd_node *node, struct kfd_process *p,
2780                       int32_t gpuidx)
2781 {
2782         struct kfd_process_device *pdd;
2783
2784         /* fault is on different page of same range
2785          * or fault is skipped to recover later
2786          * or fault is on invalid virtual address
2787          */
2788         if (gpuidx == MAX_GPU_INSTANCE) {
2789                 uint32_t gpuid;
2790                 int r;
2791
2792                 r = kfd_process_gpuid_from_node(p, node, &gpuid, &gpuidx);
2793                 if (r < 0)
2794                         return;
2795         }
2796
2797         /* fault is recovered
2798          * or fault cannot recover because GPU no access on the range
2799          */
2800         pdd = kfd_process_device_from_gpuidx(p, gpuidx);
2801         if (pdd)
2802                 WRITE_ONCE(pdd->faults, pdd->faults + 1);
2803 }
2804
2805 static bool
2806 svm_fault_allowed(struct vm_area_struct *vma, bool write_fault)
2807 {
2808         unsigned long requested = VM_READ;
2809
2810         if (write_fault)
2811                 requested |= VM_WRITE;
2812
2813         pr_debug("requested 0x%lx, vma permission flags 0x%lx\n", requested,
2814                 vma->vm_flags);
2815         return (vma->vm_flags & requested) == requested;
2816 }
2817
2818 int
2819 svm_range_restore_pages(struct amdgpu_device *adev, unsigned int pasid,
2820                         uint32_t vmid, uint32_t node_id,
2821                         uint64_t addr, bool write_fault)
2822 {
2823         struct mm_struct *mm = NULL;
2824         struct svm_range_list *svms;
2825         struct svm_range *prange;
2826         struct kfd_process *p;
2827         ktime_t timestamp = ktime_get_boottime();
2828         struct kfd_node *node;
2829         int32_t best_loc;
2830         int32_t gpuidx = MAX_GPU_INSTANCE;
2831         bool write_locked = false;
2832         struct vm_area_struct *vma;
2833         bool migration = false;
2834         int r = 0;
2835
2836         if (!KFD_IS_SVM_API_SUPPORTED(adev)) {
2837                 pr_debug("device does not support SVM\n");
2838                 return -EFAULT;
2839         }
2840
2841         p = kfd_lookup_process_by_pasid(pasid);
2842         if (!p) {
2843                 pr_debug("kfd process not founded pasid 0x%x\n", pasid);
2844                 return 0;
2845         }
2846         svms = &p->svms;
2847
2848         pr_debug("restoring svms 0x%p fault address 0x%llx\n", svms, addr);
2849
2850         if (atomic_read(&svms->drain_pagefaults)) {
2851                 pr_debug("draining retry fault, drop fault 0x%llx\n", addr);
2852                 r = 0;
2853                 goto out;
2854         }
2855
2856         if (!p->xnack_enabled) {
2857                 pr_debug("XNACK not enabled for pasid 0x%x\n", pasid);
2858                 r = -EFAULT;
2859                 goto out;
2860         }
2861
2862         /* p->lead_thread is available as kfd_process_wq_release flush the work
2863          * before releasing task ref.
2864          */
2865         mm = get_task_mm(p->lead_thread);
2866         if (!mm) {
2867                 pr_debug("svms 0x%p failed to get mm\n", svms);
2868                 r = 0;
2869                 goto out;
2870         }
2871
2872         node = kfd_node_by_irq_ids(adev, node_id, vmid);
2873         if (!node) {
2874                 pr_debug("kfd node does not exist node_id: %d, vmid: %d\n", node_id,
2875                          vmid);
2876                 r = -EFAULT;
2877                 goto out;
2878         }
2879         mmap_read_lock(mm);
2880 retry_write_locked:
2881         mutex_lock(&svms->lock);
2882         prange = svm_range_from_addr(svms, addr, NULL);
2883         if (!prange) {
2884                 pr_debug("failed to find prange svms 0x%p address [0x%llx]\n",
2885                          svms, addr);
2886                 if (!write_locked) {
2887                         /* Need the write lock to create new range with MMU notifier.
2888                          * Also flush pending deferred work to make sure the interval
2889                          * tree is up to date before we add a new range
2890                          */
2891                         mutex_unlock(&svms->lock);
2892                         mmap_read_unlock(mm);
2893                         mmap_write_lock(mm);
2894                         write_locked = true;
2895                         goto retry_write_locked;
2896                 }
2897                 prange = svm_range_create_unregistered_range(node, p, mm, addr);
2898                 if (!prange) {
2899                         pr_debug("failed to create unregistered range svms 0x%p address [0x%llx]\n",
2900                                  svms, addr);
2901                         mmap_write_downgrade(mm);
2902                         r = -EFAULT;
2903                         goto out_unlock_svms;
2904                 }
2905         }
2906         if (write_locked)
2907                 mmap_write_downgrade(mm);
2908
2909         mutex_lock(&prange->migrate_mutex);
2910
2911         if (svm_range_skip_recover(prange)) {
2912                 amdgpu_gmc_filter_faults_remove(node->adev, addr, pasid);
2913                 r = 0;
2914                 goto out_unlock_range;
2915         }
2916
2917         /* skip duplicate vm fault on different pages of same range */
2918         if (ktime_before(timestamp, ktime_add_ns(prange->validate_timestamp,
2919                                 AMDGPU_SVM_RANGE_RETRY_FAULT_PENDING))) {
2920                 pr_debug("svms 0x%p [0x%lx %lx] already restored\n",
2921                          svms, prange->start, prange->last);
2922                 r = 0;
2923                 goto out_unlock_range;
2924         }
2925
2926         /* __do_munmap removed VMA, return success as we are handling stale
2927          * retry fault.
2928          */
2929         vma = vma_lookup(mm, addr << PAGE_SHIFT);
2930         if (!vma) {
2931                 pr_debug("address 0x%llx VMA is removed\n", addr);
2932                 r = 0;
2933                 goto out_unlock_range;
2934         }
2935
2936         if (!svm_fault_allowed(vma, write_fault)) {
2937                 pr_debug("fault addr 0x%llx no %s permission\n", addr,
2938                         write_fault ? "write" : "read");
2939                 r = -EPERM;
2940                 goto out_unlock_range;
2941         }
2942
2943         best_loc = svm_range_best_restore_location(prange, node, &gpuidx);
2944         if (best_loc == -1) {
2945                 pr_debug("svms %p failed get best restore loc [0x%lx 0x%lx]\n",
2946                          svms, prange->start, prange->last);
2947                 r = -EACCES;
2948                 goto out_unlock_range;
2949         }
2950
2951         pr_debug("svms %p [0x%lx 0x%lx] best restore 0x%x, actual loc 0x%x\n",
2952                  svms, prange->start, prange->last, best_loc,
2953                  prange->actual_loc);
2954
2955         kfd_smi_event_page_fault_start(node, p->lead_thread->pid, addr,
2956                                        write_fault, timestamp);
2957
2958         if (prange->actual_loc != best_loc) {
2959                 migration = true;
2960                 if (best_loc) {
2961                         r = svm_migrate_to_vram(prange, best_loc, mm,
2962                                         KFD_MIGRATE_TRIGGER_PAGEFAULT_GPU);
2963                         if (r) {
2964                                 pr_debug("svm_migrate_to_vram failed (%d) at %llx, falling back to system memory\n",
2965                                          r, addr);
2966                                 /* Fallback to system memory if migration to
2967                                  * VRAM failed
2968                                  */
2969                                 if (prange->actual_loc)
2970                                         r = svm_migrate_vram_to_ram(prange, mm,
2971                                            KFD_MIGRATE_TRIGGER_PAGEFAULT_GPU,
2972                                            NULL);
2973                                 else
2974                                         r = 0;
2975                         }
2976                 } else {
2977                         r = svm_migrate_vram_to_ram(prange, mm,
2978                                         KFD_MIGRATE_TRIGGER_PAGEFAULT_GPU,
2979                                         NULL);
2980                 }
2981                 if (r) {
2982                         pr_debug("failed %d to migrate svms %p [0x%lx 0x%lx]\n",
2983                                  r, svms, prange->start, prange->last);
2984                         goto out_unlock_range;
2985                 }
2986         }
2987
2988         r = svm_range_validate_and_map(mm, prange, gpuidx, false, false, false);
2989         if (r)
2990                 pr_debug("failed %d to map svms 0x%p [0x%lx 0x%lx] to gpus\n",
2991                          r, svms, prange->start, prange->last);
2992
2993         kfd_smi_event_page_fault_end(node, p->lead_thread->pid, addr,
2994                                      migration);
2995
2996 out_unlock_range:
2997         mutex_unlock(&prange->migrate_mutex);
2998 out_unlock_svms:
2999         mutex_unlock(&svms->lock);
3000         mmap_read_unlock(mm);
3001
3002         svm_range_count_fault(node, p, gpuidx);
3003
3004         mmput(mm);
3005 out:
3006         kfd_unref_process(p);
3007
3008         if (r == -EAGAIN) {
3009                 pr_debug("recover vm fault later\n");
3010                 amdgpu_gmc_filter_faults_remove(node->adev, addr, pasid);
3011                 r = 0;
3012         }
3013         return r;
3014 }
3015
3016 int
3017 svm_range_switch_xnack_reserve_mem(struct kfd_process *p, bool xnack_enabled)
3018 {
3019         struct svm_range *prange, *pchild;
3020         uint64_t reserved_size = 0;
3021         uint64_t size;
3022         int r = 0;
3023
3024         pr_debug("switching xnack from %d to %d\n", p->xnack_enabled, xnack_enabled);
3025
3026         mutex_lock(&p->svms.lock);
3027
3028         list_for_each_entry(prange, &p->svms.list, list) {
3029                 svm_range_lock(prange);
3030                 list_for_each_entry(pchild, &prange->child_list, child_list) {
3031                         size = (pchild->last - pchild->start + 1) << PAGE_SHIFT;
3032                         if (xnack_enabled) {
3033                                 amdgpu_amdkfd_unreserve_mem_limit(NULL, size,
3034                                                 KFD_IOC_ALLOC_MEM_FLAGS_USERPTR);
3035                         } else {
3036                                 r = amdgpu_amdkfd_reserve_mem_limit(NULL, size,
3037                                                 KFD_IOC_ALLOC_MEM_FLAGS_USERPTR);
3038                                 if (r)
3039                                         goto out_unlock;
3040                                 reserved_size += size;
3041                         }
3042                 }
3043
3044                 size = (prange->last - prange->start + 1) << PAGE_SHIFT;
3045                 if (xnack_enabled) {
3046                         amdgpu_amdkfd_unreserve_mem_limit(NULL, size,
3047                                                 KFD_IOC_ALLOC_MEM_FLAGS_USERPTR);
3048                 } else {
3049                         r = amdgpu_amdkfd_reserve_mem_limit(NULL, size,
3050                                                 KFD_IOC_ALLOC_MEM_FLAGS_USERPTR);
3051                         if (r)
3052                                 goto out_unlock;
3053                         reserved_size += size;
3054                 }
3055 out_unlock:
3056                 svm_range_unlock(prange);
3057                 if (r)
3058                         break;
3059         }
3060
3061         if (r)
3062                 amdgpu_amdkfd_unreserve_mem_limit(NULL, reserved_size,
3063                                                 KFD_IOC_ALLOC_MEM_FLAGS_USERPTR);
3064         else
3065                 /* Change xnack mode must be inside svms lock, to avoid race with
3066                  * svm_range_deferred_list_work unreserve memory in parallel.
3067                  */
3068                 p->xnack_enabled = xnack_enabled;
3069
3070         mutex_unlock(&p->svms.lock);
3071         return r;
3072 }
3073
3074 void svm_range_list_fini(struct kfd_process *p)
3075 {
3076         struct svm_range *prange;
3077         struct svm_range *next;
3078
3079         pr_debug("pasid 0x%x svms 0x%p\n", p->pasid, &p->svms);
3080
3081         cancel_delayed_work_sync(&p->svms.restore_work);
3082
3083         /* Ensure list work is finished before process is destroyed */
3084         flush_work(&p->svms.deferred_list_work);
3085
3086         /*
3087          * Ensure no retry fault comes in afterwards, as page fault handler will
3088          * not find kfd process and take mm lock to recover fault.
3089          */
3090         atomic_inc(&p->svms.drain_pagefaults);
3091         svm_range_drain_retry_fault(&p->svms);
3092
3093         list_for_each_entry_safe(prange, next, &p->svms.list, list) {
3094                 svm_range_unlink(prange);
3095                 svm_range_remove_notifier(prange);
3096                 svm_range_free(prange, true);
3097         }
3098
3099         mutex_destroy(&p->svms.lock);
3100
3101         pr_debug("pasid 0x%x svms 0x%p done\n", p->pasid, &p->svms);
3102 }
3103
3104 int svm_range_list_init(struct kfd_process *p)
3105 {
3106         struct svm_range_list *svms = &p->svms;
3107         int i;
3108
3109         svms->objects = RB_ROOT_CACHED;
3110         mutex_init(&svms->lock);
3111         INIT_LIST_HEAD(&svms->list);
3112         atomic_set(&svms->evicted_ranges, 0);
3113         atomic_set(&svms->drain_pagefaults, 0);
3114         INIT_DELAYED_WORK(&svms->restore_work, svm_range_restore_work);
3115         INIT_WORK(&svms->deferred_list_work, svm_range_deferred_list_work);
3116         INIT_LIST_HEAD(&svms->deferred_range_list);
3117         INIT_LIST_HEAD(&svms->criu_svm_metadata_list);
3118         spin_lock_init(&svms->deferred_list_lock);
3119
3120         for (i = 0; i < p->n_pdds; i++)
3121                 if (KFD_IS_SVM_API_SUPPORTED(p->pdds[i]->dev->adev))
3122                         bitmap_set(svms->bitmap_supported, i, 1);
3123
3124         return 0;
3125 }
3126
3127 /**
3128  * svm_range_check_vm - check if virtual address range mapped already
3129  * @p: current kfd_process
3130  * @start: range start address, in pages
3131  * @last: range last address, in pages
3132  * @bo_s: mapping start address in pages if address range already mapped
3133  * @bo_l: mapping last address in pages if address range already mapped
3134  *
3135  * The purpose is to avoid virtual address ranges already allocated by
3136  * kfd_ioctl_alloc_memory_of_gpu ioctl.
3137  * It looks for each pdd in the kfd_process.
3138  *
3139  * Context: Process context
3140  *
3141  * Return 0 - OK, if the range is not mapped.
3142  * Otherwise error code:
3143  * -EADDRINUSE - if address is mapped already by kfd_ioctl_alloc_memory_of_gpu
3144  * -ERESTARTSYS - A wait for the buffer to become unreserved was interrupted by
3145  * a signal. Release all buffer reservations and return to user-space.
3146  */
3147 static int
3148 svm_range_check_vm(struct kfd_process *p, uint64_t start, uint64_t last,
3149                    uint64_t *bo_s, uint64_t *bo_l)
3150 {
3151         struct amdgpu_bo_va_mapping *mapping;
3152         struct interval_tree_node *node;
3153         uint32_t i;
3154         int r;
3155
3156         for (i = 0; i < p->n_pdds; i++) {
3157                 struct amdgpu_vm *vm;
3158
3159                 if (!p->pdds[i]->drm_priv)
3160                         continue;
3161
3162                 vm = drm_priv_to_vm(p->pdds[i]->drm_priv);
3163                 r = amdgpu_bo_reserve(vm->root.bo, false);
3164                 if (r)
3165                         return r;
3166
3167                 node = interval_tree_iter_first(&vm->va, start, last);
3168                 if (node) {
3169                         pr_debug("range [0x%llx 0x%llx] already TTM mapped\n",
3170                                  start, last);
3171                         mapping = container_of((struct rb_node *)node,
3172                                                struct amdgpu_bo_va_mapping, rb);
3173                         if (bo_s && bo_l) {
3174                                 *bo_s = mapping->start;
3175                                 *bo_l = mapping->last;
3176                         }
3177                         amdgpu_bo_unreserve(vm->root.bo);
3178                         return -EADDRINUSE;
3179                 }
3180                 amdgpu_bo_unreserve(vm->root.bo);
3181         }
3182
3183         return 0;
3184 }
3185
3186 /**
3187  * svm_range_is_valid - check if virtual address range is valid
3188  * @p: current kfd_process
3189  * @start: range start address, in pages
3190  * @size: range size, in pages
3191  *
3192  * Valid virtual address range means it belongs to one or more VMAs
3193  *
3194  * Context: Process context
3195  *
3196  * Return:
3197  *  0 - OK, otherwise error code
3198  */
3199 static int
3200 svm_range_is_valid(struct kfd_process *p, uint64_t start, uint64_t size)
3201 {
3202         const unsigned long device_vma = VM_IO | VM_PFNMAP | VM_MIXEDMAP;
3203         struct vm_area_struct *vma;
3204         unsigned long end;
3205         unsigned long start_unchg = start;
3206
3207         start <<= PAGE_SHIFT;
3208         end = start + (size << PAGE_SHIFT);
3209         do {
3210                 vma = vma_lookup(p->mm, start);
3211                 if (!vma || (vma->vm_flags & device_vma))
3212                         return -EFAULT;
3213                 start = min(end, vma->vm_end);
3214         } while (start < end);
3215
3216         return svm_range_check_vm(p, start_unchg, (end - 1) >> PAGE_SHIFT, NULL,
3217                                   NULL);
3218 }
3219
3220 /**
3221  * svm_range_best_prefetch_location - decide the best prefetch location
3222  * @prange: svm range structure
3223  *
3224  * For xnack off:
3225  * If range map to single GPU, the best prefetch location is prefetch_loc, which
3226  * can be CPU or GPU.
3227  *
3228  * If range is ACCESS or ACCESS_IN_PLACE by mGPUs, only if mGPU connection on
3229  * XGMI same hive, the best prefetch location is prefetch_loc GPU, othervise
3230  * the best prefetch location is always CPU, because GPU can not have coherent
3231  * mapping VRAM of other GPUs even with large-BAR PCIe connection.
3232  *
3233  * For xnack on:
3234  * If range is not ACCESS_IN_PLACE by mGPUs, the best prefetch location is
3235  * prefetch_loc, other GPU access will generate vm fault and trigger migration.
3236  *
3237  * If range is ACCESS_IN_PLACE by mGPUs, only if mGPU connection on XGMI same
3238  * hive, the best prefetch location is prefetch_loc GPU, otherwise the best
3239  * prefetch location is always CPU.
3240  *
3241  * Context: Process context
3242  *
3243  * Return:
3244  * 0 for CPU or GPU id
3245  */
3246 static uint32_t
3247 svm_range_best_prefetch_location(struct svm_range *prange)
3248 {
3249         DECLARE_BITMAP(bitmap, MAX_GPU_INSTANCE);
3250         uint32_t best_loc = prange->prefetch_loc;
3251         struct kfd_process_device *pdd;
3252         struct kfd_node *bo_node;
3253         struct kfd_process *p;
3254         uint32_t gpuidx;
3255
3256         p = container_of(prange->svms, struct kfd_process, svms);
3257
3258         if (!best_loc || best_loc == KFD_IOCTL_SVM_LOCATION_UNDEFINED)
3259                 goto out;
3260
3261         bo_node = svm_range_get_node_by_id(prange, best_loc);
3262         if (!bo_node) {
3263                 WARN_ONCE(1, "failed to get valid kfd node at id%x\n", best_loc);
3264                 best_loc = 0;
3265                 goto out;
3266         }
3267
3268         if (bo_node->adev->gmc.is_app_apu) {
3269                 best_loc = 0;
3270                 goto out;
3271         }
3272
3273         if (p->xnack_enabled)
3274                 bitmap_copy(bitmap, prange->bitmap_aip, MAX_GPU_INSTANCE);
3275         else
3276                 bitmap_or(bitmap, prange->bitmap_access, prange->bitmap_aip,
3277                           MAX_GPU_INSTANCE);
3278
3279         for_each_set_bit(gpuidx, bitmap, MAX_GPU_INSTANCE) {
3280                 pdd = kfd_process_device_from_gpuidx(p, gpuidx);
3281                 if (!pdd) {
3282                         pr_debug("failed to get device by idx 0x%x\n", gpuidx);
3283                         continue;
3284                 }
3285
3286                 if (pdd->dev->adev == bo_node->adev)
3287                         continue;
3288
3289                 if (!svm_nodes_in_same_hive(pdd->dev, bo_node)) {
3290                         best_loc = 0;
3291                         break;
3292                 }
3293         }
3294
3295 out:
3296         pr_debug("xnack %d svms 0x%p [0x%lx 0x%lx] best loc 0x%x\n",
3297                  p->xnack_enabled, &p->svms, prange->start, prange->last,
3298                  best_loc);
3299
3300         return best_loc;
3301 }
3302
3303 /* svm_range_trigger_migration - start page migration if prefetch loc changed
3304  * @mm: current process mm_struct
3305  * @prange: svm range structure
3306  * @migrated: output, true if migration is triggered
3307  *
3308  * If range perfetch_loc is GPU, actual loc is cpu 0, then migrate the range
3309  * from ram to vram.
3310  * If range prefetch_loc is cpu 0, actual loc is GPU, then migrate the range
3311  * from vram to ram.
3312  *
3313  * If GPU vm fault retry is not enabled, migration interact with MMU notifier
3314  * and restore work:
3315  * 1. migrate_vma_setup invalidate pages, MMU notifier callback svm_range_evict
3316  *    stops all queues, schedule restore work
3317  * 2. svm_range_restore_work wait for migration is done by
3318  *    a. svm_range_validate_vram takes prange->migrate_mutex
3319  *    b. svm_range_validate_ram HMM get pages wait for CPU fault handle returns
3320  * 3. restore work update mappings of GPU, resume all queues.
3321  *
3322  * Context: Process context
3323  *
3324  * Return:
3325  * 0 - OK, otherwise - error code of migration
3326  */
3327 static int
3328 svm_range_trigger_migration(struct mm_struct *mm, struct svm_range *prange,
3329                             bool *migrated)
3330 {
3331         uint32_t best_loc;
3332         int r = 0;
3333
3334         *migrated = false;
3335         best_loc = svm_range_best_prefetch_location(prange);
3336
3337         if (best_loc == KFD_IOCTL_SVM_LOCATION_UNDEFINED ||
3338             best_loc == prange->actual_loc)
3339                 return 0;
3340
3341         if (!best_loc) {
3342                 r = svm_migrate_vram_to_ram(prange, mm,
3343                                         KFD_MIGRATE_TRIGGER_PREFETCH, NULL);
3344                 *migrated = !r;
3345                 return r;
3346         }
3347
3348         r = svm_migrate_to_vram(prange, best_loc, mm, KFD_MIGRATE_TRIGGER_PREFETCH);
3349         *migrated = !r;
3350
3351         return r;
3352 }
3353
3354 int svm_range_schedule_evict_svm_bo(struct amdgpu_amdkfd_fence *fence)
3355 {
3356         if (!fence)
3357                 return -EINVAL;
3358
3359         if (dma_fence_is_signaled(&fence->base))
3360                 return 0;
3361
3362         if (fence->svm_bo) {
3363                 WRITE_ONCE(fence->svm_bo->evicting, 1);
3364                 schedule_work(&fence->svm_bo->eviction_work);
3365         }
3366
3367         return 0;
3368 }
3369
3370 static void svm_range_evict_svm_bo_worker(struct work_struct *work)
3371 {
3372         struct svm_range_bo *svm_bo;
3373         struct mm_struct *mm;
3374         int r = 0;
3375
3376         svm_bo = container_of(work, struct svm_range_bo, eviction_work);
3377         if (!svm_bo_ref_unless_zero(svm_bo))
3378                 return; /* svm_bo was freed while eviction was pending */
3379
3380         if (mmget_not_zero(svm_bo->eviction_fence->mm)) {
3381                 mm = svm_bo->eviction_fence->mm;
3382         } else {
3383                 svm_range_bo_unref(svm_bo);
3384                 return;
3385         }
3386
3387         mmap_read_lock(mm);
3388         spin_lock(&svm_bo->list_lock);
3389         while (!list_empty(&svm_bo->range_list) && !r) {
3390                 struct svm_range *prange =
3391                                 list_first_entry(&svm_bo->range_list,
3392                                                 struct svm_range, svm_bo_list);
3393                 int retries = 3;
3394
3395                 list_del_init(&prange->svm_bo_list);
3396                 spin_unlock(&svm_bo->list_lock);
3397
3398                 pr_debug("svms 0x%p [0x%lx 0x%lx]\n", prange->svms,
3399                          prange->start, prange->last);
3400
3401                 mutex_lock(&prange->migrate_mutex);
3402                 do {
3403                         r = svm_migrate_vram_to_ram(prange, mm,
3404                                         KFD_MIGRATE_TRIGGER_TTM_EVICTION, NULL);
3405                 } while (!r && prange->actual_loc && --retries);
3406
3407                 if (!r && prange->actual_loc)
3408                         pr_info_once("Migration failed during eviction");
3409
3410                 if (!prange->actual_loc) {
3411                         mutex_lock(&prange->lock);
3412                         prange->svm_bo = NULL;
3413                         mutex_unlock(&prange->lock);
3414                 }
3415                 mutex_unlock(&prange->migrate_mutex);
3416
3417                 spin_lock(&svm_bo->list_lock);
3418         }
3419         spin_unlock(&svm_bo->list_lock);
3420         mmap_read_unlock(mm);
3421         mmput(mm);
3422
3423         dma_fence_signal(&svm_bo->eviction_fence->base);
3424
3425         /* This is the last reference to svm_bo, after svm_range_vram_node_free
3426          * has been called in svm_migrate_vram_to_ram
3427          */
3428         WARN_ONCE(!r && kref_read(&svm_bo->kref) != 1, "This was not the last reference\n");
3429         svm_range_bo_unref(svm_bo);
3430 }
3431
3432 static int
3433 svm_range_set_attr(struct kfd_process *p, struct mm_struct *mm,
3434                    uint64_t start, uint64_t size, uint32_t nattr,
3435                    struct kfd_ioctl_svm_attribute *attrs)
3436 {
3437         struct amdkfd_process_info *process_info = p->kgd_process_info;
3438         struct list_head update_list;
3439         struct list_head insert_list;
3440         struct list_head remove_list;
3441         struct svm_range_list *svms;
3442         struct svm_range *prange;
3443         struct svm_range *next;
3444         bool update_mapping = false;
3445         bool flush_tlb;
3446         int r = 0;
3447
3448         pr_debug("pasid 0x%x svms 0x%p [0x%llx 0x%llx] pages 0x%llx\n",
3449                  p->pasid, &p->svms, start, start + size - 1, size);
3450
3451         r = svm_range_check_attr(p, nattr, attrs);
3452         if (r)
3453                 return r;
3454
3455         svms = &p->svms;
3456
3457         mutex_lock(&process_info->lock);
3458
3459         svm_range_list_lock_and_flush_work(svms, mm);
3460
3461         r = svm_range_is_valid(p, start, size);
3462         if (r) {
3463                 pr_debug("invalid range r=%d\n", r);
3464                 mmap_write_unlock(mm);
3465                 goto out;
3466         }
3467
3468         mutex_lock(&svms->lock);
3469
3470         /* Add new range and split existing ranges as needed */
3471         r = svm_range_add(p, start, size, nattr, attrs, &update_list,
3472                           &insert_list, &remove_list);
3473         if (r) {
3474                 mutex_unlock(&svms->lock);
3475                 mmap_write_unlock(mm);
3476                 goto out;
3477         }
3478         /* Apply changes as a transaction */
3479         list_for_each_entry_safe(prange, next, &insert_list, list) {
3480                 svm_range_add_to_svms(prange);
3481                 svm_range_add_notifier_locked(mm, prange);
3482         }
3483         list_for_each_entry(prange, &update_list, update_list) {
3484                 svm_range_apply_attrs(p, prange, nattr, attrs, &update_mapping);
3485                 /* TODO: unmap ranges from GPU that lost access */
3486         }
3487         list_for_each_entry_safe(prange, next, &remove_list, update_list) {
3488                 pr_debug("unlink old 0x%p prange 0x%p [0x%lx 0x%lx]\n",
3489                          prange->svms, prange, prange->start,
3490                          prange->last);
3491                 svm_range_unlink(prange);
3492                 svm_range_remove_notifier(prange);
3493                 svm_range_free(prange, false);
3494         }
3495
3496         mmap_write_downgrade(mm);
3497         /* Trigger migrations and revalidate and map to GPUs as needed. If
3498          * this fails we may be left with partially completed actions. There
3499          * is no clean way of rolling back to the previous state in such a
3500          * case because the rollback wouldn't be guaranteed to work either.
3501          */
3502         list_for_each_entry(prange, &update_list, update_list) {
3503                 bool migrated;
3504
3505                 mutex_lock(&prange->migrate_mutex);
3506
3507                 r = svm_range_trigger_migration(mm, prange, &migrated);
3508                 if (r)
3509                         goto out_unlock_range;
3510
3511                 if (migrated && (!p->xnack_enabled ||
3512                     (prange->flags & KFD_IOCTL_SVM_FLAG_GPU_ALWAYS_MAPPED)) &&
3513                     prange->mapped_to_gpu) {
3514                         pr_debug("restore_work will update mappings of GPUs\n");
3515                         mutex_unlock(&prange->migrate_mutex);
3516                         continue;
3517                 }
3518
3519                 if (!migrated && !update_mapping) {
3520                         mutex_unlock(&prange->migrate_mutex);
3521                         continue;
3522                 }
3523
3524                 flush_tlb = !migrated && update_mapping && prange->mapped_to_gpu;
3525
3526                 r = svm_range_validate_and_map(mm, prange, MAX_GPU_INSTANCE,
3527                                                true, true, flush_tlb);
3528                 if (r)
3529                         pr_debug("failed %d to map svm range\n", r);
3530
3531 out_unlock_range:
3532                 mutex_unlock(&prange->migrate_mutex);
3533                 if (r)
3534                         break;
3535         }
3536
3537         svm_range_debug_dump(svms);
3538
3539         mutex_unlock(&svms->lock);
3540         mmap_read_unlock(mm);
3541 out:
3542         mutex_unlock(&process_info->lock);
3543
3544         pr_debug("pasid 0x%x svms 0x%p [0x%llx 0x%llx] done, r=%d\n", p->pasid,
3545                  &p->svms, start, start + size - 1, r);
3546
3547         return r;
3548 }
3549
3550 static int
3551 svm_range_get_attr(struct kfd_process *p, struct mm_struct *mm,
3552                    uint64_t start, uint64_t size, uint32_t nattr,
3553                    struct kfd_ioctl_svm_attribute *attrs)
3554 {
3555         DECLARE_BITMAP(bitmap_access, MAX_GPU_INSTANCE);
3556         DECLARE_BITMAP(bitmap_aip, MAX_GPU_INSTANCE);
3557         bool get_preferred_loc = false;
3558         bool get_prefetch_loc = false;
3559         bool get_granularity = false;
3560         bool get_accessible = false;
3561         bool get_flags = false;
3562         uint64_t last = start + size - 1UL;
3563         uint8_t granularity = 0xff;
3564         struct interval_tree_node *node;
3565         struct svm_range_list *svms;
3566         struct svm_range *prange;
3567         uint32_t prefetch_loc = KFD_IOCTL_SVM_LOCATION_UNDEFINED;
3568         uint32_t location = KFD_IOCTL_SVM_LOCATION_UNDEFINED;
3569         uint32_t flags_and = 0xffffffff;
3570         uint32_t flags_or = 0;
3571         int gpuidx;
3572         uint32_t i;
3573         int r = 0;
3574
3575         pr_debug("svms 0x%p [0x%llx 0x%llx] nattr 0x%x\n", &p->svms, start,
3576                  start + size - 1, nattr);
3577
3578         /* Flush pending deferred work to avoid racing with deferred actions from
3579          * previous memory map changes (e.g. munmap). Concurrent memory map changes
3580          * can still race with get_attr because we don't hold the mmap lock. But that
3581          * would be a race condition in the application anyway, and undefined
3582          * behaviour is acceptable in that case.
3583          */
3584         flush_work(&p->svms.deferred_list_work);
3585
3586         mmap_read_lock(mm);
3587         r = svm_range_is_valid(p, start, size);
3588         mmap_read_unlock(mm);
3589         if (r) {
3590                 pr_debug("invalid range r=%d\n", r);
3591                 return r;
3592         }
3593
3594         for (i = 0; i < nattr; i++) {
3595                 switch (attrs[i].type) {
3596                 case KFD_IOCTL_SVM_ATTR_PREFERRED_LOC:
3597                         get_preferred_loc = true;
3598                         break;
3599                 case KFD_IOCTL_SVM_ATTR_PREFETCH_LOC:
3600                         get_prefetch_loc = true;
3601                         break;
3602                 case KFD_IOCTL_SVM_ATTR_ACCESS:
3603                         get_accessible = true;
3604                         break;
3605                 case KFD_IOCTL_SVM_ATTR_SET_FLAGS:
3606                 case KFD_IOCTL_SVM_ATTR_CLR_FLAGS:
3607                         get_flags = true;
3608                         break;
3609                 case KFD_IOCTL_SVM_ATTR_GRANULARITY:
3610                         get_granularity = true;
3611                         break;
3612                 case KFD_IOCTL_SVM_ATTR_ACCESS_IN_PLACE:
3613                 case KFD_IOCTL_SVM_ATTR_NO_ACCESS:
3614                         fallthrough;
3615                 default:
3616                         pr_debug("get invalid attr type 0x%x\n", attrs[i].type);
3617                         return -EINVAL;
3618                 }
3619         }
3620
3621         svms = &p->svms;
3622
3623         mutex_lock(&svms->lock);
3624
3625         node = interval_tree_iter_first(&svms->objects, start, last);
3626         if (!node) {
3627                 pr_debug("range attrs not found return default values\n");
3628                 svm_range_set_default_attributes(&location, &prefetch_loc,
3629                                                  &granularity, &flags_and);
3630                 flags_or = flags_and;
3631                 if (p->xnack_enabled)
3632                         bitmap_copy(bitmap_access, svms->bitmap_supported,
3633                                     MAX_GPU_INSTANCE);
3634                 else
3635                         bitmap_zero(bitmap_access, MAX_GPU_INSTANCE);
3636                 bitmap_zero(bitmap_aip, MAX_GPU_INSTANCE);
3637                 goto fill_values;
3638         }
3639         bitmap_copy(bitmap_access, svms->bitmap_supported, MAX_GPU_INSTANCE);
3640         bitmap_copy(bitmap_aip, svms->bitmap_supported, MAX_GPU_INSTANCE);
3641
3642         while (node) {
3643                 struct interval_tree_node *next;
3644
3645                 prange = container_of(node, struct svm_range, it_node);
3646                 next = interval_tree_iter_next(node, start, last);
3647
3648                 if (get_preferred_loc) {
3649                         if (prange->preferred_loc ==
3650                                         KFD_IOCTL_SVM_LOCATION_UNDEFINED ||
3651                             (location != KFD_IOCTL_SVM_LOCATION_UNDEFINED &&
3652                              location != prange->preferred_loc)) {
3653                                 location = KFD_IOCTL_SVM_LOCATION_UNDEFINED;
3654                                 get_preferred_loc = false;
3655                         } else {
3656                                 location = prange->preferred_loc;
3657                         }
3658                 }
3659                 if (get_prefetch_loc) {
3660                         if (prange->prefetch_loc ==
3661                                         KFD_IOCTL_SVM_LOCATION_UNDEFINED ||
3662                             (prefetch_loc != KFD_IOCTL_SVM_LOCATION_UNDEFINED &&
3663                              prefetch_loc != prange->prefetch_loc)) {
3664                                 prefetch_loc = KFD_IOCTL_SVM_LOCATION_UNDEFINED;
3665                                 get_prefetch_loc = false;
3666                         } else {
3667                                 prefetch_loc = prange->prefetch_loc;
3668                         }
3669                 }
3670                 if (get_accessible) {
3671                         bitmap_and(bitmap_access, bitmap_access,
3672                                    prange->bitmap_access, MAX_GPU_INSTANCE);
3673                         bitmap_and(bitmap_aip, bitmap_aip,
3674                                    prange->bitmap_aip, MAX_GPU_INSTANCE);
3675                 }
3676                 if (get_flags) {
3677                         flags_and &= prange->flags;
3678                         flags_or |= prange->flags;
3679                 }
3680
3681                 if (get_granularity && prange->granularity < granularity)
3682                         granularity = prange->granularity;
3683
3684                 node = next;
3685         }
3686 fill_values:
3687         mutex_unlock(&svms->lock);
3688
3689         for (i = 0; i < nattr; i++) {
3690                 switch (attrs[i].type) {
3691                 case KFD_IOCTL_SVM_ATTR_PREFERRED_LOC:
3692                         attrs[i].value = location;
3693                         break;
3694                 case KFD_IOCTL_SVM_ATTR_PREFETCH_LOC:
3695                         attrs[i].value = prefetch_loc;
3696                         break;
3697                 case KFD_IOCTL_SVM_ATTR_ACCESS:
3698                         gpuidx = kfd_process_gpuidx_from_gpuid(p,
3699                                                                attrs[i].value);
3700                         if (gpuidx < 0) {
3701                                 pr_debug("invalid gpuid %x\n", attrs[i].value);
3702                                 return -EINVAL;
3703                         }
3704                         if (test_bit(gpuidx, bitmap_access))
3705                                 attrs[i].type = KFD_IOCTL_SVM_ATTR_ACCESS;
3706                         else if (test_bit(gpuidx, bitmap_aip))
3707                                 attrs[i].type =
3708                                         KFD_IOCTL_SVM_ATTR_ACCESS_IN_PLACE;
3709                         else
3710                                 attrs[i].type = KFD_IOCTL_SVM_ATTR_NO_ACCESS;
3711                         break;
3712                 case KFD_IOCTL_SVM_ATTR_SET_FLAGS:
3713                         attrs[i].value = flags_and;
3714                         break;
3715                 case KFD_IOCTL_SVM_ATTR_CLR_FLAGS:
3716                         attrs[i].value = ~flags_or;
3717                         break;
3718                 case KFD_IOCTL_SVM_ATTR_GRANULARITY:
3719                         attrs[i].value = (uint32_t)granularity;
3720                         break;
3721                 }
3722         }
3723
3724         return 0;
3725 }
3726
3727 int kfd_criu_resume_svm(struct kfd_process *p)
3728 {
3729         struct kfd_ioctl_svm_attribute *set_attr_new, *set_attr = NULL;
3730         int nattr_common = 4, nattr_accessibility = 1;
3731         struct criu_svm_metadata *criu_svm_md = NULL;
3732         struct svm_range_list *svms = &p->svms;
3733         struct criu_svm_metadata *next = NULL;
3734         uint32_t set_flags = 0xffffffff;
3735         int i, j, num_attrs, ret = 0;
3736         uint64_t set_attr_size;
3737         struct mm_struct *mm;
3738
3739         if (list_empty(&svms->criu_svm_metadata_list)) {
3740                 pr_debug("No SVM data from CRIU restore stage 2\n");
3741                 return ret;
3742         }
3743
3744         mm = get_task_mm(p->lead_thread);
3745         if (!mm) {
3746                 pr_err("failed to get mm for the target process\n");
3747                 return -ESRCH;
3748         }
3749
3750         num_attrs = nattr_common + (nattr_accessibility * p->n_pdds);
3751
3752         i = j = 0;
3753         list_for_each_entry(criu_svm_md, &svms->criu_svm_metadata_list, list) {
3754                 pr_debug("criu_svm_md[%d]\n\tstart: 0x%llx size: 0x%llx (npages)\n",
3755                          i, criu_svm_md->data.start_addr, criu_svm_md->data.size);
3756
3757                 for (j = 0; j < num_attrs; j++) {
3758                         pr_debug("\ncriu_svm_md[%d]->attrs[%d].type : 0x%x\ncriu_svm_md[%d]->attrs[%d].value : 0x%x\n",
3759                                  i, j, criu_svm_md->data.attrs[j].type,
3760                                  i, j, criu_svm_md->data.attrs[j].value);
3761                         switch (criu_svm_md->data.attrs[j].type) {
3762                         /* During Checkpoint operation, the query for
3763                          * KFD_IOCTL_SVM_ATTR_PREFETCH_LOC attribute might
3764                          * return KFD_IOCTL_SVM_LOCATION_UNDEFINED if they were
3765                          * not used by the range which was checkpointed. Care
3766                          * must be taken to not restore with an invalid value
3767                          * otherwise the gpuidx value will be invalid and
3768                          * set_attr would eventually fail so just replace those
3769                          * with another dummy attribute such as
3770                          * KFD_IOCTL_SVM_ATTR_SET_FLAGS.
3771                          */
3772                         case KFD_IOCTL_SVM_ATTR_PREFETCH_LOC:
3773                                 if (criu_svm_md->data.attrs[j].value ==
3774                                     KFD_IOCTL_SVM_LOCATION_UNDEFINED) {
3775                                         criu_svm_md->data.attrs[j].type =
3776                                                 KFD_IOCTL_SVM_ATTR_SET_FLAGS;
3777                                         criu_svm_md->data.attrs[j].value = 0;
3778                                 }
3779                                 break;
3780                         case KFD_IOCTL_SVM_ATTR_SET_FLAGS:
3781                                 set_flags = criu_svm_md->data.attrs[j].value;
3782                                 break;
3783                         default:
3784                                 break;
3785                         }
3786                 }
3787
3788                 /* CLR_FLAGS is not available via get_attr during checkpoint but
3789                  * it needs to be inserted before restoring the ranges so
3790                  * allocate extra space for it before calling set_attr
3791                  */
3792                 set_attr_size = sizeof(struct kfd_ioctl_svm_attribute) *
3793                                                 (num_attrs + 1);
3794                 set_attr_new = krealloc(set_attr, set_attr_size,
3795                                             GFP_KERNEL);
3796                 if (!set_attr_new) {
3797                         ret = -ENOMEM;
3798                         goto exit;
3799                 }
3800                 set_attr = set_attr_new;
3801
3802                 memcpy(set_attr, criu_svm_md->data.attrs, num_attrs *
3803                                         sizeof(struct kfd_ioctl_svm_attribute));
3804                 set_attr[num_attrs].type = KFD_IOCTL_SVM_ATTR_CLR_FLAGS;
3805                 set_attr[num_attrs].value = ~set_flags;
3806
3807                 ret = svm_range_set_attr(p, mm, criu_svm_md->data.start_addr,
3808                                          criu_svm_md->data.size, num_attrs + 1,
3809                                          set_attr);
3810                 if (ret) {
3811                         pr_err("CRIU: failed to set range attributes\n");
3812                         goto exit;
3813                 }
3814
3815                 i++;
3816         }
3817 exit:
3818         kfree(set_attr);
3819         list_for_each_entry_safe(criu_svm_md, next, &svms->criu_svm_metadata_list, list) {
3820                 pr_debug("freeing criu_svm_md[]\n\tstart: 0x%llx\n",
3821                                                 criu_svm_md->data.start_addr);
3822                 kfree(criu_svm_md);
3823         }
3824
3825         mmput(mm);
3826         return ret;
3827
3828 }
3829
3830 int kfd_criu_restore_svm(struct kfd_process *p,
3831                          uint8_t __user *user_priv_ptr,
3832                          uint64_t *priv_data_offset,
3833                          uint64_t max_priv_data_size)
3834 {
3835         uint64_t svm_priv_data_size, svm_object_md_size, svm_attrs_size;
3836         int nattr_common = 4, nattr_accessibility = 1;
3837         struct criu_svm_metadata *criu_svm_md = NULL;
3838         struct svm_range_list *svms = &p->svms;
3839         uint32_t num_devices;
3840         int ret = 0;
3841
3842         num_devices = p->n_pdds;
3843         /* Handle one SVM range object at a time, also the number of gpus are
3844          * assumed to be same on the restore node, checking must be done while
3845          * evaluating the topology earlier
3846          */
3847
3848         svm_attrs_size = sizeof(struct kfd_ioctl_svm_attribute) *
3849                 (nattr_common + nattr_accessibility * num_devices);
3850         svm_object_md_size = sizeof(struct criu_svm_metadata) + svm_attrs_size;
3851
3852         svm_priv_data_size = sizeof(struct kfd_criu_svm_range_priv_data) +
3853                                                                 svm_attrs_size;
3854
3855         criu_svm_md = kzalloc(svm_object_md_size, GFP_KERNEL);
3856         if (!criu_svm_md) {
3857                 pr_err("failed to allocate memory to store svm metadata\n");
3858                 return -ENOMEM;
3859         }
3860         if (*priv_data_offset + svm_priv_data_size > max_priv_data_size) {
3861                 ret = -EINVAL;
3862                 goto exit;
3863         }
3864
3865         ret = copy_from_user(&criu_svm_md->data, user_priv_ptr + *priv_data_offset,
3866                              svm_priv_data_size);
3867         if (ret) {
3868                 ret = -EFAULT;
3869                 goto exit;
3870         }
3871         *priv_data_offset += svm_priv_data_size;
3872
3873         list_add_tail(&criu_svm_md->list, &svms->criu_svm_metadata_list);
3874
3875         return 0;
3876
3877
3878 exit:
3879         kfree(criu_svm_md);
3880         return ret;
3881 }
3882
3883 int svm_range_get_info(struct kfd_process *p, uint32_t *num_svm_ranges,
3884                        uint64_t *svm_priv_data_size)
3885 {
3886         uint64_t total_size, accessibility_size, common_attr_size;
3887         int nattr_common = 4, nattr_accessibility = 1;
3888         int num_devices = p->n_pdds;
3889         struct svm_range_list *svms;
3890         struct svm_range *prange;
3891         uint32_t count = 0;
3892
3893         *svm_priv_data_size = 0;
3894
3895         svms = &p->svms;
3896         if (!svms)
3897                 return -EINVAL;
3898
3899         mutex_lock(&svms->lock);
3900         list_for_each_entry(prange, &svms->list, list) {
3901                 pr_debug("prange: 0x%p start: 0x%lx\t npages: 0x%llx\t end: 0x%llx\n",
3902                          prange, prange->start, prange->npages,
3903                          prange->start + prange->npages - 1);
3904                 count++;
3905         }
3906         mutex_unlock(&svms->lock);
3907
3908         *num_svm_ranges = count;
3909         /* Only the accessbility attributes need to be queried for all the gpus
3910          * individually, remaining ones are spanned across the entire process
3911          * regardless of the various gpu nodes. Of the remaining attributes,
3912          * KFD_IOCTL_SVM_ATTR_CLR_FLAGS need not be saved.
3913          *
3914          * KFD_IOCTL_SVM_ATTR_PREFERRED_LOC
3915          * KFD_IOCTL_SVM_ATTR_PREFETCH_LOC
3916          * KFD_IOCTL_SVM_ATTR_SET_FLAGS
3917          * KFD_IOCTL_SVM_ATTR_GRANULARITY
3918          *
3919          * ** ACCESSBILITY ATTRIBUTES **
3920          * (Considered as one, type is altered during query, value is gpuid)
3921          * KFD_IOCTL_SVM_ATTR_ACCESS
3922          * KFD_IOCTL_SVM_ATTR_ACCESS_IN_PLACE
3923          * KFD_IOCTL_SVM_ATTR_NO_ACCESS
3924          */
3925         if (*num_svm_ranges > 0) {
3926                 common_attr_size = sizeof(struct kfd_ioctl_svm_attribute) *
3927                         nattr_common;
3928                 accessibility_size = sizeof(struct kfd_ioctl_svm_attribute) *
3929                         nattr_accessibility * num_devices;
3930
3931                 total_size = sizeof(struct kfd_criu_svm_range_priv_data) +
3932                         common_attr_size + accessibility_size;
3933
3934                 *svm_priv_data_size = *num_svm_ranges * total_size;
3935         }
3936
3937         pr_debug("num_svm_ranges %u total_priv_size %llu\n", *num_svm_ranges,
3938                  *svm_priv_data_size);
3939         return 0;
3940 }
3941
3942 int kfd_criu_checkpoint_svm(struct kfd_process *p,
3943                             uint8_t __user *user_priv_data,
3944                             uint64_t *priv_data_offset)
3945 {
3946         struct kfd_criu_svm_range_priv_data *svm_priv = NULL;
3947         struct kfd_ioctl_svm_attribute *query_attr = NULL;
3948         uint64_t svm_priv_data_size, query_attr_size = 0;
3949         int index, nattr_common = 4, ret = 0;
3950         struct svm_range_list *svms;
3951         int num_devices = p->n_pdds;
3952         struct svm_range *prange;
3953         struct mm_struct *mm;
3954
3955         svms = &p->svms;
3956         if (!svms)
3957                 return -EINVAL;
3958
3959         mm = get_task_mm(p->lead_thread);
3960         if (!mm) {
3961                 pr_err("failed to get mm for the target process\n");
3962                 return -ESRCH;
3963         }
3964
3965         query_attr_size = sizeof(struct kfd_ioctl_svm_attribute) *
3966                                 (nattr_common + num_devices);
3967
3968         query_attr = kzalloc(query_attr_size, GFP_KERNEL);
3969         if (!query_attr) {
3970                 ret = -ENOMEM;
3971                 goto exit;
3972         }
3973
3974         query_attr[0].type = KFD_IOCTL_SVM_ATTR_PREFERRED_LOC;
3975         query_attr[1].type = KFD_IOCTL_SVM_ATTR_PREFETCH_LOC;
3976         query_attr[2].type = KFD_IOCTL_SVM_ATTR_SET_FLAGS;
3977         query_attr[3].type = KFD_IOCTL_SVM_ATTR_GRANULARITY;
3978
3979         for (index = 0; index < num_devices; index++) {
3980                 struct kfd_process_device *pdd = p->pdds[index];
3981
3982                 query_attr[index + nattr_common].type =
3983                         KFD_IOCTL_SVM_ATTR_ACCESS;
3984                 query_attr[index + nattr_common].value = pdd->user_gpu_id;
3985         }
3986
3987         svm_priv_data_size = sizeof(*svm_priv) + query_attr_size;
3988
3989         svm_priv = kzalloc(svm_priv_data_size, GFP_KERNEL);
3990         if (!svm_priv) {
3991                 ret = -ENOMEM;
3992                 goto exit_query;
3993         }
3994
3995         index = 0;
3996         list_for_each_entry(prange, &svms->list, list) {
3997
3998                 svm_priv->object_type = KFD_CRIU_OBJECT_TYPE_SVM_RANGE;
3999                 svm_priv->start_addr = prange->start;
4000                 svm_priv->size = prange->npages;
4001                 memcpy(&svm_priv->attrs, query_attr, query_attr_size);
4002                 pr_debug("CRIU: prange: 0x%p start: 0x%lx\t npages: 0x%llx end: 0x%llx\t size: 0x%llx\n",
4003                          prange, prange->start, prange->npages,
4004                          prange->start + prange->npages - 1,
4005                          prange->npages * PAGE_SIZE);
4006
4007                 ret = svm_range_get_attr(p, mm, svm_priv->start_addr,
4008                                          svm_priv->size,
4009                                          (nattr_common + num_devices),
4010                                          svm_priv->attrs);
4011                 if (ret) {
4012                         pr_err("CRIU: failed to obtain range attributes\n");
4013                         goto exit_priv;
4014                 }
4015
4016                 if (copy_to_user(user_priv_data + *priv_data_offset, svm_priv,
4017                                  svm_priv_data_size)) {
4018                         pr_err("Failed to copy svm priv to user\n");
4019                         ret = -EFAULT;
4020                         goto exit_priv;
4021                 }
4022
4023                 *priv_data_offset += svm_priv_data_size;
4024
4025         }
4026
4027
4028 exit_priv:
4029         kfree(svm_priv);
4030 exit_query:
4031         kfree(query_attr);
4032 exit:
4033         mmput(mm);
4034         return ret;
4035 }
4036
4037 int
4038 svm_ioctl(struct kfd_process *p, enum kfd_ioctl_svm_op op, uint64_t start,
4039           uint64_t size, uint32_t nattrs, struct kfd_ioctl_svm_attribute *attrs)
4040 {
4041         struct mm_struct *mm = current->mm;
4042         int r;
4043
4044         start >>= PAGE_SHIFT;
4045         size >>= PAGE_SHIFT;
4046
4047         switch (op) {
4048         case KFD_IOCTL_SVM_OP_SET_ATTR:
4049                 r = svm_range_set_attr(p, mm, start, size, nattrs, attrs);
4050                 break;
4051         case KFD_IOCTL_SVM_OP_GET_ATTR:
4052                 r = svm_range_get_attr(p, mm, start, size, nattrs, attrs);
4053                 break;
4054         default:
4055                 r = EINVAL;
4056                 break;
4057         }
4058
4059         return r;
4060 }